返回列表 VLA / Vision-Language-Action 每日论文卡
TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control
提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-…

论文详情

TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control

2026-01-21 · 原文 · 翻译 · 2601.14945

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-语言-动作 (VLA) 模型的高推理延迟问题 现有 VLA 模型采用批量执行范式,控制频率仅为 2-5 Hz,在动态环境中因执行盲区导致目标拦截失败 核心思路:将语义推理与高频驱动解耦,通过双频架构(低频宏观意图环 + 高频微观控制环)重新分配计算资源

5 分钟读完 6 张阅读卡 Yuteng Sun - 1,2 ( Affiliation 1 and 2)
一眼看懂 封面预览

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-…

  • 提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-…
  • 现有 VLA 模型采用批量执行范式,控制频率仅为 2-5 Hz,在动态环境中因执行盲区导致目标拦截失败
  • 核心思路:将语义推理与高频驱动解耦,通过双频架构(低频宏观意图环 + 高频微观控制环)重新分配计算资源
Card 01 研究单位

研究单位

  • Yuteng Sun - 1,2 ( Affiliation 1 and 2)
  • Haoran Wang - 1,3 (Affiliation 1 and 3)
  • Ruofei Bai - 1,3 (Affiliation 1 and 3)
  • Zhengguo Li - 1
  • Jun Li - 1
  • Meng Yee (Michael) Chuah - 1
  • Wei Yun Yau - 1
  • (注:具体机构信息在HTML中未明确标注)
Card 02 论文概述

论文概述

  • 提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-语言-动作 (VLA) 模型的高推理延迟问题
  • 现有 VLA 模型采用批量执行范式,控制频率仅为 2-5 Hz,在动态环境中因执行盲区导致目标拦截失败
  • 核心思路:将语义推理与高频驱动解耦,通过双频架构(低频宏观意图环 + 高频微观控制环)重新分配计算资源
Card 03 核心贡献

核心贡献

  • 双循环框架:通过解耦意图生成与执行,增强重型 VLA 主干的控制更新密度
  • 时间对齐训练范式:使策略能够稳健地补偿可变的 VLM 延迟和过时的语义线索
  • 单步流匹配推理优化:利用源偏置采样训练将动作分块生成压缩为单步执行,促进高频交错
  • 2倍性能提升:在动态拦截任务中相比基线方法性能翻倍,并在非暂停推理评估下保持鲁棒性
Card 04 方法描述

方法描述

  • 分层双频架构:宏观意图环(语义缓存)以低频运行,微观控制环(交错流执行)以高频运行
  • 宏观意图环:使用 VLM 主干提取语义嵌入,缓存用于后续执行,利用语义意图的时间持久性
  • 微观控制环:在每个执行块边界执行单步欧拉积分,将最新本体感知状态注入求解器,实现闭环修正
  • 时间对齐训练:通过动态延迟注入和基于地平线的加权流匹配,使策略学习预测补偿
  • 差分运动预测器:通过运动注入增强动态感知,使用接触门控机制在接触时切换到本体感知控制
Card 05 数据集与资源

数据集与资源

  • 数据集:RoboCasa (MuJoCo) 基准测试的 8 个静态任务 + 动态拦截基准测试(Easy/Hard 两级)
  • 动态任务数据:使用暂停模拟预言机策略收集 2000 个成功 episode
  • 模型主干GR00T-N1.5-3B 作为 VLA 主干
  • 预测范围:H=16 步
  • 执行块大小:N=4 步
  • 边缘硬件:NVIDIA Jetson AGX Orin (Max-N mode, TensorRT)
Card 06 评估与结果

评估与结果

  • 控制频率:TIDAL 达到约 9 Hz(基线约 2.4 Hz),提升 4 倍反馈频率
  • 动态拦截任务

- Easy 级:TIDAL 0.61 vs 基线 0.31(提升 97%)

- Hard 级:TIDAL 0.36 vs 基线 0.16(提升 125%)

  • 静态任务:TIDAL 50.94% vs 基线 59.25%(略有下降)
  • 非暂停推理(更接近真实部署):

- TIDAL 保持 0.30(保留率约 49%)

- 基线降至 0.09(保留率约 29%)

  • 消融实验:运动预测器与分层架构的协同效果显著,完整 TIDAL (0.61) 优于各消融变体