一眼看懂
封面预览
提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-…
- 提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-…
- 现有 VLA 模型采用批量执行范式,控制频率仅为 2-5 Hz,在动态环境中因执行盲区导致目标拦截失败
- 核心思路:将语义推理与高频驱动解耦,通过双频架构(低频宏观意图环 + 高频微观控制环)重新分配计算资源
Card 01
研究单位
研究单位
- Yuteng Sun - 1,2 ( Affiliation 1 and 2)
- Haoran Wang - 1,3 (Affiliation 1 and 3)
- Ruofei Bai - 1,3 (Affiliation 1 and 3)
- Zhengguo Li - 1
- Jun Li - 1
- Meng Yee (Michael) Chuah - 1
- Wei Yun Yau - 1
- (注:具体机构信息在HTML中未明确标注)
Card 02
论文概述
论文概述
- 提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架,解决大规模视觉-语言-动作 (VLA) 模型的高推理延迟问题
- 现有 VLA 模型采用批量执行范式,控制频率仅为 2-5 Hz,在动态环境中因执行盲区导致目标拦截失败
- 核心思路:将语义推理与高频驱动解耦,通过双频架构(低频宏观意图环 + 高频微观控制环)重新分配计算资源
Card 03
核心贡献
核心贡献
- 双循环框架:通过解耦意图生成与执行,增强重型 VLA 主干的控制更新密度
- 时间对齐训练范式:使策略能够稳健地补偿可变的 VLM 延迟和过时的语义线索
- 单步流匹配推理优化:利用源偏置采样训练将动作分块生成压缩为单步执行,促进高频交错
- 2倍性能提升:在动态拦截任务中相比基线方法性能翻倍,并在非暂停推理评估下保持鲁棒性
Card 04
方法描述
方法描述
- 分层双频架构:宏观意图环(语义缓存)以低频运行,微观控制环(交错流执行)以高频运行
- 宏观意图环:使用 VLM 主干提取语义嵌入,缓存用于后续执行,利用语义意图的时间持久性
- 微观控制环:在每个执行块边界执行单步欧拉积分,将最新本体感知状态注入求解器,实现闭环修正
- 时间对齐训练:通过动态延迟注入和基于地平线的加权流匹配,使策略学习预测补偿
- 差分运动预测器:通过运动注入增强动态感知,使用接触门控机制在接触时切换到本体感知控制
Card 05
数据集与资源
数据集与资源
- 数据集:RoboCasa (MuJoCo) 基准测试的 8 个静态任务 + 动态拦截基准测试(Easy/Hard 两级)
- 动态任务数据:使用暂停模拟预言机策略收集 2000 个成功 episode
- 模型主干:GR00T-N1.5-3B 作为 VLA 主干
- 预测范围:H=16 步
- 执行块大小:N=4 步
- 边缘硬件:NVIDIA Jetson AGX Orin (Max-N mode, TensorRT)
Card 06
评估与结果
评估与结果
- 控制频率:TIDAL 达到约 9 Hz(基线约 2.4 Hz),提升 4 倍反馈频率
- 动态拦截任务:
- Easy 级:TIDAL 0.61 vs 基线 0.31(提升 97%)
- Hard 级:TIDAL 0.36 vs 基线 0.16(提升 125%)
- 静态任务:TIDAL 50.94% vs 基线 59.25%(略有下降)
- 非暂停推理(更接近真实部署):
- TIDAL 保持 0.30(保留率约 49%)
- 基线降至 0.09(保留率约 29%)
- 消融实验:运动预测器与分层架构的协同效果显著,完整 TIDAL (0.61) 优于各消融变体