提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架，解决大规模视觉-…

论文详情

TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control

2026-01-21 · 原文 · 翻译 · 2601.14945

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架，解决大规模视觉-语言-动作 (VLA) 模型的高推理延迟问题现有 VLA 模型采用批量执行范式，控制频率仅为 2-5 Hz，在动态环境中因执行盲区导致目标拦截失败核心思路：将语义推理与高频驱动解耦，通过双频架构（低频宏观意图环 + 高频微观控制环）重新分配计算资源

5 分钟读完 6 张阅读卡 Yuteng Sun - 1,2 ( Affiliation 1 and 2)

一眼看懂封面预览

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架，解决大规模视觉-…

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架，解决大规模视觉-…
现有 VLA 模型采用批量执行范式，控制频率仅为 2-5 Hz，在动态环境中因执行盲区导致目标拦截失败
核心思路：将语义推理与高频驱动解耦，通过双频架构（低频宏观意图环 + 高频微观控制环）重新分配计算资源

Card 01 研究单位

研究单位

Yuteng Sun - 1,2 ( Affiliation 1 and 2)
Haoran Wang - 1,3 (Affiliation 1 and 3)
Ruofei Bai - 1,3 (Affiliation 1 and 3)
Zhengguo Li - 1
Jun Li - 1
Meng Yee (Michael) Chuah - 1
Wei Yun Yau - 1
(注：具体机构信息在HTML中未明确标注)

Card 02 论文概述

论文概述

提出 TIDAL (Temporally Interleaved Diffusion and Action Loop) 框架，解决大规模视觉-语言-动作 (VLA) 模型的高推理延迟问题
现有 VLA 模型采用批量执行范式，控制频率仅为 2-5 Hz，在动态环境中因执行盲区导致目标拦截失败
核心思路：将语义推理与高频驱动解耦，通过双频架构（低频宏观意图环 + 高频微观控制环）重新分配计算资源

Card 03 核心贡献

核心贡献

双循环框架：通过解耦意图生成与执行，增强重型 VLA 主干的控制更新密度
时间对齐训练范式：使策略能够稳健地补偿可变的 VLM 延迟和过时的语义线索
单步流匹配推理优化：利用源偏置采样训练将动作分块生成压缩为单步执行，促进高频交错
2倍性能提升：在动态拦截任务中相比基线方法性能翻倍，并在非暂停推理评估下保持鲁棒性

Card 04 方法描述

方法描述

分层双频架构：宏观意图环（语义缓存）以低频运行，微观控制环（交错流执行）以高频运行
宏观意图环：使用 VLM 主干提取语义嵌入，缓存用于后续执行，利用语义意图的时间持久性
微观控制环：在每个执行块边界执行单步欧拉积分，将最新本体感知状态注入求解器，实现闭环修正
时间对齐训练：通过动态延迟注入和基于地平线的加权流匹配，使策略学习预测补偿
差分运动预测器：通过运动注入增强动态感知，使用接触门控机制在接触时切换到本体感知控制

Card 05 数据集与资源

数据集与资源

数据集：RoboCasa (MuJoCo) 基准测试的 8 个静态任务 + 动态拦截基准测试（Easy/Hard 两级）
动态任务数据：使用暂停模拟预言机策略收集 2000 个成功 episode
模型主干：GR00T-N1.5-3B 作为 VLA 主干
预测范围：H=16 步
执行块大小：N=4 步
边缘硬件：NVIDIA Jetson AGX Orin (Max-N mode, TensorRT)

Card 06 评估与结果

评估与结果

控制频率：TIDAL 达到约 9 Hz（基线约 2.4 Hz），提升 4 倍反馈频率
动态拦截任务：

- Easy 级：TIDAL 0.61 vs 基线 0.31（提升 97%）

- Hard 级：TIDAL 0.36 vs 基线 0.16（提升 125%）

静态任务：TIDAL 50.94% vs 基线 59.25%（略有下降）
非暂停推理（更接近真实部署）：

- TIDAL 保持 0.30（保留率约 49%）

- 基线降至 0.09（保留率约 29%）

消融实验：运动预测器与分层架构的协同效果显著，完整 TIDAL (0.61) 优于各消融变体