一眼看懂
封面预览
针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理…
- 针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理…
- 旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题,实现平滑的异步实时控制。
- 该方法无需重新训练模型,可直接应用于现有的基于扩散或流匹配的策略。
Card 01
研究单位
研究单位
- Physical Intelligence
- UC Berkeley
Card 02
论文概述
论文概述
- 针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理时算法。
- 旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题,实现平滑的异步实时控制。
- 该方法无需重新训练模型,可直接应用于现有的基于扩散或流匹配的策略。
Card 03
核心贡献
核心贡献
- 提出了 RTC 算法,将异步动作生成构建为“修复”问题,通过冻结必执行动作并生成剩余部分来保证实时性。
- 设计了 Soft Masking(软掩码)机制,通过指数衰减的权重处理分块间的重叠区域,显著改善了跨分块的连续性。
- 创建了基于 Kinetix 模拟器的动态任务基准,包含 12 个高度动态的操作和运动任务。
- 在 6 项真实世界双臂操作任务中验证了方法的有效性,证明了其在高推理延迟下的鲁棒性和高吞吐量。
Card 04
方法描述
方法描述
- 将实时执行视为条件生成问题:在执行当前动作块的同时,利用流匹配的推理时引导生成下一个动作块。
- 借鉴图像修复技术,利用 $\Pi$GDM(伪逆引导扩散模型)添加梯度修正项,强制生成的动作与已冻结的前序动作保持一致。
- 引入 Soft Masking 策略,替代传统的二值硬掩码,对分块间重叠区域的动作施加从 1 到 0 的指数衰减权重,减少动作突变。
- 引导权重裁剪技术,确保在少步去噪设置下的算法稳定性。
Card 05
数据集与资源
数据集与资源
- Kinetix 模拟环境基准(包含 12 个动态任务,如抛接、平衡等)。
- 真实世界双臂操作任务数据(包括点燃火柴、插网线、叠衣服等 6 项任务)。
- 基础模型为 $\pi_{0.5}$ VLA,预测视野 H=50,去噪步数 n=5。
- 硬件环境涉及远程推理及 RTX 4090 GPU(用于延迟基准测试)。
Card 06
评估与结果
评估与结果
- 在 Kinetix 模拟基准中,RTC 在不同推理延迟下均优于 Bidirectional Decoding (BID) 和 Temporal Ensembling (TE),且计算开销更低。
- 真实世界实验显示,RTC 比同步推理快 20%,且在高延迟(如 +200ms)下仍保持高成功率,而 TE 方法会导致机器人保护性停止。
- 在“点燃火柴”等高精度任务中,RTC 即使面临超过 300ms 的延迟(占预测视野 30%)仍能成功完成任务。
- RTC 在平均任务吞吐量指标上表现最佳,兼顾了执行速度和任务完成质量。