返回列表 VLA / Vision-Language-Action 每日论文卡

Real-Time Execution of Action Chunking Flow Policies

论文详情

Real-Time Execution of Action Chunking Flow Policies

2025-06-09 · 原文 · 翻译 · 2506.07339

针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理时算法。 旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题,实现平滑的异步实时控制。 该方法无需重新训练模型,可直接应用于现有的基于扩散或流匹配的策略。

4 分钟读完 6 张阅读卡 Physical Intelligence
一眼看懂 封面预览

针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理…

  • 针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理…
  • 旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题,实现平滑的异步实时控制。
  • 该方法无需重新训练模型,可直接应用于现有的基于扩散或流匹配的策略。
Card 01 研究单位

研究单位

  • Physical Intelligence
  • UC Berkeley
Card 02 论文概述

论文概述

  • 针对现代视觉-语言-动作模型(VLAs)在高频控制任务中的高延迟问题,提出了一种名为 Real-Time Chunking (RTC) 的推理时算法。
  • 旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题,实现平滑的异步实时控制。
  • 该方法无需重新训练模型,可直接应用于现有的基于扩散或流匹配的策略。
Card 03 核心贡献

核心贡献

  • 提出了 RTC 算法,将异步动作生成构建为“修复”问题,通过冻结必执行动作并生成剩余部分来保证实时性。
  • 设计了 Soft Masking(软掩码)机制,通过指数衰减的权重处理分块间的重叠区域,显著改善了跨分块的连续性。
  • 创建了基于 Kinetix 模拟器的动态任务基准,包含 12 个高度动态的操作和运动任务。
  • 在 6 项真实世界双臂操作任务中验证了方法的有效性,证明了其在高推理延迟下的鲁棒性和高吞吐量。
Card 04 方法描述

方法描述

  • 将实时执行视为条件生成问题:在执行当前动作块的同时,利用流匹配的推理时引导生成下一个动作块。
  • 借鉴图像修复技术,利用 $\Pi$GDM(伪逆引导扩散模型)添加梯度修正项,强制生成的动作与已冻结的前序动作保持一致。
  • 引入 Soft Masking 策略,替代传统的二值硬掩码,对分块间重叠区域的动作施加从 1 到 0 的指数衰减权重,减少动作突变。
  • 引导权重裁剪技术,确保在少步去噪设置下的算法稳定性。
Card 05 数据集与资源

数据集与资源

  • Kinetix 模拟环境基准(包含 12 个动态任务,如抛接、平衡等)。
  • 真实世界双臂操作任务数据(包括点燃火柴、插网线、叠衣服等 6 项任务)。
  • 基础模型为 $\pi_{0.5}$ VLA,预测视野 H=50,去噪步数 n=5。
  • 硬件环境涉及远程推理及 RTX 4090 GPU(用于延迟基准测试)。
Card 06 评估与结果

评估与结果

  • Kinetix 模拟基准中,RTC 在不同推理延迟下均优于 Bidirectional Decoding (BID)Temporal Ensembling (TE),且计算开销更低。
  • 真实世界实验显示,RTC 比同步推理快 20%,且在高延迟(如 +200ms)下仍保持高成功率,而 TE 方法会导致机器人保护性停止。
  • 在“点燃火柴”等高精度任务中,RTC 即使面临超过 300ms 的延迟(占预测视野 30%)仍能成功完成任务。
  • RTC 在平均任务吞吐量指标上表现最佳,兼顾了执行速度和任务完成质量。