Real-Time Execution of Action Chunking Flow Policies

论文详情

Real-Time Execution of Action Chunking Flow Policies

2025-06-09 · 原文 · 翻译 · 2506.07339

针对现代视觉-语言-动作模型（VLAs）在高频控制任务中的高延迟问题，提出了一种名为 Real-Time Chunking (RTC) 的推理时算法。旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题，实现平滑的异步实时控制。该方法无需重新训练模型，可直接应用于现有的基于扩散或流匹配的策略。

4 分钟读完 6 张阅读卡 Physical Intelligence

一眼看懂封面预览

针对现代视觉-语言-动作模型（VLAs）在高频控制任务中的高延迟问题，提出了一种名为 Real-Time Chunking (RTC) 的推理…

针对现代视觉-语言-动作模型（VLAs）在高频控制任务中的高延迟问题，提出了一种名为 Real-Time Chunking (RTC) 的推理…
旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题，实现平滑的异步实时控制。
该方法无需重新训练模型，可直接应用于现有的基于扩散或流匹配的策略。

Card 01 研究单位

研究单位

Physical Intelligence
UC Berkeley

Card 02 论文概述

论文概述

针对现代视觉-语言-动作模型（VLAs）在高频控制任务中的高延迟问题，提出了一种名为 Real-Time Chunking (RTC) 的推理时算法。
旨在解决动作分块执行时的停顿和分块边界的运动不连续性问题，实现平滑的异步实时控制。
该方法无需重新训练模型，可直接应用于现有的基于扩散或流匹配的策略。

Card 03 核心贡献

核心贡献

提出了 RTC 算法，将异步动作生成构建为“修复”问题，通过冻结必执行动作并生成剩余部分来保证实时性。
设计了 Soft Masking（软掩码）机制，通过指数衰减的权重处理分块间的重叠区域，显著改善了跨分块的连续性。
创建了基于 Kinetix 模拟器的动态任务基准，包含 12 个高度动态的操作和运动任务。
在 6 项真实世界双臂操作任务中验证了方法的有效性，证明了其在高推理延迟下的鲁棒性和高吞吐量。

Card 04 方法描述

方法描述

将实时执行视为条件生成问题：在执行当前动作块的同时，利用流匹配的推理时引导生成下一个动作块。
借鉴图像修复技术，利用 $\Pi$GDM（伪逆引导扩散模型）添加梯度修正项，强制生成的动作与已冻结的前序动作保持一致。
引入 Soft Masking 策略，替代传统的二值硬掩码，对分块间重叠区域的动作施加从 1 到 0 的指数衰减权重，减少动作突变。
引导权重裁剪技术，确保在少步去噪设置下的算法稳定性。

Card 05 数据集与资源

数据集与资源

Kinetix 模拟环境基准（包含 12 个动态任务，如抛接、平衡等）。
真实世界双臂操作任务数据（包括点燃火柴、插网线、叠衣服等 6 项任务）。
基础模型为 $\pi_{0.5}$ VLA，预测视野 H=50，去噪步数 n=5。
硬件环境涉及远程推理及 RTX 4090 GPU（用于延迟基准测试）。

Card 06 评估与结果

评估与结果

在 Kinetix 模拟基准中，RTC 在不同推理延迟下均优于 Bidirectional Decoding (BID) 和 Temporal Ensembling (TE)，且计算开销更低。
真实世界实验显示，RTC 比同步推理快 20%，且在高延迟（如 +200ms）下仍保持高成功率，而 TE 方法会导致机器人保护性停止。
在“点燃火柴”等高精度任务中，RTC 即使面临超过 300ms 的延迟（占预测视野 30%）仍能成功完成任务。
RTC 在平均任务吞吐量指标上表现最佳，兼顾了执行速度和任务完成质量。