Training-Time Action Conditioning for Efficient Real-Time Chunking - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

针对实时分块（RTC）执行中，依赖推理时修复（inpainting）来保证动作连贯性会引入额外计算开销和延迟的问题，提出一种在训练时进行动作条…

Card 01 研究单位

研究单位

Card 02 论文概述

针对实时分块（RTC）执行中，依赖推理时修复（inpainting）来保证动作连贯性会引入额外计算开销和延迟的问题，提出一种在训练时进行动作条件化的替代方案。
核心方法是：在训练时模拟推理延迟，通过直接对真实动作前缀进行条件化来学习模型，从而消除推理时的任何计算开销。
该方法是推理时RTC的直接替代方案，无需修改模型架构或机器人运行时系统，只需几行额外代码即可实现。

Card 03 核心贡献

提出了一种训练时动作条件化（training-time RTC） 方法，通过模拟推理延迟并直接学习基于动作前缀的动作后补，消除了推理时RTC的额外计算开销。
该方法与现有推理时RTC具有完全相同的接口，可作为无需任何架构或运行时修改的即插即用替代方案。
在仿真实验中证明，在高推理延迟（≥2个时间步）情况下，训练时RTC的性能优于推理时RTC。
在真实世界的复杂机器人任务（纸盒搭建、意式浓缩咖啡制作）中，训练时RTC与推理时RTC保持了任务成功率和执行速度的同等水平，同时计算成本更低。
展示了该方法可以通过微调一个未经动作前缀条件化预训练的基模型（π₀.₆ VLA）来成功实现。

Card 04 方法描述

- 允许模型中每个动作时间步使用不同的流匹配时间步（timestep），对于类似扩散Transformer的架构，这可以通过adaLN-zero条件轻松实现，无需增加可学习参数。

- 对动作前缀使用真实、无噪声的动作，并将其对应的流匹配时间步设为1，从而将模型在真实前缀上进行条件化，同时仅学习去噪动作后补。

- 在损失函数中应用掩码，仅计算与动作后补对应的输出损失。

Card 05 数据集与资源

Card 06 评估与结果

- 仿真：在 dynamic Kinetix 基准上，与推理时RTC、朴素异步和同步推理基线进行对比。报告了不同推理延迟（0-4个时间步）下的二元成功率。

- 真实世界：在纸盒搭建和意式浓缩咖啡制作两个复杂操作任务上，评估了训练时RTC、推理时RTC和同步基线的性能与速度。

- 仿真：在推理延迟为2或更高时，训练时RTC的性能优于推理时RTC，且随着延迟增加优势更明显。在延迟为0或1时性能略低。

- 真实世界：训练时RTC与推理时RTC保持了同等的任务成功率和执行速度，同时将平均端到端推理延迟从135ms降低到108ms（无需额外计算开销），且均显著优于同步推理基线。