一眼看懂
封面预览
针对实时分块(RTC)执行中,依赖推理时修复(inpainting)来保证动作连贯性会引入额外计算开销和延迟的问题,提出一种在训练时进行动作条…
- 针对实时分块(RTC)执行中,依赖推理时修复(inpainting)来保证动作连贯性会引入额外计算开销和延迟的问题,提出一种在训练时进行动作条…
- 核心方法是:在训练时模拟推理延迟,通过直接对真实动作前缀进行条件化来学习模型,从而消除推理时的任何计算开销。
- 该方法是推理时RTC的直接替代方案,无需修改模型架构或机器人运行时系统,只需几行额外代码即可实现。
Card 01
研究单位
研究单位
- Physical Intelligence
Card 02
论文概述
论文概述
- 针对实时分块(RTC)执行中,依赖推理时修复(inpainting)来保证动作连贯性会引入额外计算开销和延迟的问题,提出一种在训练时进行动作条件化的替代方案。
- 核心方法是:在训练时模拟推理延迟,通过直接对真实动作前缀进行条件化来学习模型,从而消除推理时的任何计算开销。
- 该方法是推理时RTC的直接替代方案,无需修改模型架构或机器人运行时系统,只需几行额外代码即可实现。
Card 03
核心贡献
核心贡献
- 提出了一种训练时动作条件化(training-time RTC) 方法,通过模拟推理延迟并直接学习基于动作前缀的动作后补,消除了推理时RTC的额外计算开销。
- 该方法与现有推理时RTC具有完全相同的接口,可作为无需任何架构或运行时修改的即插即用替代方案。
- 在仿真实验中证明,在高推理延迟(≥2个时间步)情况下,训练时RTC的性能优于推理时RTC。
- 在真实世界的复杂机器人任务(纸盒搭建、意式浓缩咖啡制作)中,训练时RTC与推理时RTC保持了任务成功率和执行速度的同等水平,同时计算成本更低。
- 展示了该方法可以通过微调一个未经动作前缀条件化预训练的基模型(π₀.₆ VLA)来成功实现。
Card 04
方法描述
方法描述
- 方法基于条件流匹配(Conditional Flow Matching)框架,对模型的架构和损失计算进行了三项最小改动。
- 关键技术/创新点:
- 允许模型中每个动作时间步使用不同的流匹配时间步(timestep),对于类似扩散Transformer的架构,这可以通过adaLN-zero条件轻松实现,无需增加可学习参数。
- 对动作前缀使用真实、无噪声的动作,并将其对应的流匹配时间步设为1,从而将模型在真实前缀上进行条件化,同时仅学习去噪动作后补。
- 在损失函数中应用掩码,仅计算与动作后补对应的输出损失。
- 在训练过程中,由于实际延迟未知,会随机采样延迟值(d)进行训练,使模型能处理不同的延迟情况。
Card 05
数据集与资源
数据集与资源
- 仿真实验:使用 dynamic Kinetix 基准数据集,由专家策略混合生成的数据。
- 真实世界实验:使用 π₀.₆ VLA 作为基模型,并在两个任务(纸盒搭建、意式浓缩咖啡制作)上进行微调。
- 模型:真实世界实验基于 π₀.₆ 模型。仿真实验使用具有4层 MLP-Mixer 架构的流策略。
- 训练资源:真实世界实验在远程 H100 服务器上进行推理。
Card 06
评估与结果
评估与结果
- 评估环境与基准:
- 仿真:在 dynamic Kinetix 基准上,与推理时RTC、朴素异步和同步推理基线进行对比。报告了不同推理延迟(0-4个时间步)下的二元成功率。
- 真实世界:在纸盒搭建和意式浓缩咖啡制作两个复杂操作任务上,评估了训练时RTC、推理时RTC和同步基线的性能与速度。
- 主要评估指标:成功率(solve rate) 和任务执行持续时间。仿真实验中还绘制了延迟与成功率的关系曲线。
- 关键实验结果:
- 仿真:在推理延迟为2或更高时,训练时RTC的性能优于推理时RTC,且随着延迟增加优势更明显。在延迟为0或1时性能略低。
- 真实世界:训练时RTC与推理时RTC保持了同等的任务成功率和执行速度,同时将平均端到端推理延迟从135ms降低到108ms(无需额外计算开销),且均显著优于同步推理基线。