一眼看懂
封面预览
本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。
- 本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。
- 论文提出一种名为知识绝缘的训练策略,通过分离离散与连续动作预测的训练信号,来同时实现快速训练、快速推理与更好的泛化能力。
- 研究目标是在不牺牲VLM骨干网络语义知识的前提下,高效地将预训练的视觉语言模型适配到机器人控制任务。
Card 01
研究单位
研究单位
- Physical Intelligence
Card 02
论文概述
论文概述
- 本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。
- 论文提出一种名为知识绝缘的训练策略,通过分离离散与连续动作预测的训练信号,来同时实现快速训练、快速推理与更好的泛化能力。
- 研究目标是在不牺牲VLM骨干网络语义知识的前提下,高效地将预训练的视觉语言模型适配到机器人控制任务。
Card 03
核心贡献
核心贡献
- 提出了知识绝缘技术,在训练VLA时阻断连续动作专家向VLM骨干网络的梯度回传,以保护预训练知识。
- 设计了一个统一的训练配方,同时使用离散动作token进行表示学习,并训练连续动作专家以实现快速精确控制。
- 通过广泛实验验证了所提方法在训练速度、推理速度和泛化性能上的优势,并提供了对各种设计选择的深入分析。
- 构建了首个能够快速训练、保留VLM知识并支持高频连续动作输出的VLA训练方案。
Card 04
方法描述
方法描述
- 核心方法是知识绝缘:使用离散化动作上的下一个token预测损失来训练VLM骨干网络,同时使用流匹配训练动作专家生成连续动作,且梯度不从动作专家回传至骨干网络。
- 采用了联合训练,同时处理离散动作(用于表示学习)和连续动作(用于精确控制),以及通用视觉语言数据(用于知识迁移)。
- 模型架构基于π₀,使用一个共享的VLM骨干网络和一个较小、专门的动作专家网络,两者通过交叉注意力交互。
Card 05
数据集与资源
数据集与资源
- 评估使用了开源基准DROID和LIBERO。
- 在复杂的现实世界任务上进行了测试,包括抽屉取物、T恤折叠、餐桌清理等静态机器人任务,以及铺床、水槽放碗等移动操作任务。
- 训练通用模型使用了大规模机器人数据集。
Card 06
评估与结果
评估与结果
- 评估环境包括模拟基准和真实世界的机器人操作任务。
- 主要评估指标为任务成功率。
- 关键实验结果表明,所提方法相比基线显著提高了训练速度、语言指令跟随能力以及在新任务上的泛化性能。