返回列表 VLA / Vision-Language-Action 每日论文卡

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

论文详情

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

2025-05-29 · 原文 · 翻译 · 2505.23705

本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。 论文提出一种名为知识绝缘的训练策略,通过分离离散与连续动作预测的训练信号,来同时实现快速训练、快速推理与更好的泛化能力。 研究目标是在不牺牲VLM骨干网络语义知识的前提下,高效地将预训练的视觉语言模型适配到机器人控制任务。

3 分钟读完 6 张阅读卡 Physical Intelligence
一眼看懂 封面预览

本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。

  • 本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。
  • 论文提出一种名为知识绝缘的训练策略,通过分离离散与连续动作预测的训练信号,来同时实现快速训练、快速推理与更好的泛化能力。
  • 研究目标是在不牺牲VLM骨干网络语义知识的前提下,高效地将预训练的视觉语言模型适配到机器人控制任务。
Card 01 研究单位

研究单位

  • Physical Intelligence
Card 02 论文概述

论文概述

  • 本文研究视觉-语言-动作模型的训练方法,旨在解决为实时连续控制添加新模块(如动作专家)时,可能损害训练速度与预训练知识迁移的问题。
  • 论文提出一种名为知识绝缘的训练策略,通过分离离散与连续动作预测的训练信号,来同时实现快速训练、快速推理与更好的泛化能力。
  • 研究目标是在不牺牲VLM骨干网络语义知识的前提下,高效地将预训练的视觉语言模型适配到机器人控制任务。
Card 03 核心贡献

核心贡献

  • 提出了知识绝缘技术,在训练VLA时阻断连续动作专家向VLM骨干网络的梯度回传,以保护预训练知识。
  • 设计了一个统一的训练配方,同时使用离散动作token进行表示学习,并训练连续动作专家以实现快速精确控制。
  • 通过广泛实验验证了所提方法在训练速度、推理速度和泛化性能上的优势,并提供了对各种设计选择的深入分析。
  • 构建了首个能够快速训练、保留VLM知识并支持高频连续动作输出的VLA训练方案。
Card 04 方法描述

方法描述

  • 核心方法是知识绝缘:使用离散化动作上的下一个token预测损失来训练VLM骨干网络,同时使用流匹配训练动作专家生成连续动作,且梯度不从动作专家回传至骨干网络。
  • 采用了联合训练,同时处理离散动作(用于表示学习)和连续动作(用于精确控制),以及通用视觉语言数据(用于知识迁移)。
  • 模型架构基于π₀,使用一个共享的VLM骨干网络和一个较小、专门的动作专家网络,两者通过交叉注意力交互。
Card 05 数据集与资源

数据集与资源

  • 评估使用了开源基准DROIDLIBERO
  • 在复杂的现实世界任务上进行了测试,包括抽屉取物、T恤折叠、餐桌清理等静态机器人任务,以及铺床、水槽放碗等移动操作任务。
  • 训练通用模型使用了大规模机器人数据集。
Card 06 评估与结果

评估与结果

  • 评估环境包括模拟基准和真实世界的机器人操作任务。
  • 主要评估指标为任务成功率。
  • 关键实验结果表明,所提方法相比基线显著提高了训练速度、语言指令跟随能力以及在新任务上的泛化性能。