Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

论文详情

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

2025-05-29 · 原文 · 翻译 · 2505.23705

本文研究视觉-语言-动作模型的训练方法，旨在解决为实时连续控制添加新模块（如动作专家）时，可能损害训练速度与预训练知识迁移的问题。论文提出一种名为知识绝缘的训练策略，通过分离离散与连续动作预测的训练信号，来同时实现快速训练、快速推理与更好的泛化能力。研究目标是在不牺牲VLM骨干网络语义知识的前提下，高效地将预训练的视觉语言模型适配到机器人控制任务。

3 分钟读完 6 张阅读卡 Physical Intelligence

一眼看懂封面预览

本文研究视觉-语言-动作模型的训练方法，旨在解决为实时连续控制添加新模块（如动作专家）时，可能损害训练速度与预训练知识迁移的问题。

本文研究视觉-语言-动作模型的训练方法，旨在解决为实时连续控制添加新模块（如动作专家）时，可能损害训练速度与预训练知识迁移的问题。
论文提出一种名为知识绝缘的训练策略，通过分离离散与连续动作预测的训练信号，来同时实现快速训练、快速推理与更好的泛化能力。
研究目标是在不牺牲VLM骨干网络语义知识的前提下，高效地将预训练的视觉语言模型适配到机器人控制任务。

Card 01 研究单位

研究单位

Physical Intelligence

Card 02 论文概述

论文概述

本文研究视觉-语言-动作模型的训练方法，旨在解决为实时连续控制添加新模块（如动作专家）时，可能损害训练速度与预训练知识迁移的问题。
论文提出一种名为知识绝缘的训练策略，通过分离离散与连续动作预测的训练信号，来同时实现快速训练、快速推理与更好的泛化能力。
研究目标是在不牺牲VLM骨干网络语义知识的前提下，高效地将预训练的视觉语言模型适配到机器人控制任务。

Card 03 核心贡献

核心贡献

提出了知识绝缘技术，在训练VLA时阻断连续动作专家向VLM骨干网络的梯度回传，以保护预训练知识。
设计了一个统一的训练配方，同时使用离散动作token进行表示学习，并训练连续动作专家以实现快速精确控制。
通过广泛实验验证了所提方法在训练速度、推理速度和泛化性能上的优势，并提供了对各种设计选择的深入分析。
构建了首个能够快速训练、保留VLM知识并支持高频连续动作输出的VLA训练方案。

Card 04 方法描述

方法描述

核心方法是知识绝缘：使用离散化动作上的下一个token预测损失来训练VLM骨干网络，同时使用流匹配训练动作专家生成连续动作，且梯度不从动作专家回传至骨干网络。
采用了联合训练，同时处理离散动作（用于表示学习）和连续动作（用于精确控制），以及通用视觉语言数据（用于知识迁移）。
模型架构基于π₀，使用一个共享的VLM骨干网络和一个较小、专门的动作专家网络，两者通过交叉注意力交互。

Card 05 数据集与资源

数据集与资源

评估使用了开源基准DROID和LIBERO。
在复杂的现实世界任务上进行了测试，包括抽屉取物、T恤折叠、餐桌清理等静态机器人任务，以及铺床、水槽放碗等移动操作任务。
训练通用模型使用了大规模机器人数据集。

Card 06 评估与结果

评估与结果

评估环境包括模拟基准和真实世界的机器人操作任务。
主要评估指标为任务成功率。
关键实验结果表明，所提方法相比基线显著提高了训练速度、语言指令跟随能力以及在新任务上的泛化性能。