ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

论文详情

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

2025-06-19 · 原文 · 翻译 · 2506.16211

论文提出了 ControlVLA，一个用于预训练 Vision-Language-Action (VLA) 模型少样本适应的新框架，旨在解决机器人在数据稀缺情况下的操作学习问题。该方法旨在解决现有方法对大量训练数据的依赖，以及传统方法在仿真到现实迁移中的局限性。通过将大规模预训练的先验知识与以物体为中心的表征相结合，实现了仅需 10-20 次演示即可高效学习新任务。

4 分钟读完 6 张阅读卡 Tsinghua University

一眼看懂封面预览

论文提出了 ControlVLA，一个用于预训练 Vision-Language-Action (VLA) 模型少样本适应的新框架，旨在解决机…

论文提出了 ControlVLA，一个用于预训练 Vision-Language-Action (VLA) 模型少样本适应的新框架，旨在解决机…
该方法旨在解决现有方法对大量训练数据的依赖，以及传统方法在仿真到现实迁移中的局限性。
通过将大规模预训练的先验知识与以物体为中心的表征相结合，实现了仅需 10-20 次演示即可高效学习新任务。

Card 01 研究单位

研究单位

Tsinghua University
State Key Lab of General Artificial Intelligence, BIGAI
Peking University
Astribot Inc.

Card 02 论文概述

论文概述

论文提出了 ControlVLA，一个用于预训练 Vision-Language-Action (VLA) 模型少样本适应的新框架，旨在解决机器人在数据稀缺情况下的操作学习问题。
该方法旨在解决现有方法对大量训练数据的依赖，以及传统方法在仿真到现实迁移中的局限性。
通过将大规模预训练的先验知识与以物体为中心的表征相结合，实现了仅需 10-20 次演示即可高效学习新任务。

Card 03 核心贡献

核心贡献

提出了 ControlVLA 框架，首次将 ControlNet-style 微调策略应用于机器人操作领域，实现了预训练策略与以物体为中心表征的统一。
设计了零初始化的 Key-Value (KV) 投影层机制，在引入以物体为中心的条件时，有效保留了预训练模型的先验知识，避免了灾难性遗忘。
在 8 项真实的机器人操作任务中验证了方法的有效性，在仅使用极少数据的情况下显著超越了基线方法。
证明了该方法在长周期任务中的可扩展性以及对未见物体和背景的鲁棒性。

Card 04 方法描述

方法描述

利用 Diffusion Transformer 架构在大规模操作数据集上预训练通用策略。
使用 GroundingDINO 和 SAM2 对任务相关物体进行分割和跟踪，构建包含位置特征（正弦位置编码）和几何特征（CNN 提取）的以物体为中心的表征。
在 Transformer 的交叉注意力机制中引入双注意力结构，通过 Zero-initialized 的投影层将物体特征注入模型，确保微调初期模型行为与预训练模型一致，逐步融入任务特定知识。

Card 05 数据集与资源

数据集与资源

预训练数据集：公共大规模机器人操作数据集。
微调数据集：针对特定任务收集的真实世界演示数据，每个任务仅需 10-20 次演示。
评估任务：涵盖刚体、软体、精确操作、关节物体、可变形物体及流体操作等 8 项真实世界任务（如 RearrangeCup, FoldClothes, PourCubes 等）。

Card 06 评估与结果

评估与结果

评估环境：真实世界机器人平台。
主要指标：任务成功率。
关键结果：在 6 项短周期任务中，使用极少数据实现了 76.7% 的平均成功率，远超基线方法的 20.8%。
在长周期任务中，性能优于最先进方法约 3 倍；在数据缩放实验中，仅需 20 次演示即可达到较高成功率，而基线方法通常需要超过 100 次演示。