一眼看懂
封面预览
提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。
- 提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。
- 旨在解决传统VLA模型训练成本高、数据收集困难和评估标准不一致的问题。
- 模型在模拟数据集上训练,并展示了强大的 仿真到现实迁移能力。
Card 01
研究单位
研究单位
- University of Freiburg, Germany
Card 02
论文概述
论文概述
- 提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。
- 旨在解决传统VLA模型训练成本高、数据收集困难和评估标准不一致的问题。
- 模型在模拟数据集上训练,并展示了强大的 仿真到现实迁移能力。
Card 03
核心贡献
核心贡献
- 提出了一种高效轻量级的VLA训练与评估框架,基于对预训练视觉语言模型的微调。
- 引入了相机空间(图像坐标系)的动作表示,使其更高效且与机器人本体无关。
- 探索了深度图像输入、推理时策略(如解码策略)以及基于演示的条件动作生成(一键模仿)。
- 提出了一个新的解码算法 Beam-Search-NMS 以及用于评估多轨迹预测的mAP指标。
- 发布了代码、数据集和模型(将在论文被接受后公开)。
Card 04
方法描述
方法描述
- 方法基于微调预训练的 PaliGemma2 视觉语言模型。采用 下一个词元预测 架构。
- 核心创新在于将动作表示为图像坐标系中的绝对位置(宽度、高度、深度)或机器人基座坐标系中的6自由度位姿,并使用离散化的定位和分割词元进行编码。
- 将深度图通过颜色映射转换为RGB图像,与自然图像一同输入预训练的图像编码器。
- 扩展了方法以支持基于演示的一键模仿学习,模型根据提供的演示图像-轨迹对在新的场景图像中推断并执行相同任务。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:在 ManiSkill 模拟器中生成的合成训练数据集(包含CLEVR几何形状和来自Objaverse的真实物体)。使用 DROID 真实机器人数据集进行评估。
- 模型规模与参数量:基于 PaliGemma2 模型,具体参数量未明确给出,但通过仅微调注意力层参数实现轻量化训练。
- 训练资源:论文中未明确指定GPU/TPU的具体型号和数量,训练在模拟数据集上进行。
Card 06
评估与结果
评估与结果
- 评估环境与基准:在模拟环境(CLEVR/Objaverse场景)和真实数据(DROID-hard/easy子集)上评估,并在真实机器人(Franka Panda机械臂)上进行了零样本测试。
- 主要评估指标:成功率和L1轨迹误差(结合位置和旋转误差),并引入了用于多轨迹预测的mAP指标。
- 关键实验结果:
- 深度信息输入在所有模拟场景中均显著提高了成功率。
- 相机坐标系的动作表示在简单模拟中表现优于机器人坐标系。
- 一键模仿学习在简单模拟设置下达到70%的成功率,并展现出良好的跨领域泛化能力。
- 提出的 Beam-Search-NMS 解码策略优于贪婪解码、采样和标准束搜索,在DROID-hard数据集上取得了最低的轨迹L1误差。
- 模型在未经过任何真实世界微调的情况下,成功部署于真实机器人并完成多种桌面操作任务。