返回列表 VLA / Vision-Language-Action 每日论文卡

cVLA: Towards Efficient Camera-Space VLAs

论文详情

cVLA: Towards Efficient Camera-Space VLAs

2025-07-02 · 原文 · 翻译 · 2507.02190

提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。 旨在解决传统VLA模型训练成本高、数据收集困难和评估标准不一致的问题。 模型在模拟数据集上训练,并展示了强大的 仿真到现实迁移能力。

5 分钟读完 6 张阅读卡 University of Freiburg, Germany
一眼看懂 封面预览

提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。

  • 提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。
  • 旨在解决传统VLA模型训练成本高、数据收集困难和评估标准不一致的问题。
  • 模型在模拟数据集上训练,并展示了强大的 仿真到现实迁移能力。
Card 01 研究单位

研究单位

  • University of Freiburg, Germany
Card 02 论文概述

论文概述

  • 提出了一种高效的 相机空间视觉-语言-动作模型 (cVLA),该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。
  • 旨在解决传统VLA模型训练成本高、数据收集困难和评估标准不一致的问题。
  • 模型在模拟数据集上训练,并展示了强大的 仿真到现实迁移能力
Card 03 核心贡献

核心贡献

  • 提出了一种高效轻量级的VLA训练与评估框架,基于对预训练视觉语言模型的微调。
  • 引入了相机空间(图像坐标系)的动作表示,使其更高效且与机器人本体无关。
  • 探索了深度图像输入、推理时策略(如解码策略)以及基于演示的条件动作生成(一键模仿)。
  • 提出了一个新的解码算法 Beam-Search-NMS 以及用于评估多轨迹预测的mAP指标
  • 发布了代码、数据集和模型(将在论文被接受后公开)。
Card 04 方法描述

方法描述

  • 方法基于微调预训练的 PaliGemma2 视觉语言模型。采用 下一个词元预测 架构。
  • 核心创新在于将动作表示为图像坐标系中的绝对位置(宽度、高度、深度)或机器人基座坐标系中的6自由度位姿,并使用离散化的定位和分割词元进行编码。
  • 将深度图通过颜色映射转换为RGB图像,与自然图像一同输入预训练的图像编码器。
  • 扩展了方法以支持基于演示的一键模仿学习,模型根据提供的演示图像-轨迹对在新的场景图像中推断并执行相同任务。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集:在 ManiSkill 模拟器中生成的合成训练数据集(包含CLEVR几何形状和来自Objaverse的真实物体)。使用 DROID 真实机器人数据集进行评估。
  • 模型规模与参数量:基于 PaliGemma2 模型,具体参数量未明确给出,但通过仅微调注意力层参数实现轻量化训练。
  • 训练资源:论文中未明确指定GPU/TPU的具体型号和数量,训练在模拟数据集上进行。
Card 06 评估与结果

评估与结果

  • 评估环境与基准:在模拟环境(CLEVR/Objaverse场景)和真实数据(DROID-hard/easy子集)上评估,并在真实机器人(Franka Panda机械臂)上进行了零样本测试。
  • 主要评估指标成功率和L1轨迹误差(结合位置和旋转误差),并引入了用于多轨迹预测的mAP指标。
  • 关键实验结果

- 深度信息输入在所有模拟场景中均显著提高了成功率。

- 相机坐标系的动作表示在简单模拟中表现优于机器人坐标系。

- 一键模仿学习在简单模拟设置下达到70%的成功率,并展现出良好的跨领域泛化能力。

- 提出的 Beam-Search-NMS 解码策略优于贪婪解码、采样和标准束搜索,在DROID-hard数据集上取得了最低的轨迹L1误差。

- 模型在未经过任何真实世界微调的情况下,成功部署于真实机器人并完成多种桌面操作任务。