cVLA: Towards Efficient Camera-Space VLAs - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出了一种高效的相机空间视觉-语言-动作模型 (cVLA)，该模型直接在图像坐标系中预测机器人末端执行器的轨迹路点。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

Card 05 数据集与资源

使用的数据集：在 ManiSkill 模拟器中生成的合成训练数据集（包含CLEVR几何形状和来自Objaverse的真实物体）。使用 DROID 真实机器人数据集进行评估。
模型规模与参数量：基于 PaliGemma2 模型，具体参数量未明确给出，但通过仅微调注意力层参数实现轻量化训练。
训练资源：论文中未明确指定GPU/TPU的具体型号和数量，训练在模拟数据集上进行。

Card 06 评估与结果

评估环境与基准：在模拟环境（CLEVR/Objaverse场景）和真实数据（DROID-hard/easy子集）上评估，并在真实机器人（Franka Panda机械臂）上进行了零样本测试。
主要评估指标：成功率和L1轨迹误差（结合位置和旋转误差），并引入了用于多轨迹预测的mAP指标。
关键实验结果：

- 深度信息输入在所有模拟场景中均显著提高了成功率。

- 相机坐标系的动作表示在简单模拟中表现优于机器人坐标系。

- 一键模仿学习在简单模拟设置下达到70%的成功率，并展现出良好的跨领域泛化能力。

- 提出的 Beam-Search-NMS 解码策略优于贪婪解码、采样和标准束搜索，在DROID-hard数据集上取得了最低的轨迹L1误差。

- 模型在未经过任何真实世界微调的情况下，成功部署于真实机器人并完成多种桌面操作任务。