一眼看懂
封面预览
首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap)…
- 首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap)…
- 研究目标是在软体机器人上实现自主安全的的人机交互,结合 VLA 模型的智能推理能力与软体机器人的固有安全性
- 评估了两个最先进的 VLA 模型:OpenVLA-OFT 和 π₀,发现在未微调的情况下两者都因运动学不匹配而失败,但通过针对性微调可达到与刚…
Card 01
研究单位
研究单位
- Haochen Su – EPFL (洛桑联邦理工学院), 瑞士洛桑
- Cristian Meo – LatentWorlds AI, TUDelft (代尔夫特理工大学), 荷兰代尔夫特
- Francesco Stella – Embodied AI SA, EPFL, 瑞士洛桑
- Andrea Peirone – Embodied AI SA, EPFL, 瑞士洛桑
- Kai Junge – Embodied AI SA, EPFL, 瑞士洛桑
- Josie Hughes – EPFL, 瑞士洛桑
Card 02
论文概述
论文概述
- 首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap) 问题
- 研究目标是在软体机器人上实现自主安全的的人机交互,结合 VLA 模型的智能推理能力与软体机器人的固有安全性
- 评估了两个最先进的 VLA 模型:OpenVLA-OFT 和 π₀,发现在未微调的情况下两者都因运动学不匹配而失败,但通过针对性微调可达到与刚性机械臂相当的性能
Card 03
核心贡献
核心贡献
- 发布了首个软体机器人演示开源数据集 (HCSuMoss/soft_orange 和 HCSuMoss/soft_feed),支持可复现的软体机器人研究
- 基准测试 OpenVLA-OFT 在刚性机器人 (UR5) 和软体机器人上的表现,证明微调可消除刚-软领域差距并实现相似的任务成功率
- 系统比较 OpenVLA-OFT 和 π₀ 在软体机器人上的性能,发现 OpenVLA-OFT 微调后表现优于 π₀,尽管 π₀ 在刚性机器人上泛化能力更强
Card 04
方法描述
方法描述
- 采用定制的软体连续体机器人 Embuddy,具有三个模块化段落(含一个标准旋转关节和两个软体连续体段),总重 5kg,具有固有安全性
- 设计了三个代表性操作任务:任务1(简单拾取放置)、任务2(选择性拾取放置)、任务3(近距离人际交互喂食)
- 数据采集使用 3Dconnexion 空间鼠标进行遥操作,利用分段常数曲率 (PCC) 模型进行逆运动学计算;图像预处理至 256×256 分辨率
- 微调策略:OpenVLA-OFT 使用 LoRA (rank=32) 在 Llama 2 7B 骨干上微调;π₀ 使用全参数微调在 PaliGemma 3B 骨干上
- 推理时使用第三人称和手腕双视角摄像头观测,模型预测动作块并回传执行
Card 05
数据集与资源
数据集与资源
- 数据集规模:任务1共50个演示,任务2共100个演示(橙子和牛奶各50),任务3共20个演示
- 软体机器人演示数据集已开源发布于 HuggingFace
- 模型规模:OpenVLA-OFT 基于 Llama 2 7B;π₀ 基于 PaliGemma 3B
- 训练硬件:UR5 实验使用 Azure VM 上的 A100 (80GB),软体机器人实验使用远程 HPC 集群上的 H100
- 推理控制频率:UR5 上约 32.3 Hz,软体机器人上 OpenVLA-OFT 约 25.1 Hz,π₀ 约 38.0 Hz
Card 06
评估与结果
评估与结果
- 评估方法:每个任务进行 10 次试验,计算任务成功率
- 主要发现:原始 VLA 策略因运动学差异完全失败;微调后的 OpenVLA-OFT 在 UR5 和 Embuddy 上任务1和任务2的成功率相同
- π₀ 在刚性机械臂上泛化性能更强,但 OpenVLA-OFT 在软体机器人上微调后性能更优
- 消融实验表明:人类出现在场景中无影响;未见过的物体会偶尔造成混淆;工作空间外的物体导致任务必然失败;软体机器人被手动干扰后能恢复并继续完成任务