返回列表 VLA / Vision-Language-Action 每日论文卡
Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap)…

论文详情

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

2025-10-20 · 原文 · 翻译 · 2510.17369

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap) 问题 研究目标是在软体机器人上实现自主安全的的人机交互,结合 VLA 模型的智能推理能力与软体机器人的固有安全性 评估了两个最先进的 VLA 模型:OpenVLA-OFT 和 π₀,发现在未微调的情况下两者都因运动学不匹配而失败,但通过针对性微调可达到与刚性机械臂相当的性能

6 分钟读完 6 张阅读卡 Haochen Su – EPFL (洛桑联邦理工学院), 瑞士洛桑
一眼看懂 封面预览

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap)…

  • 首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap)…
  • 研究目标是在软体机器人上实现自主安全的的人机交互,结合 VLA 模型的智能推理能力与软体机器人的固有安全性
  • 评估了两个最先进的 VLA 模型:OpenVLA-OFT 和 π₀,发现在未微调的情况下两者都因运动学不匹配而失败,但通过针对性微调可达到与刚…
Card 01 研究单位

研究单位

  • Haochen Su – EPFL (洛桑联邦理工学院), 瑞士洛桑
  • Cristian Meo – LatentWorlds AI, TUDelft (代尔夫特理工大学), 荷兰代尔夫特
  • Francesco Stella – Embodied AI SA, EPFL, 瑞士洛桑
  • Andrea Peirone – Embodied AI SA, EPFL, 瑞士洛桑
  • Kai Junge – Embodied AI SA, EPFL, 瑞士洛桑
  • Josie Hughes – EPFL, 瑞士洛桑
Card 02 论文概述

论文概述

  • 首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上,解决刚性与软体机器人之间的本体差距 (embodiment gap) 问题
  • 研究目标是在软体机器人上实现自主安全的的人机交互,结合 VLA 模型的智能推理能力与软体机器人的固有安全性
  • 评估了两个最先进的 VLA 模型:OpenVLA-OFT 和 π₀,发现在未微调的情况下两者都因运动学不匹配而失败,但通过针对性微调可达到与刚性机械臂相当的性能
Card 03 核心贡献

核心贡献

  • 发布了首个软体机器人演示开源数据集 (HCSuMoss/soft_orange 和 HCSuMoss/soft_feed),支持可复现的软体机器人研究
  • 基准测试 OpenVLA-OFT 在刚性机器人 (UR5) 和软体机器人上的表现,证明微调可消除刚-软领域差距并实现相似的任务成功率
  • 系统比较 OpenVLA-OFT 和 π₀ 在软体机器人上的性能,发现 OpenVLA-OFT 微调后表现优于 π₀,尽管 π₀ 在刚性机器人上泛化能力更强
Card 04 方法描述

方法描述

  • 采用定制的软体连续体机器人 Embuddy,具有三个模块化段落(含一个标准旋转关节和两个软体连续体段),总重 5kg,具有固有安全性
  • 设计了三个代表性操作任务:任务1(简单拾取放置)、任务2(选择性拾取放置)、任务3(近距离人际交互喂食)
  • 数据采集使用 3Dconnexion 空间鼠标进行遥操作,利用分段常数曲率 (PCC) 模型进行逆运动学计算;图像预处理至 256×256 分辨率
  • 微调策略:OpenVLA-OFT 使用 LoRA (rank=32) 在 Llama 2 7B 骨干上微调;π₀ 使用全参数微调在 PaliGemma 3B 骨干上
  • 推理时使用第三人称和手腕双视角摄像头观测,模型预测动作块并回传执行
Card 05 数据集与资源

数据集与资源

  • 数据集规模:任务1共50个演示,任务2共100个演示(橙子和牛奶各50),任务3共20个演示
  • 软体机器人演示数据集已开源发布于 HuggingFace
  • 模型规模:OpenVLA-OFT 基于 Llama 2 7B;π₀ 基于 PaliGemma 3B
  • 训练硬件:UR5 实验使用 Azure VM 上的 A100 (80GB),软体机器人实验使用远程 HPC 集群上的 H100
  • 推理控制频率:UR5 上约 32.3 Hz,软体机器人上 OpenVLA-OFT 约 25.1 Hz,π₀ 约 38.0 Hz
Card 06 评估与结果

评估与结果

  • 评估方法:每个任务进行 10 次试验,计算任务成功率
  • 主要发现:原始 VLA 策略因运动学差异完全失败;微调后的 OpenVLA-OFT 在 UR5 和 Embuddy 上任务1和任务2的成功率相同
  • π₀ 在刚性机械臂上泛化性能更强,但 OpenVLA-OFT 在软体机器人上微调后性能更优
  • 消融实验表明:人类出现在场景中无影响;未见过的物体会偶尔造成混淆;工作空间外的物体导致任务必然失败;软体机器人被手动干扰后能恢复并继续完成任务