首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上，解决刚性与软体机器人之间的本体差距 (embodiment gap)…

论文详情

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

2025-10-20 · 原文 · 翻译 · 2510.17369

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上，解决刚性与软体机器人之间的本体差距 (embodiment gap) 问题研究目标是在软体机器人上实现自主安全的的人机交互，结合 VLA 模型的智能推理能力与软体机器人的固有安全性评估了两个最先进的 VLA 模型：OpenVLA-OFT 和 π₀，发现在未微调的情况下两者都因运动学不匹配而失败，但通过针对性微调可达到与刚性机械臂相当的性能

6 分钟读完 6 张阅读卡 Haochen Su – EPFL (洛桑联邦理工学院), 瑞士洛桑

一眼看懂封面预览

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上，解决刚性与软体机器人之间的本体差距 (embodiment gap)…

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上，解决刚性与软体机器人之间的本体差距 (embodiment gap)…
研究目标是在软体机器人上实现自主安全的的人机交互，结合 VLA 模型的智能推理能力与软体机器人的固有安全性
评估了两个最先进的 VLA 模型：OpenVLA-OFT 和 π₀，发现在未微调的情况下两者都因运动学不匹配而失败，但通过针对性微调可达到与刚…

Card 01 研究单位

研究单位

Haochen Su – EPFL (洛桑联邦理工学院), 瑞士洛桑
Cristian Meo – LatentWorlds AI, TUDelft (代尔夫特理工大学), 荷兰代尔夫特
Francesco Stella – Embodied AI SA, EPFL, 瑞士洛桑
Andrea Peirone – Embodied AI SA, EPFL, 瑞士洛桑
Kai Junge – Embodied AI SA, EPFL, 瑞士洛桑
Josie Hughes – EPFL, 瑞士洛桑

Card 02 论文概述

论文概述

首次系统性地将视觉-语言-动作 (VLA) 模型部署到软体连续体机械臂上，解决刚性与软体机器人之间的本体差距 (embodiment gap) 问题
研究目标是在软体机器人上实现自主安全的的人机交互，结合 VLA 模型的智能推理能力与软体机器人的固有安全性
评估了两个最先进的 VLA 模型：OpenVLA-OFT 和 π₀，发现在未微调的情况下两者都因运动学不匹配而失败，但通过针对性微调可达到与刚性机械臂相当的性能

Card 03 核心贡献

核心贡献

发布了首个软体机器人演示开源数据集 (HCSuMoss/soft_orange 和 HCSuMoss/soft_feed)，支持可复现的软体机器人研究
基准测试 OpenVLA-OFT 在刚性机器人 (UR5) 和软体机器人上的表现，证明微调可消除刚-软领域差距并实现相似的任务成功率
系统比较 OpenVLA-OFT 和 π₀ 在软体机器人上的性能，发现 OpenVLA-OFT 微调后表现优于 π₀，尽管 π₀ 在刚性机器人上泛化能力更强

Card 04 方法描述

方法描述

采用定制的软体连续体机器人 Embuddy，具有三个模块化段落（含一个标准旋转关节和两个软体连续体段），总重 5kg，具有固有安全性
设计了三个代表性操作任务：任务1（简单拾取放置）、任务2（选择性拾取放置）、任务3（近距离人际交互喂食）
数据采集使用 3Dconnexion 空间鼠标进行遥操作，利用分段常数曲率 (PCC) 模型进行逆运动学计算；图像预处理至 256×256 分辨率
微调策略：OpenVLA-OFT 使用 LoRA (rank=32) 在 Llama 2 7B 骨干上微调；π₀ 使用全参数微调在 PaliGemma 3B 骨干上
推理时使用第三人称和手腕双视角摄像头观测，模型预测动作块并回传执行

Card 05 数据集与资源

数据集与资源

数据集规模：任务1共50个演示，任务2共100个演示（橙子和牛奶各50），任务3共20个演示
软体机器人演示数据集已开源发布于 HuggingFace
模型规模：OpenVLA-OFT 基于 Llama 2 7B；π₀ 基于 PaliGemma 3B
训练硬件：UR5 实验使用 Azure VM 上的 A100 (80GB)，软体机器人实验使用远程 HPC 集群上的 H100
推理控制频率：UR5 上约 32.3 Hz，软体机器人上 OpenVLA-OFT 约 25.1 Hz，π₀ 约 38.0 Hz

Card 06 评估与结果

评估与结果

评估方法：每个任务进行 10 次试验，计算任务成功率
主要发现：原始 VLA 策略因运动学差异完全失败；微调后的 OpenVLA-OFT 在 UR5 和 Embuddy 上任务1和任务2的成功率相同
π₀ 在刚性机械臂上泛化性能更强，但 OpenVLA-OFT 在软体机器人上微调后性能更优
消融实验表明：人类出现在场景中无影响；未见过的物体会偶尔造成混淆；工作空间外的物体导致任务必然失败；软体机器人被手动干扰后能恢复并继续完成任务