研究旨在解决视觉语言动作（Vision-Language-Action, VLA）模型在多机器人协作场景中的适应性问题

论文详情

Embodiment Transfer Learning for Vision-Language-Action Models

2025-11-03 · 原文 · 翻译 · 2511.01224

研究旨在解决视觉语言动作（Vision-Language-Action, VLA）模型在多机器人协作场景中的适应性问题当前先进的自回归 VLA 模型（如 OpenVLA）在单臂操作任务表现出色，但在多机器人系统中性能显著下降提出 ET-VLA 框架，包含两个核心技术：合成持续预训练（Synthetic Continued Pretraining, SCP）和具身思维图（Embodied Graph-of-Tho…

5 分钟读完 6 张阅读卡上海大学 (Shanghai University) - Chengmeng Li, Yaxin Pe…

一眼看懂封面预览

研究旨在解决视觉语言动作（Vision-Language-Action, VLA）模型在多机器人协作场景中的适应性问题

研究旨在解决视觉语言动作（Vision-Language-Action, VLA）模型在多机器人协作场景中的适应性问题
当前先进的自回归 VLA 模型（如 OpenVLA）在单臂操作任务表现出色，但在多机器人系统中性能显著下降
提出 ET-VLA 框架，包含两个核心技术：合成持续预训练（Synthetic Continued Pretraining, SCP）和具身思…

Card 01 研究单位

研究单位

上海大学 (Shanghai University) - Chengmeng Li, Yaxin Peng

Card 02 论文概述

论文概述

研究旨在解决视觉语言动作（Vision-Language-Action, VLA）模型在多机器人协作场景中的适应性问题
当前先进的自回归 VLA 模型（如 OpenVLA）在单臂操作任务表现出色，但在多机器人系统中性能显著下降
提出 ET-VLA 框架，包含两个核心技术：合成持续预训练（Synthetic Continued Pretraining, SCP）和具身思维图（Embodied Graph-of-Thought, EGoT）

Card 03 核心贡献

核心贡献

深入分析现有自回归 VLA 模型在多机器人多任务场景中的失败模式
提出 ET-VLA 框架，通过 SCP 和 EGoT 显著提升 VLA 在多机器人操作任务中的性能
在真实机器人和仿真环境中广泛评估，ET-VLA 在六项真实任务中成功率比 OpenVLA 高出 53.2%
首个成功实现将预训练 VLA 有效迁移到双臂机器人系统的方法

Card 04 方法描述

方法描述

问题根源：现有 VLA 预训练数据（如 Open X-Embodiment）仅包含单臂机器人数据，导致模型无法生成控制多机器人所需的足够 action tokens
合成持续预训练（SCP）：通过跨采样策略生成合成多机器人数据，使模型学习生成 14 个 action tokens（每个机器人 7 个 DoF），无需真实人类演示数据
具身思维图（EGoT）：将复杂任务分解为动作图结构，明确表示任务间的时序依赖关系，帮助模型理解不同机器人的功能和角色，促进有效协作
技术流程：首先进行 SCP 预训练，然后针对目标 embodiment 进行微调

Card 05 数据集与资源

数据集与资源

真实机器人数据集：458 条轨迹（6 项任务）+ 980 条额外人类演示轨迹
双臂机器人：bimanual UR5e, bimanual Franka, bimanual AgileX
仿真基准：RLBench2（13 项双臂任务），RoboTwin（14 项任务）
训练资源：16 块 A100 GPU，SCP 阶段学习率 2e-5 训练 1 epoch，微调阶段学习率 2e-4 训练 20 epochs

Card 06 评估与结果

评估与结果

真实机器人实验：ET-VLA 平均成功率达 59.74%，远超 OpenVLA 的 6.49%
RLBench2 仿真：ET-VLA 达到 10.2% 成功率，显著优于 ACT（5.9%）和 OpenVLA（1.2%）
RoboTwin 仿真：ET-VLA 达到 40.1%，优于 Diffusion Policy 的 27.7%
消融实验：移除 SCP 后性能降至 37.66%，移除 SCP 和 EGoT 后仅剩 6.49%，证明两个组件均为关键贡献