返回列表 VLA / Vision-Language-Action 每日论文卡
Embodiment Transfer Learning for Vision-Language-Action Models
研究旨在解决视觉语言动作(Vision-Language-Action, VLA)模型在多机器人协作场景中的适应性问题

论文详情

Embodiment Transfer Learning for Vision-Language-Action Models

2025-11-03 · 原文 · 翻译 · 2511.01224

研究旨在解决视觉语言动作(Vision-Language-Action, VLA)模型在多机器人协作场景中的适应性问题 当前先进的自回归 VLA 模型(如 OpenVLA)在单臂操作任务表现出色,但在多机器人系统中性能显著下降 提出 ET-VLA 框架,包含两个核心技术:合成持续预训练(Synthetic Continued Pretraining, SCP)和具身思维图(Embodied Graph-of-Tho…

5 分钟读完 6 张阅读卡 上海大学 (Shanghai University) - Chengmeng Li, Yaxin Pe…
一眼看懂 封面预览

研究旨在解决视觉语言动作(Vision-Language-Action, VLA)模型在多机器人协作场景中的适应性问题

  • 研究旨在解决视觉语言动作(Vision-Language-Action, VLA)模型在多机器人协作场景中的适应性问题
  • 当前先进的自回归 VLA 模型(如 OpenVLA)在单臂操作任务表现出色,但在多机器人系统中性能显著下降
  • 提出 ET-VLA 框架,包含两个核心技术:合成持续预训练(Synthetic Continued Pretraining, SCP)和具身思…
Card 01 研究单位

研究单位

  • 上海大学 (Shanghai University) - Chengmeng Li, Yaxin Peng
Card 02 论文概述

论文概述

  • 研究旨在解决视觉语言动作(Vision-Language-Action, VLA)模型在多机器人协作场景中的适应性问题
  • 当前先进的自回归 VLA 模型(如 OpenVLA)在单臂操作任务表现出色,但在多机器人系统中性能显著下降
  • 提出 ET-VLA 框架,包含两个核心技术:合成持续预训练(Synthetic Continued Pretraining, SCP)和具身思维图(Embodied Graph-of-Thought, EGoT)
Card 03 核心贡献

核心贡献

  • 深入分析现有自回归 VLA 模型在多机器人多任务场景中的失败模式
  • 提出 ET-VLA 框架,通过 SCP 和 EGoT 显著提升 VLA 在多机器人操作任务中的性能
  • 在真实机器人和仿真环境中广泛评估,ET-VLA 在六项真实任务中成功率比 OpenVLA 高出 53.2%
  • 首个成功实现将预训练 VLA 有效迁移到双臂机器人系统的方法
Card 04 方法描述

方法描述

  • 问题根源:现有 VLA 预训练数据(如 Open X-Embodiment)仅包含单臂机器人数据,导致模型无法生成控制多机器人所需的足够 action tokens
  • 合成持续预训练(SCP):通过跨采样策略生成合成多机器人数据,使模型学习生成 14 个 action tokens(每个机器人 7 个 DoF),无需真实人类演示数据
  • 具身思维图(EGoT):将复杂任务分解为动作图结构,明确表示任务间的时序依赖关系,帮助模型理解不同机器人的功能和角色,促进有效协作
  • 技术流程:首先进行 SCP 预训练,然后针对目标 embodiment 进行微调
Card 05 数据集与资源

数据集与资源

  • 真实机器人数据集:458 条轨迹(6 项任务)+ 980 条额外人类演示轨迹
  • 双臂机器人:bimanual UR5e, bimanual Franka, bimanual AgileX
  • 仿真基准:RLBench2(13 项双臂任务),RoboTwin(14 项任务)
  • 训练资源:16 块 A100 GPU,SCP 阶段学习率 2e-5 训练 1 epoch,微调阶段学习率 2e-4 训练 20 epochs
Card 06 评估与结果

评估与结果

  • 真实机器人实验:ET-VLA 平均成功率达 59.74%,远超 OpenVLA 的 6.49%
  • RLBench2 仿真:ET-VLA 达到 10.2% 成功率,显著优于 ACT(5.9%)和 OpenVLA(1.2%)
  • RoboTwin 仿真:ET-VLA 达到 40.1%,优于 Diffusion Policy 的 27.7%
  • 消融实验:移除 SCP 后性能降至 37.66%,移除 SCP 和 EGoT 后仅剩 6.49%,证明两个组件均为关键贡献