返回列表 VLA / Vision-Language-Action 每日论文卡

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

论文详情

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

2025-06-22 · 原文 · 翻译 · 2506.18088

论文提出了 RoboTwin 2.0,一个可扩展的仿真框架,用于自动化、大规模生成多样化且逼真的数据,并为双臂操作提供统一的评估协议。 旨在解决现有合成数据集在鲁棒双臂操作中的两大不足:缺乏高效、可扩展的新任务数据生成方法;仿真环境过于简化,无法捕捉现实世界的复杂性。 通过集成自动化专家数据生成管道、全面的领域随机化和实体感知适应,来提升策略的鲁棒性和泛化能力。

5 分钟读完 6 张阅读卡 主要合作机构包括:上海交通大学、香港大学、上海人工智能实验室。
一眼看懂 封面预览

论文提出了 RoboTwin 2.0,一个可扩展的仿真框架,用于自动化、大规模生成多样化且逼真的数据,并为双臂操作提供统一的评估协议。

  • 论文提出了 RoboTwin 2.0,一个可扩展的仿真框架,用于自动化、大规模生成多样化且逼真的数据,并为双臂操作提供统一的评估协议。
  • 旨在解决现有合成数据集在鲁棒双臂操作中的两大不足:缺乏高效、可扩展的新任务数据生成方法;仿真环境过于简化,无法捕捉现实世界的复杂性。
  • 通过集成自动化专家数据生成管道、全面的领域随机化和实体感知适应,来提升策略的鲁棒性和泛化能力。
Card 01 研究单位

研究单位

  • 主要合作机构包括:上海交通大学香港大学上海人工智能实验室
  • 其他参与机构:深圳大学清华大学中国电信TeleAI东北大学南方科技大学复旦大学中国科学技术大学中山大学中南大学南京大学Lumina EAI 等。
Card 02 论文概述

论文概述

  • 论文提出了 RoboTwin 2.0,一个可扩展的仿真框架,用于自动化、大规模生成多样化且逼真的数据,并为双臂操作提供统一的评估协议。
  • 旨在解决现有合成数据集在鲁棒双臂操作中的两大不足:缺乏高效、可扩展的新任务数据生成方法;仿真环境过于简化,无法捕捉现实世界的复杂性。
  • 通过集成自动化专家数据生成管道、全面的领域随机化和实体感知适应,来提升策略的鲁棒性和泛化能力。
Card 03 核心贡献

核心贡献

  • 开发了自动化专家数据生成框架,结合多模态大语言模型与仿真反馈,确保高质量、专家级的轨迹生成。
  • 提出了系统的领域随机化策略,从杂乱、光照、背景、桌面高度和语言指令五个维度增强数据多样性,提升策略的鲁棒性与仿真到现实迁移能力。
  • 引入了实体感知适应机制,基于物体功能可供性为不同机器人本体生成特定的操作候选方案。
  • 发布了 RoboTwin-OD 物体资产库、大规模预采集的域随机化轨迹数据集、可扩展的双臂数据生成器及标准化评估基准。
Card 04 方法描述

方法描述

  • 技术核心是一个闭环专家数据生成管线:使用 MLLM 代码生成代理合成任务程序,通过 VLM 观察器在仿真中监控执行、定位错误并提供诊断反馈,实现代码自动迭代优化。
  • 实施了全面的领域随机化,包括场景杂乱、多样化背景纹理、光照变化、桌面高度变化和轨迹级多样化语言指令,以缩小仿真与现实之间的差距。
  • 设计了实体感知抓取适应,为每个物体标注丰富的操作姿态,并结合机器人本体特定的动作规划来处理不同运动学能力的双臂平台。
Card 05 数据集与资源

数据集与资源

  • RoboTwin-OD:大规模物体数据集,包含147个类别、731个实例,每个实例带有语义和操作相关的标签。
  • 框架在 5种机器人本体 上实例化,涵盖了 50项双臂任务
  • 预采集了超过 100,000条 双臂操作轨迹数据集。
  • 构建了一个包含 11,000张 高质量纹理的库,用于背景和表面随机化。
Card 06 评估与结果

评估与结果

  • 在自动化专家代码生成评估中,RoboTwin 2.0 结合多模态反馈,代码生成成功率 (ASR) 达到 71.3%,相比基线有显著提升。
  • 在真实世界双臂任务评估中,使用 10条真实演示 混合 1000条 域随机化合成轨迹进行训练,平均成功率相比仅用真实演示的基线相对提升了 24.4%
  • 在零样本设置(仅使用合成数据训练)下,在未见背景的场景中仍实现了 21.0% 的平均性能提升。
  • 下游策略学习实验表明,混合大规模合成数据与10条真实演示,VLA模型 的性能相对提升达 367%;仅用合成数据的零样本模型也获得了 228% 的相对提升,证明了数据在加强仿真到现实迁移和鲁棒性方面的有效性。