一眼看懂
封面预览
论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究
- 论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究
- 核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素,以弥合仿真训练数据与真实世界部署之间的差距
- 研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白
Card 01
研究单位
研究单位
- 香港中文大学(深圳)数据科学学院
- 深圳环区研究院
Card 02
论文概述
论文概述
- 论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究
- 核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素,以弥合仿真训练数据与真实世界部署之间的差距
- 研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白
Card 03
核心贡献
核心贡献
- 提出一个全面的评估协议,量化操作任务在真实世界中的性能,系统考虑了背景、光照、干扰物、物体类型和空间特征的变化
- 通过超过 10,000次 真实世界试验,得出了关于Sim-to-Real迁移的关键见解
- 发布了机器人平台和评估协议,建立了灵巧操作策略的现实标准化基准,以促进独立验证和未来研究
Card 04
方法描述
方法描述
- 研究聚焦于四种主要的Sim-to-Real技术:多层次域随机化、照片级真实渲染、物理真实建模和强化学习(RL)更新
- 使用 OpenVLA-OFT 作为策略架构,基于 Llama2 7B 语言骨干和融合视觉编码器(SigLIP + DINOv2)
- 训练流程包括监督微调(SFT)和可选的强化学习微调(采用 GRPO 算法)
- 创新点在于对域随机化进行因子化分解与比较,并系统评估了随机化粒度(帧级 vs 回合级)与渲染保真度的影响
Card 05
数据集与资源
数据集与资源
- 使用 RoboTwin 2.0 物理仿真框架生成训练数据,包含五个双臂操作任务(如叠碗、敲击木块等)
- 每个任务收集 100条 仿真演示轨迹用于SFT训练
- 真实世界评估在 Piper机器人平台 上进行,配备 Intel RealSense D435 RGB摄像头
- 模型训练在 8块 NVIDIA H100 80GB GPU 上进行
Card 06
评估与结果
评估与结果
- 评估环境包括模拟域外(Sim-OOD)环境和零样本真实世界部署
- 关键评估指标为任务成功率,测试条件涵盖背景变化、光照变化、物体变化、干扰物存在和空间泛化
- 核心发现:空间随机化(如桌面高度、相机位姿)是Sim-to-Real泛化的主要驱动因素;帧级域随机化 比回合级效果更好;更高的仿真保真度能提升迁移性能;RL微调 能显著增强模型对分布偏移的鲁棒性
- 最佳结果(结合所有随机化因素)在真实世界评估中平均成功率达到 49.7%,在Sim-OOD评估中达到 52.6%