返回列表 VLA / Vision-Language-Action 每日论文卡
Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models
论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究

论文详情

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

2026-03-24 · 原文 · 翻译 · 2603.22876

论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究 核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素,以弥合仿真训练数据与真实世界部署之间的差距 研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白

4 分钟读完 6 张阅读卡 香港中文大学(深圳)数据科学学院
一眼看懂 封面预览

论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究

  • 论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究
  • 核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素,以弥合仿真训练数据与真实世界部署之间的差距
  • 研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白
Card 01 研究单位

研究单位

  • 香港中文大学(深圳)数据科学学院
  • 深圳环区研究院
Card 02 论文概述

论文概述

  • 论文对视觉-语言-动作(VLA)模型在灵巧操作中的零样本仿真到现实(Sim-to-Real)泛化进行了系统的实证研究
  • 核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素,以弥合仿真训练数据与真实世界部署之间的差距
  • 研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白
Card 03 核心贡献

核心贡献

  • 提出一个全面的评估协议,量化操作任务在真实世界中的性能,系统考虑了背景、光照、干扰物、物体类型和空间特征的变化
  • 通过超过 10,000次 真实世界试验,得出了关于Sim-to-Real迁移的关键见解
  • 发布了机器人平台和评估协议,建立了灵巧操作策略的现实标准化基准,以促进独立验证和未来研究
Card 04 方法描述

方法描述

  • 研究聚焦于四种主要的Sim-to-Real技术:多层次域随机化、照片级真实渲染、物理真实建模和强化学习(RL)更新
  • 使用 OpenVLA-OFT 作为策略架构,基于 Llama2 7B 语言骨干和融合视觉编码器(SigLIP + DINOv2)
  • 训练流程包括监督微调(SFT)和可选的强化学习微调(采用 GRPO 算法)
  • 创新点在于对域随机化进行因子化分解与比较,并系统评估了随机化粒度(帧级 vs 回合级)与渲染保真度的影响
Card 05 数据集与资源

数据集与资源

  • 使用 RoboTwin 2.0 物理仿真框架生成训练数据,包含五个双臂操作任务(如叠碗、敲击木块等)
  • 每个任务收集 100条 仿真演示轨迹用于SFT训练
  • 真实世界评估在 Piper机器人平台 上进行,配备 Intel RealSense D435 RGB摄像头
  • 模型训练在 8块 NVIDIA H100 80GB GPU 上进行
Card 06 评估与结果

评估与结果

  • 评估环境包括模拟域外(Sim-OOD)环境和零样本真实世界部署
  • 关键评估指标为任务成功率,测试条件涵盖背景变化、光照变化、物体变化、干扰物存在和空间泛化
  • 核心发现:空间随机化(如桌面高度、相机位姿)是Sim-to-Real泛化的主要驱动因素;帧级域随机化 比回合级效果更好;更高的仿真保真度能提升迁移性能;RL微调 能显著增强模型对分布偏移的鲁棒性
  • 最佳结果(结合所有随机化因素)在真实世界评估中平均成功率达到 49.7%,在Sim-OOD评估中达到 52.6%