论文对视觉-语言-动作（VLA）模型在灵巧操作中的零样本仿真到现实（Sim-to-Real）泛化进行了系统的实证研究

论文详情

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

2026-03-24 · 原文 · 翻译 · 2603.22876

论文对视觉-语言-动作（VLA）模型在灵巧操作中的零样本仿真到现实（Sim-to-Real）泛化进行了系统的实证研究核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素，以弥合仿真训练数据与真实世界部署之间的差距研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白

4 分钟读完 6 张阅读卡香港中文大学（深圳）数据科学学院

一眼看懂封面预览

论文对视觉-语言-动作（VLA）模型在灵巧操作中的零样本仿真到现实（Sim-to-Real）泛化进行了系统的实证研究

论文对视觉-语言-动作（VLA）模型在灵巧操作中的零样本仿真到现实（Sim-to-Real）泛化进行了系统的实证研究
核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素，以弥合仿真训练数据与真实世界部署之间的差距
研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白

Card 01 研究单位

研究单位

香港中文大学（深圳）数据科学学院
深圳环区研究院

Card 02 论文概述

论文概述

论文对视觉-语言-动作（VLA）模型在灵巧操作中的零样本仿真到现实（Sim-to-Real）泛化进行了系统的实证研究
核心问题是探究影响VLA模型Sim-to-Real迁移性能的关键因素，以弥合仿真训练数据与真实世界部署之间的差距
研究旨在填补现有Sim-to-Real方法在VLA模型系统性评估方面的空白

Card 03 核心贡献

核心贡献

提出一个全面的评估协议，量化操作任务在真实世界中的性能，系统考虑了背景、光照、干扰物、物体类型和空间特征的变化
通过超过 10,000次 真实世界试验，得出了关于Sim-to-Real迁移的关键见解
发布了机器人平台和评估协议，建立了灵巧操作策略的现实标准化基准，以促进独立验证和未来研究

Card 04 方法描述

方法描述

研究聚焦于四种主要的Sim-to-Real技术：多层次域随机化、照片级真实渲染、物理真实建模和强化学习（RL）更新
使用 OpenVLA-OFT 作为策略架构，基于 Llama2 7B 语言骨干和融合视觉编码器（SigLIP + DINOv2）
训练流程包括监督微调（SFT）和可选的强化学习微调（采用 GRPO 算法）
创新点在于对域随机化进行因子化分解与比较，并系统评估了随机化粒度（帧级 vs 回合级）与渲染保真度的影响

Card 05 数据集与资源

数据集与资源

使用 RoboTwin 2.0 物理仿真框架生成训练数据，包含五个双臂操作任务（如叠碗、敲击木块等）
每个任务收集 100条 仿真演示轨迹用于SFT训练
真实世界评估在 Piper机器人平台 上进行，配备 Intel RealSense D435 RGB摄像头
模型训练在 8块 NVIDIA H100 80GB GPU 上进行

Card 06 评估与结果

评估与结果

评估环境包括模拟域外（Sim-OOD）环境和零样本真实世界部署
关键评估指标为任务成功率，测试条件涵盖背景变化、光照变化、物体变化、干扰物存在和空间泛化
核心发现：空间随机化（如桌面高度、相机位姿）是Sim-to-Real泛化的主要驱动因素；帧级域随机化 比回合级效果更好；更高的仿真保真度能提升迁移性能；RL微调 能显著增强模型对分布偏移的鲁棒性
最佳结果（结合所有随机化因素）在真实世界评估中平均成功率达到 49.7%，在Sim-OOD评估中达到 52.6%