返回列表 VLA / Vision-Language-Action 每日论文卡
REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation
提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action…

论文详情

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

2025-12-22 · 原文 · 翻译 · 2512.19562

提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action (VLA) 模型泛化能力的高保真仿真环境 解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题,通过建立仿真与真实性能的强相关性来提供可扩展的评估方案 核心目标:验证仿真环境可作为真实世界性能的可靠代理,并系统性地探测 VLA 模型的弱点和失效模式

6 分钟读完 6 张阅读卡 Czech Institute of Informatics, Robotics and Cybern…
一眼看懂 封面预览

提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action…

  • 提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action…
  • 解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题,通过建立仿真与真实性能的强相关性来提供可扩展的评估方案
  • 核心目标:验证仿真环境可作为真实世界性能的可靠代理,并系统性地探测 VLA 模型的弱点和失效模式
Card 01 研究单位

研究单位

  • Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague
  • Faculty of Electrical Engineering, Czech Technical University in Prague
  • University of Amsterdam
Card 02 论文概述

论文概述

  • 提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action (VLA) 模型泛化能力的高保真仿真环境
  • 解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题,通过建立仿真与真实性能的强相关性来提供可扩展的评估方案
  • 核心目标:验证仿真环境可作为真实世界性能的可靠代理,并系统性地探测 VLA 模型的弱点和失效模式
Card 03 核心贡献

核心贡献

  • 构建可复现的高保真仿真环境,具有对齐的机器人控制,支持 7 种操作技能15 种扰动因素3,500+ 物体
  • 通过近 800 对 真实-仿真轨迹对比,建立仿真与真实性能的强相关性验证(Pearson 相关系数高,p<0.001)
  • 提出新的泛化基准测试,包含 REALM-base(8 个基础任务)和 REALM-articulated(2 个关节任务)两个任务集
  • π₀π₀-FASTGR00T N1.5 三种 SOTA VLA 模型进行全面评估,揭示泛化和鲁棒性仍是未解决的挑战
  • 证明仿真可作为量化 VLA 模型弱点和失效模式的有效工具
Card 04 方法描述

方法描述

  • 高保真视觉渲染:基于 IsaacSim 实现逼真视觉效果,无需额外的纹理匹配
  • 控制对齐优化:通过系统辨识优化关节摩擦(friction)和惯量(armature)等 14 个参数,最小化真实与仿真轨迹的 L2 距离
  • 扰动分类体系:采用 ⋆-Gen 分类法,涵盖 视觉扰动(V-AUG, V-VIEW, V-SC, V-LIGHT)、语义扰动(S-PROP, S-LANG, S-MO, S-AFF, S-INT)和 行为扰动(B-HOBJ, VB-POSE, VB-MOBJ, SB-NOUN, SB-VRB, VSB-NOBJ)
  • 分层进度评估:定义从 0 到 1 的分层任务进度指标,替代二元成功率
  • 评估指标:使用 Pearson 相关系数p-valueMean Maximum Rank Violation (MMRV) 验证仿真-真实一致性
Card 05 数据集与资源

数据集与资源

  • 基于 DROID 平台构建,使用 DROID 数据集中的真实轨迹进行控制对齐
  • 支持 3,500+ 物体10 个场景7 种技能(pick, put, push, rotate, stack, open, close)
  • 使用 CMA-ES 进化算法进行系统辨识优化
  • 每种设置评估 25 次 rollout,每种模型约 4,000 次仿真 rollout
Card 06 评估与结果

评估与结果

  • 评估模型π₀π₀-FASTGR00T N1.5
  • 主要发现

- π₀-FAST 在 9/10 任务上取得最高成功率,整体任务进度最优

- 视觉泛化:视角变化(V-VIEW)和干扰物(V-SC)影响最大,但模型对模糊和光照变化相对鲁棒

- 语义泛化:π₀ 的语言理解能力显著弱于 π₀-FAST,世界知识(S-INT)和人类需求(S-AFF)扰动影响最大

- 行为泛化:未见物体(VSB-NOBJ)和物体位姿变化(VB-POSE)最具挑战性,已知技能迁移(SB-VRB)相对容易

- 所有模型完成任务平均需 20-30 秒,表明在未见环境中仍存在困难

  • 关键结论:高保真仿真可有效预测真实性能;VLA 模型的泛化和鲁棒性仍远未解决,尤其行为适应和语义理解方面