REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

一眼看懂封面预览

提出 REALM（Real-to-Sim Validated Benchmark），一个用于评估 Vision-Language-Action…

Card 01 研究单位

研究单位

Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague
Faculty of Electrical Engineering, Czech Technical University in Prague
University of Amsterdam

Card 02 论文概述

提出 REALM（Real-to-Sim Validated Benchmark），一个用于评估 Vision-Language-Action (VLA) 模型泛化能力的高保真仿真环境
解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题，通过建立仿真与真实性能的强相关性来提供可扩展的评估方案
核心目标：验证仿真环境可作为真实世界性能的可靠代理，并系统性地探测 VLA 模型的弱点和失效模式

Card 03 核心贡献

Card 04 方法描述

高保真视觉渲染：基于 IsaacSim 实现逼真视觉效果，无需额外的纹理匹配
控制对齐优化：通过系统辨识优化关节摩擦（friction）和惯量（armature）等 14 个参数，最小化真实与仿真轨迹的 L2 距离
扰动分类体系：采用 ⋆-Gen 分类法，涵盖 视觉扰动（V-AUG, V-VIEW, V-SC, V-LIGHT）、语义扰动（S-PROP, S-LANG, S-MO, S-AFF, S-INT）和 行为扰动（B-HOBJ, VB-POSE, VB-MOBJ, SB-NOUN, SB-VRB, VSB-NOBJ）
分层进度评估：定义从 0 到 1 的分层任务进度指标，替代二元成功率
评估指标：使用 Pearson 相关系数、p-value 和 Mean Maximum Rank Violation (MMRV) 验证仿真-真实一致性

Card 05 数据集与资源

基于 DROID 平台构建，使用 DROID 数据集中的真实轨迹进行控制对齐
支持 3,500+ 物体，10 个场景，7 种技能（pick, put, push, rotate, stack, open, close）
使用 CMA-ES 进化算法进行系统辨识优化
每种设置评估 25 次 rollout，每种模型约 4,000 次仿真 rollout

Card 06 评估与结果

- π₀-FAST 在 9/10 任务上取得最高成功率，整体任务进度最优

- 视觉泛化：视角变化（V-VIEW）和干扰物（V-SC）影响最大，但模型对模糊和光照变化相对鲁棒

- 语义泛化：π₀ 的语言理解能力显著弱于 π₀-FAST，世界知识（S-INT）和人类需求（S-AFF）扰动影响最大

- 行为泛化：未见物体（VSB-NOBJ）和物体位姿变化（VB-POSE）最具挑战性，已知技能迁移（SB-VRB）相对容易

- 所有模型完成任务平均需 20-30 秒，表明在未见环境中仍存在困难