一眼看懂
封面预览
提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action…
- 提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action…
- 解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题,通过建立仿真与真实性能的强相关性来提供可扩展的评估方案
- 核心目标:验证仿真环境可作为真实世界性能的可靠代理,并系统性地探测 VLA 模型的弱点和失效模式
Card 01
研究单位
研究单位
- Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague
- Faculty of Electrical Engineering, Czech Technical University in Prague
- University of Amsterdam
Card 02
论文概述
论文概述
- 提出 REALM(Real-to-Sim Validated Benchmark),一个用于评估 Vision-Language-Action (VLA) 模型泛化能力的高保真仿真环境
- 解决 VLA 模型在真实世界中评估泛化能力困难且昂贵的问题,通过建立仿真与真实性能的强相关性来提供可扩展的评估方案
- 核心目标:验证仿真环境可作为真实世界性能的可靠代理,并系统性地探测 VLA 模型的弱点和失效模式
Card 03
核心贡献
核心贡献
- 构建可复现的高保真仿真环境,具有对齐的机器人控制,支持 7 种操作技能、15 种扰动因素 和 3,500+ 物体
- 通过近 800 对 真实-仿真轨迹对比,建立仿真与真实性能的强相关性验证(Pearson 相关系数高,p<0.001)
- 提出新的泛化基准测试,包含 REALM-base(8 个基础任务)和 REALM-articulated(2 个关节任务)两个任务集
- 对 π₀、π₀-FAST 和 GR00T N1.5 三种 SOTA VLA 模型进行全面评估,揭示泛化和鲁棒性仍是未解决的挑战
- 证明仿真可作为量化 VLA 模型弱点和失效模式的有效工具
Card 04
方法描述
方法描述
- 高保真视觉渲染:基于 IsaacSim 实现逼真视觉效果,无需额外的纹理匹配
- 控制对齐优化:通过系统辨识优化关节摩擦(friction)和惯量(armature)等 14 个参数,最小化真实与仿真轨迹的 L2 距离
- 扰动分类体系:采用 ⋆-Gen 分类法,涵盖 视觉扰动(V-AUG, V-VIEW, V-SC, V-LIGHT)、语义扰动(S-PROP, S-LANG, S-MO, S-AFF, S-INT)和 行为扰动(B-HOBJ, VB-POSE, VB-MOBJ, SB-NOUN, SB-VRB, VSB-NOBJ)
- 分层进度评估:定义从 0 到 1 的分层任务进度指标,替代二元成功率
- 评估指标:使用 Pearson 相关系数、p-value 和 Mean Maximum Rank Violation (MMRV) 验证仿真-真实一致性
Card 05
数据集与资源
数据集与资源
- 基于 DROID 平台构建,使用 DROID 数据集中的真实轨迹进行控制对齐
- 支持 3,500+ 物体,10 个场景,7 种技能(pick, put, push, rotate, stack, open, close)
- 使用 CMA-ES 进化算法进行系统辨识优化
- 每种设置评估 25 次 rollout,每种模型约 4,000 次仿真 rollout
Card 06
评估与结果
评估与结果
- 评估模型:π₀、π₀-FAST、GR00T N1.5
- 主要发现:
- π₀-FAST 在 9/10 任务上取得最高成功率,整体任务进度最优
- 视觉泛化:视角变化(V-VIEW)和干扰物(V-SC)影响最大,但模型对模糊和光照变化相对鲁棒
- 语义泛化:π₀ 的语言理解能力显著弱于 π₀-FAST,世界知识(S-INT)和人类需求(S-AFF)扰动影响最大
- 行为泛化:未见物体(VSB-NOBJ)和物体位姿变化(VB-POSE)最具挑战性,已知技能迁移(SB-VRB)相对容易
- 所有模型完成任务平均需 20-30 秒,表明在未见环境中仍存在困难
- 关键结论:高保真仿真可有效预测真实性能;VLA 模型的泛化和鲁棒性仍远未解决,尤其行为适应和语义理解方面