一眼看懂
封面预览
论文揭示了当前最先进的Vision-Language-Action (VLA) 模型在标准机器人基准测试中表现出的高成功率实际上是一种"具身推…
- 论文揭示了当前最先进的Vision-Language-Action (VLA) 模型在标准机器人基准测试中表现出的高成功率实际上是一种"具身推…
- 通过引入BeTTER诊断基准测试,系统评估了VLA模型在动态场景下的真实推理能力,发现它们在空间布局变化、子目标重组、因果状态追踪和细粒度语义…
- 论文追溯了这些缺陷的根本原因:VLA架构在容量压缩、感知抽象和实时控制需求之间的根本性权衡导致语义表征退化
Card 01
研究单位
研究单位
- 北京大学(Peking University)
- 清华大学(Tsinghua University)
- BeingBeyond(企业研究机构)
Card 02
论文概述
论文概述
- 论文揭示了当前最先进的Vision-Language-Action (VLA) 模型在标准机器人基准测试中表现出的高成功率实际上是一种"具身推理幻觉"(illusion of embodied reasoning)
- 通过引入BeTTER诊断基准测试,系统评估了VLA模型在动态场景下的真实推理能力,发现它们在空间布局变化、子目标重组、因果状态追踪和细粒度语义理解方面存在严重缺陷
- 论文追溯了这些缺陷的根本原因:VLA架构在容量压缩、感知抽象和实时控制需求之间的根本性权衡导致语义表征退化
Card 03
核心贡献
核心贡献
- BeTTER诊断基准:首个可扩展的模板驱动基准测试,通过控制性因果干预(空间布局偏移、原语重组、对抗性物体扰动、时间外推)来评估真实具身推理能力,同时记录特权状态以实现可解释的失败分析
- 系统性缺陷诊断:揭示了四种关键失败模式——词汇-运动捷径(lexical-kinematic shortcuts)、行为惯性(behavioral inertia)、因果状态追踪失败、语义特征崩溃(semantic feature collapse)
- 机制性根因分析:追踪到VLM-to-VLA适应过程中的三个关键瓶颈——容量压缩(8B→2B参数导致推理能力显著下降)、协同训练不对称性(空间定位恢复但顺序规划退化)、"近视"感知约束(单张224×224输入导致细粒度语义丢失)
- 真实世界验证:在SO101机器人平台上进行物理压力测试,证实模拟环境中发现的表征失败在真实物理控制环境中持续存在
Card 04
方法描述
方法描述
- 模板驱动的任务生成:使用VLM(如Gemini)将高层交互模板实例化为具体任务规范,结合开放词汇3D资产检索(Objaverse)构建多样化环境
- 轨迹放大与特权状态记录:通过MimicGen过程化重定向人类演示,并自动记录深度图、2D/3D边界框、物体分割掩码等特权状态用于诊断
- 逐步消融分析:以InternVL-3.5为基线,系统性地消融模型容量、预训练数据混合和感知约束,量化各因素对推理表征的影响
- 运动学隔离设计:确保测试失败源于高层推理崩溃而非低层执行限制,通过控制物体放置位置保证运动原语始终有效
Card 05
数据集与资源
数据集与资源
- BeTTER基准:10个基础操作任务扩展为60个变体,涵盖松散容纳到精确插入等多样物理约束
- 评估模型:π₀.₅(2B参数)、GR00T-N1.6、Being-H0.5等最先进的VLA模型
- 对比基准:LIBERO(静态分布内测试)、CALVIN(OOD分布外测试)、EmbSpatial、RefSpatial、EgoPlan-Bench2等
- 真实世界平台:SO101机器人手臂,配备水果篮、柠檬、山竹等物体的工作空间
Card 06
评估与结果
评估与结果
- 关键发现1(指令理解幻觉):在"准备晨咖啡"任务中,GR00T-N1.6在空间指令上达到100%准确率但在语义指令上仅5%,显示词汇-运动捷径;Being-H0.5表现出显著的空间位置偏差
- 关键发现2(子目标组合失败):在"打包快餐订单"任务中,模型在未见过的B→C组合上成功率从60-75%骤降至0-15%,ΔSR高达-52.5%,揭示行为惯性
- 关键发现3(因果状态追踪失败):当初始条件从"两个汉堡"变为"一个汉堡"时,模型错误地跳过第一步直接执行第二步,显示依赖表面视觉线索而非真实因果推理
- 关键发现4(细粒度语义崩溃):在杂乱环境中,干扰物抓取率(DGR)显著上升,模型退化为"盲抓取"启发式策略
- VLM-to-VLA退化量化:8B→2B压缩使EgoPlan从40.80降至33.38,RefSpatial从27.50降至6.00;单224px约束进一步将RefSpatial从29.50降至7.50
- 基准测试悖论:LIBERO上所有配置均饱和于~97%,但CALVIN OOD测试揭示"VLA+VLM"配置(平均长度4.086)显著优于纯"VLA"配置(3.860),证明静态基准无法区分真实推理与运动学记忆