Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models

一眼看懂封面预览

论文揭示了当前最先进的Vision-Language-Action (VLA) 模型在标准机器人基准测试中表现出的高成功率实际上是一种"具身推…

Card 01 研究单位

研究单位

Card 02 论文概述

论文揭示了当前最先进的Vision-Language-Action (VLA) 模型在标准机器人基准测试中表现出的高成功率实际上是一种"具身推理幻觉"（illusion of embodied reasoning）
通过引入BeTTER诊断基准测试，系统评估了VLA模型在动态场景下的真实推理能力，发现它们在空间布局变化、子目标重组、因果状态追踪和细粒度语义理解方面存在严重缺陷
论文追溯了这些缺陷的根本原因：VLA架构在容量压缩、感知抽象和实时控制需求之间的根本性权衡导致语义表征退化

Card 03 核心贡献

BeTTER诊断基准：首个可扩展的模板驱动基准测试，通过控制性因果干预（空间布局偏移、原语重组、对抗性物体扰动、时间外推）来评估真实具身推理能力，同时记录特权状态以实现可解释的失败分析
系统性缺陷诊断：揭示了四种关键失败模式——词汇-运动捷径（lexical-kinematic shortcuts）、行为惯性（behavioral inertia）、因果状态追踪失败、语义特征崩溃（semantic feature collapse）
机制性根因分析：追踪到VLM-to-VLA适应过程中的三个关键瓶颈——容量压缩（8B→2B参数导致推理能力显著下降）、协同训练不对称性（空间定位恢复但顺序规划退化）、"近视"感知约束（单张224×224输入导致细粒度语义丢失）
真实世界验证：在SO101机器人平台上进行物理压力测试，证实模拟环境中发现的表征失败在真实物理控制环境中持续存在

Card 04 方法描述

Card 05 数据集与资源

Card 06 评估与结果

关键发现1（指令理解幻觉）：在"准备晨咖啡"任务中，GR00T-N1.6在空间指令上达到100%准确率但在语义指令上仅5%，显示词汇-运动捷径；Being-H0.5表现出显著的空间位置偏差
关键发现2（子目标组合失败）：在"打包快餐订单"任务中，模型在未见过的B→C组合上成功率从60-75%骤降至0-15%，ΔSR高达-52.5%，揭示行为惯性
关键发现3（因果状态追踪失败）：当初始条件从"两个汉堡"变为"一个汉堡"时，模型错误地跳过第一步直接执行第二步，显示依赖表面视觉线索而非真实因果推理
关键发现4（细粒度语义崩溃）：在杂乱环境中，干扰物抓取率（DGR）显著上升，模型退化为"盲抓取"启发式策略
VLM-to-VLA退化量化：8B→2B压缩使EgoPlan从40.80降至33.38，RefSpatial从27.50降至6.00；单224px约束进一步将RefSpatial从29.50降至7.50
基准测试悖论：LIBERO上所有配置均饱和于~97%，但CALVIN OOD测试揭示"VLA+VLM"配置（平均长度4.086）显著优于纯"VLA"配置（3.860），证明静态基准无法区分真实推理与运动学记忆