Benchmarking Affordance Generalization with BusyBox - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出了 BusyBox，一个用于系统评估视觉-语言-动作（VLA）模型“可供性泛化”能力的物理基准测试平台。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

设计并开源了 BusyBox 物理基准，包含 6 个可互换、可旋转的模块（按钮、滑块、开关、旋钮、导线、显示屏），支持生成具有相同可供性但不同视觉外观的配置。
发布了一个包含 1993 条 语言标注的操作演示数据集，涵盖 8 个任务族，基于 Mobile Aloha 机器人采集。
提出了一套实验协议，用于评估 VLA 模型的可供性泛化能力，并提供了 π0.5 和 GR00T-N1.6 模型的基准测试结果。

Card 04 方法描述

Card 05 数据集与资源

BusyBox 数据集：包含 1993 条轨迹，涵盖按按钮、移动滑块、转动旋钮、拨动开关、插拔导线等任务。
硬件资源：使用 Trossen Mobile Aloha 双臂机器人进行数据采集。
开源资源：发布了 3D 打印 CAD 文件、物料清单（BOM）以及演示数据集，项目地址为 https://microsoft.github.io/BusyBox。

Card 06 评估与结果

- 在标准配置（视觉分布内 VID）上，模型表现尚可。

- 在半 shuffled 和全 shuffled 配置（视觉分布外 VOOD）上，模型性能显著下降。

- GR00T-N1.6 倾向于移动到记忆中的标准位置（过度依赖本体感受），而 π0.5 在遇到视觉异常时倾向于冻结不动。

- 结论表明，当前的 VLA 模型在基本可供性泛化方面仍存在重大缺陷，即使物理交互逻辑相同，视觉外观的变化也会导致操作失败。