返回列表 VLA / Vision-Language-Action 每日论文卡
Benchmarking Affordance Generalization with BusyBox
论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。

论文详情

Benchmarking Affordance Generalization with BusyBox

2026-02-05 · 原文 · 翻译 · 2602.05441

论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。 该基准旨在解决 VLA 模型在面对具有熟悉物理特征但在视觉上新颖的物体时,难以有效操作的问题。 研究表明,即使是强大的开源 VLA 模型在视觉外观发生变化但功能保持不变的情况下,泛化能力仍面临巨大挑战。

5 分钟读完 6 张阅读卡 Microsoft Research
一眼看懂 封面预览

论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。

  • 论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。
  • 该基准旨在解决 VLA 模型在面对具有熟悉物理特征但在视觉上新颖的物体时,难以有效操作的问题。
  • 研究表明,即使是强大的开源 VLA 模型在视觉外观发生变化但功能保持不变的情况下,泛化能力仍面临巨大挑战。
Card 01 研究单位

研究单位

  • Microsoft Research
  • Mississippi State University
  • Genie
Card 02 论文概述

论文概述

  • 论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。
  • 该基准旨在解决 VLA 模型在面对具有熟悉物理特征但在视觉上新颖的物体时,难以有效操作的问题。
  • 研究表明,即使是强大的开源 VLA 模型在视觉外观发生变化但功能保持不变的情况下,泛化能力仍面临巨大挑战。
Card 03 核心贡献

核心贡献

  • 设计并开源了 BusyBox 物理基准,包含 6 个可互换、可旋转的模块(按钮、滑块、开关、旋钮、导线、显示屏),支持生成具有相同可供性但不同视觉外观的配置。
  • 发布了一个包含 1993 条 语言标注的操作演示数据集,涵盖 8 个任务族,基于 Mobile Aloha 机器人采集。
  • 提出了一套实验协议,用于评估 VLA 模型的可供性泛化能力,并提供了 π0.5GR00T-N1.6 模型的基准测试结果。
Card 04 方法描述

方法描述

  • BusyBox 采用模块化设计,组件通过卡扣连接,易于重组和重新配置(如半 shuffled 或全 shuffled),从而解耦视觉分布变化与可供性分布变化。
  • 提供了可选的电子仪器化方案(基于 Raspberry Pi 0),用于自动记录设备状态,辅助策略学习和自动化评估。
  • 实验方法是在标准配置上微调 VLA 模型,然后在视觉上不同的配置上进行测试,以区分视觉泛化失败与可供性泛化失败。
Card 05 数据集与资源

数据集与资源

  • BusyBox 数据集:包含 1993 条轨迹,涵盖按按钮、移动滑块、转动旋钮、拨动开关、插拔导线等任务。
  • 硬件资源:使用 Trossen Mobile Aloha 双臂机器人进行数据采集。
  • 开源资源:发布了 3D 打印 CAD 文件、物料清单(BOM)以及演示数据集,项目地址为 https://microsoft.github.io/BusyBox。
Card 06 评估与结果

评估与结果

  • 评估环境:在三种 BusyBox 配置上评估:标准配置、半 shuffled(3 个模块位置改变)、全 shuffled(5 个模块位置/方向改变)。
  • 评估模型:π0.5-canonGR00T-N1.6-canon
  • 主要结果:

- 在标准配置(视觉分布内 VID)上,模型表现尚可。

- 在半 shuffled 和全 shuffled 配置(视觉分布外 VOOD)上,模型性能显著下降。

- GR00T-N1.6 倾向于移动到记忆中的标准位置(过度依赖本体感受),而 π0.5 在遇到视觉异常时倾向于冻结不动。

- 结论表明,当前的 VLA 模型在基本可供性泛化方面仍存在重大缺陷,即使物理交互逻辑相同,视觉外观的变化也会导致操作失败。