一眼看懂
封面预览
论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。
- 论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。
- 该基准旨在解决 VLA 模型在面对具有熟悉物理特征但在视觉上新颖的物体时,难以有效操作的问题。
- 研究表明,即使是强大的开源 VLA 模型在视觉外观发生变化但功能保持不变的情况下,泛化能力仍面临巨大挑战。
Card 01
研究单位
研究单位
- Microsoft Research
- Mississippi State University
- Genie
Card 02
论文概述
论文概述
- 论文提出了 BusyBox,一个用于系统评估视觉-语言-动作(VLA)模型“可供性泛化”能力的物理基准测试平台。
- 该基准旨在解决 VLA 模型在面对具有熟悉物理特征但在视觉上新颖的物体时,难以有效操作的问题。
- 研究表明,即使是强大的开源 VLA 模型在视觉外观发生变化但功能保持不变的情况下,泛化能力仍面临巨大挑战。
Card 03
核心贡献
核心贡献
- 设计并开源了 BusyBox 物理基准,包含 6 个可互换、可旋转的模块(按钮、滑块、开关、旋钮、导线、显示屏),支持生成具有相同可供性但不同视觉外观的配置。
- 发布了一个包含 1993 条 语言标注的操作演示数据集,涵盖 8 个任务族,基于 Mobile Aloha 机器人采集。
- 提出了一套实验协议,用于评估 VLA 模型的可供性泛化能力,并提供了 π0.5 和 GR00T-N1.6 模型的基准测试结果。
Card 04
方法描述
方法描述
- BusyBox 采用模块化设计,组件通过卡扣连接,易于重组和重新配置(如半 shuffled 或全 shuffled),从而解耦视觉分布变化与可供性分布变化。
- 提供了可选的电子仪器化方案(基于 Raspberry Pi 0),用于自动记录设备状态,辅助策略学习和自动化评估。
- 实验方法是在标准配置上微调 VLA 模型,然后在视觉上不同的配置上进行测试,以区分视觉泛化失败与可供性泛化失败。
Card 05
数据集与资源
数据集与资源
- BusyBox 数据集:包含 1993 条轨迹,涵盖按按钮、移动滑块、转动旋钮、拨动开关、插拔导线等任务。
- 硬件资源:使用 Trossen Mobile Aloha 双臂机器人进行数据采集。
- 开源资源:发布了 3D 打印 CAD 文件、物料清单(BOM)以及演示数据集,项目地址为 https://microsoft.github.io/BusyBox。
Card 06
评估与结果
评估与结果
- 评估环境:在三种 BusyBox 配置上评估:标准配置、半 shuffled(3 个模块位置改变)、全 shuffled(5 个模块位置/方向改变)。
- 评估模型:π0.5-canon 和 GR00T-N1.6-canon。
- 主要结果:
- 在标准配置(视觉分布内 VID)上,模型表现尚可。
- 在半 shuffled 和全 shuffled 配置(视觉分布外 VOOD)上,模型性能显著下降。
- GR00T-N1.6 倾向于移动到记忆中的标准位置(过度依赖本体感受),而 π0.5 在遇到视觉异常时倾向于冻结不动。
- 结论表明,当前的 VLA 模型在基本可供性泛化方面仍存在重大缺陷,即使物理交互逻辑相同,视觉外观的变化也会导致操作失败。