一眼看懂
封面预览
论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。
- 论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。
- 发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系,揭示了 推理时缩放定律 的存在。
- 提出了 RoboMonkey 框架,该框架在部署时采样多个动作,利用高斯扰动和多数投票构建提议分布,并通过验证器选择最优动作。
Card 01
研究单位
研究单位
- Stanford University
- UC Berkeley
- NVIDIA Research
Card 02
论文概述
论文概述
- 论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。
- 发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系,揭示了 推理时缩放定律 的存在。
- 提出了 RoboMonkey 框架,该框架在部署时采样多个动作,利用高斯扰动和多数投票构建提议分布,并通过验证器选择最优动作。
Card 03
核心贡献
核心贡献
- 发现并证明了 VLA 模型的 推理时缩放定律,即随着采样数量的增加,动作误差遵循指数幂律下降。
- 提出了一种可扩展的 合成数据生成流程,用于训练基于 VLM 的动作验证器,无需人工标注即可生成偏好数据。
- 构建了 RoboMonkey 测试时缩放框架,结合高斯扰动和验证机制,显著提升了现有 VLA 模型的精度和鲁棒性。
- 实验表明该方法在分布外任务上实现了 25% 的绝对性能提升,在分布内任务上提升了 9%。
Card 04
方法描述
方法描述
- 训练阶段:利用现有的模仿学习数据集,通过参考策略采样候选动作,经过聚类后基于与真实动作的 RMSE 构建成对比较数据,用于微调 VLM 动作验证器。
- 部署阶段:从 VLA 模型中采样少量动作,通过拟合 高斯分布 和 多数投票 构建动作提议分布。
- 使用微调后的 VLM 验证器对候选动作进行评分和选择,从而输出最优动作。
Card 05
数据集与资源
数据集与资源
- 使用 Bridge V2 Dataset 进行缩放定律分析和实验。
- 评估基准包括 SIMPLER environments 和 LIBERO-Long benchmark。
- 涉及的模型包括 OpenVLA, Octo, CogAct, SpatialVLA。
- (注:原文 HTML 截断,未提供具体的 GPU 或训练时长细节)
Card 06
评估与结果
评估与结果
- 评估环境包括仿真环境和硬件实验,涵盖分布内和分布外任务。
- 关键评估指标为动作误差(RMSE)和任务成功率。
- 在分布外任务上实现了 25% 的绝对改进,在分布内 SIMPLER 环境中实现了 9% 的改进。
- 在 LIBERO-Long 基准上,联合微调 VLA 和验证器比仅微调 VLA 性能提升了 7%。
- 实验表明,高斯扰动采样在计算效率和性能上均优于随机采样和直接策略采样。