返回列表 VLA / Vision-Language-Action 每日论文卡

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

论文详情

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

2025-06-21 · 原文 · 翻译 · 2506.17811

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。 发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系,揭示了 推理时缩放定律 的存在。 提出了 RoboMonkey 框架,该框架在部署时采样多个动作,利用高斯扰动和多数投票构建提议分布,并通过验证器选择最优动作。

4 分钟读完 6 张阅读卡 Stanford University
一眼看懂 封面预览

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。

  • 论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。
  • 发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系,揭示了 推理时缩放定律 的存在。
  • 提出了 RoboMonkey 框架,该框架在部署时采样多个动作,利用高斯扰动和多数投票构建提议分布,并通过验证器选择最优动作。
Card 01 研究单位

研究单位

  • Stanford University
  • UC Berkeley
  • NVIDIA Research
Card 02 论文概述

论文概述

  • 论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题,提出通过测试时采样和验证来提升性能。
  • 发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系,揭示了 推理时缩放定律 的存在。
  • 提出了 RoboMonkey 框架,该框架在部署时采样多个动作,利用高斯扰动和多数投票构建提议分布,并通过验证器选择最优动作。
Card 03 核心贡献

核心贡献

  • 发现并证明了 VLA 模型的 推理时缩放定律,即随着采样数量的增加,动作误差遵循指数幂律下降。
  • 提出了一种可扩展的 合成数据生成流程,用于训练基于 VLM 的动作验证器,无需人工标注即可生成偏好数据。
  • 构建了 RoboMonkey 测试时缩放框架,结合高斯扰动和验证机制,显著提升了现有 VLA 模型的精度和鲁棒性。
  • 实验表明该方法在分布外任务上实现了 25% 的绝对性能提升,在分布内任务上提升了 9%
Card 04 方法描述

方法描述

  • 训练阶段:利用现有的模仿学习数据集,通过参考策略采样候选动作,经过聚类后基于与真实动作的 RMSE 构建成对比较数据,用于微调 VLM 动作验证器。
  • 部署阶段:从 VLA 模型中采样少量动作,通过拟合 高斯分布多数投票 构建动作提议分布。
  • 使用微调后的 VLM 验证器对候选动作进行评分和选择,从而输出最优动作。
Card 05 数据集与资源

数据集与资源

  • 使用 Bridge V2 Dataset 进行缩放定律分析和实验。
  • 评估基准包括 SIMPLER environmentsLIBERO-Long benchmark
  • 涉及的模型包括 OpenVLA, Octo, CogAct, SpatialVLA
  • (注:原文 HTML 截断,未提供具体的 GPU 或训练时长细节)
Card 06 评估与结果

评估与结果

  • 评估环境包括仿真环境和硬件实验,涵盖分布内和分布外任务。
  • 关键评估指标为动作误差(RMSE)和任务成功率。
  • 在分布外任务上实现了 25% 的绝对改进,在分布内 SIMPLER 环境中实现了 9% 的改进。
  • LIBERO-Long 基准上,联合微调 VLA 和验证器比仅微调 VLA 性能提升了 7%
  • 实验表明,高斯扰动采样在计算效率和性能上均优于随机采样和直接策略采样。