RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

论文详情

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

2025-06-21 · 原文 · 翻译 · 2506.17811

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题，提出通过测试时采样和验证来提升性能。发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系，揭示了推理时缩放定律的存在。提出了 RoboMonkey 框架，该框架在部署时采样多个动作，利用高斯扰动和多数投票构建提议分布，并通过验证器选择最优动作。

4 分钟读完 6 张阅读卡 Stanford University

一眼看懂封面预览

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题，提出通过测试时采样和验证来提升性能。

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题，提出通过测试时采样和验证来提升性能。
发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系，揭示了推理时缩放定律的存在。
提出了 RoboMonkey 框架，该框架在部署时采样多个动作，利用高斯扰动和多数投票构建提议分布，并通过验证器选择最优动作。

Card 01 研究单位

研究单位

Stanford University
UC Berkeley
NVIDIA Research

Card 02 论文概述

论文概述

论文研究了 Vision-Language-Action (VLA) 模型在非结构化真实环境中的鲁棒性问题，提出通过测试时采样和验证来提升性能。
发现 VLA 模型的动作误差与生成样本数量之间存在幂律关系，揭示了 推理时缩放定律 的存在。
提出了 RoboMonkey 框架，该框架在部署时采样多个动作，利用高斯扰动和多数投票构建提议分布，并通过验证器选择最优动作。

Card 03 核心贡献

核心贡献

发现并证明了 VLA 模型的 推理时缩放定律，即随着采样数量的增加，动作误差遵循指数幂律下降。
提出了一种可扩展的 合成数据生成流程，用于训练基于 VLM 的动作验证器，无需人工标注即可生成偏好数据。
构建了 RoboMonkey 测试时缩放框架，结合高斯扰动和验证机制，显著提升了现有 VLA 模型的精度和鲁棒性。
实验表明该方法在分布外任务上实现了 25% 的绝对性能提升，在分布内任务上提升了 9%。

Card 04 方法描述

方法描述

训练阶段：利用现有的模仿学习数据集，通过参考策略采样候选动作，经过聚类后基于与真实动作的 RMSE 构建成对比较数据，用于微调 VLM 动作验证器。
部署阶段：从 VLA 模型中采样少量动作，通过拟合 高斯分布 和 多数投票 构建动作提议分布。
使用微调后的 VLM 验证器对候选动作进行评分和选择，从而输出最优动作。

Card 05 数据集与资源

数据集与资源

使用 Bridge V2 Dataset 进行缩放定律分析和实验。
评估基准包括 SIMPLER environments 和 LIBERO-Long benchmark。
涉及的模型包括 OpenVLA, Octo, CogAct, SpatialVLA。
(注：原文 HTML 截断，未提供具体的 GPU 或训练时长细节)

Card 06 评估与结果

评估与结果

评估环境包括仿真环境和硬件实验，涵盖分布内和分布外任务。
关键评估指标为动作误差（RMSE）和任务成功率。
在分布外任务上实现了 25% 的绝对改进，在分布内 SIMPLER 环境中实现了 9% 的改进。
在 LIBERO-Long 基准上，联合微调 VLA 和验证器比仅微调 VLA 性能提升了 7%。
实验表明，高斯扰动采样在计算效率和性能上均优于随机采样和直接策略采样。