提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling)，一种用于视觉-语言-动作 (V…

论文详情

Human-in-the-loop Online Rejection Sampling for Robotic Manipulation

2025-10-30 · 原文 · 翻译 · 2510.26406

提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling)，一种用于视觉-语言-动作 (VLA) 模型后训练的方法，结合了强化学习的鲁棒性和模仿学习的稳定性解决 VLA 模型强化学习后训练中的两个核心不稳定因素：不准确的价值估计和高维动作空间中的稀疏监督在三个真实世界机器人和两种机器人形态上验证方法，实现仅需 1.5 小时真实训练即可掌握接触密集型操作任务

5 分钟读完 6 张阅读卡清华大学深圳国际研究生院 (Tsinghua Shenzhen International Gradu…

一眼看懂封面预览

提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling)，一种用于视觉-语言-动作 (V…

提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling)，一种用于视觉-语言-动作 (V…
解决 VLA 模型强化学习后训练中的两个核心不稳定因素：不准确的价值估计和高维动作空间中的稀疏监督
在三个真实世界机器人和两种机器人形态上验证方法，实现仅需 1.5 小时真实训练即可掌握接触密集型操作任务

Card 01 研究单位

研究单位

清华大学深圳国际研究生院 (Tsinghua Shenzhen International Graduate School)
腾讯机器人 X (Tencent Robotics X)

Card 02 论文概述

论文概述

提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling)，一种用于视觉-语言-动作 (VLA) 模型后训练的方法，结合了强化学习的鲁棒性和模仿学习的稳定性
解决 VLA 模型强化学习后训练中的两个核心不稳定因素：不准确的价值估计和高维动作空间中的稀疏监督
在三个真实世界机器人和两种机器人形态上验证方法，实现仅需 1.5 小时真实训练即可掌握接触密集型操作任务

Card 03 核心贡献

核心贡献

识别 RL 在 VLA 后训练中不稳定的根本原因（价值估计不准确、监督效率低），并提出 Hi-ORS 通过拒绝采样和奖励加权监督目标实现稳定在线学习
展示 Hi-ORS 自然整合人类干预以指导策略学习错误恢复行为，产生令人印象深刻的测试时扩展性能
在三个真实世界任务上验证 Hi-ORS，显著超越 IL 和 RL 基线，同时实现高效样本利用和最小超参数调优

Card 04 方法描述

方法描述

拒绝采样机制：基于任务奖励过滤轨迹，丢弃负奖励样本，保留成功轨迹用于策略更新，避免高维动作空间中的价值过估计问题
奖励加权监督学习目标：使用 flow matching 损失对所有中间去噪时间步提供密集监督，解决中间步骤监督稀疏的问题
人类纠正可变频率策略：人类干预期间使用高频日志记录，自主执行期间使用低频以避免回溯运动
异步推理-训练基础设施：演员-学习器异步设计，支持灵活的在线人工介入，使用 ZeRO-2 分布式训练

Card 05 数据集与资源

数据集与资源

任务：

- Raise-Hand：Paxini Tora One 机器人举左手到目标姿态

- Pack-Detergent：Paxini Tora One 机器人从传送带拾取洗衣液放入纸箱

- Insert-Moisturizer：Dobot X-Trainer 机器人臂拾取保湿霜并插入底座

基础模型：π₀ (pi_0)，使用 PaliGemma-3B 作为骨干网络，300M 参数动作专家进行 flow matching 动作分块预测
训练资源：约 1.5 小时真实机器人训练，总延迟约 160ms 推理 + 400ms 通信 + 900ms 顺序执行

Card 06 评估与结果

评估与结果

在三个真实世界任务上，Hi-ORS 在有效性和效率上均优于 RL 和 IL 基线
最终成功率 80%（Insert-Moisturizer 任务），训练时间 1.5 小时
消融实验表明每个技术组件都至关重要，移除任何单一技术都会导致显著性能下降
表现出测试时扩展能力：通过重复执行复杂错误恢复行为，评估时使用更大尝试预算可获得更高性能