一眼看懂
封面预览
提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling),一种用于视觉-语言-动作 (V…
- 提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling),一种用于视觉-语言-动作 (V…
- 解决 VLA 模型强化学习后训练中的两个核心不稳定因素:不准确的价值估计和高维动作空间中的稀疏监督
- 在三个真实世界机器人和两种机器人形态上验证方法,实现仅需 1.5 小时真实训练即可掌握接触密集型操作任务
Card 01
研究单位
研究单位
- 清华大学深圳国际研究生院 (Tsinghua Shenzhen International Graduate School)
- 腾讯机器人 X (Tencent Robotics X)
Card 02
论文概述
论文概述
- 提出 Hi-ORS (Human-in-the-loop Online Rejection Sampling),一种用于视觉-语言-动作 (VLA) 模型后训练的方法,结合了强化学习的鲁棒性和模仿学习的稳定性
- 解决 VLA 模型强化学习后训练中的两个核心不稳定因素:不准确的价值估计和高维动作空间中的稀疏监督
- 在三个真实世界机器人和两种机器人形态上验证方法,实现仅需 1.5 小时真实训练即可掌握接触密集型操作任务
Card 03
核心贡献
核心贡献
- 识别 RL 在 VLA 后训练中不稳定的根本原因(价值估计不准确、监督效率低),并提出 Hi-ORS 通过拒绝采样和奖励加权监督目标实现稳定在线学习
- 展示 Hi-ORS 自然整合人类干预以指导策略学习错误恢复行为,产生令人印象深刻的测试时扩展性能
- 在三个真实世界任务上验证 Hi-ORS,显著超越 IL 和 RL 基线,同时实现高效样本利用和最小超参数调优
Card 04
方法描述
方法描述
- 拒绝采样机制:基于任务奖励过滤轨迹,丢弃负奖励样本,保留成功轨迹用于策略更新,避免高维动作空间中的价值过估计问题
- 奖励加权监督学习目标:使用 flow matching 损失对所有中间去噪时间步提供密集监督,解决中间步骤监督稀疏的问题
- 人类纠正可变频率策略:人类干预期间使用高频日志记录,自主执行期间使用低频以避免回溯运动
- 异步推理-训练基础设施:演员-学习器异步设计,支持灵活的在线人工介入,使用 ZeRO-2 分布式训练
Card 05
数据集与资源
数据集与资源
- 任务:
- Raise-Hand:Paxini Tora One 机器人举左手到目标姿态
- Pack-Detergent:Paxini Tora One 机器人从传送带拾取洗衣液放入纸箱
- Insert-Moisturizer:Dobot X-Trainer 机器人臂拾取保湿霜并插入底座
- 基础模型:π₀ (pi_0),使用 PaliGemma-3B 作为骨干网络,300M 参数动作专家进行 flow matching 动作分块预测
- 训练资源:约 1.5 小时真实机器人训练,总延迟约 160ms 推理 + 400ms 通信 + 900ms 顺序执行
Card 06
评估与结果
评估与结果
- 在三个真实世界任务上,Hi-ORS 在有效性和效率上均优于 RL 和 IL 基线
- 最终成功率 80%(Insert-Moisturizer 任务),训练时间 1.5 小时
- 消融实验表明每个技术组件都至关重要,移除任何单一技术都会导致显著性能下降
- 表现出测试时扩展能力:通过重复执行复杂错误恢复行为,评估时使用更大尝试预算可获得更高性能