一眼看懂
封面预览
提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境
- 提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境
- 将策略改进重新表述为一个无需显式似然估计的后验推断问题,通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
- 采用离线到在线的训练范式,在保持预训练先验知识的同时实现高效的环境探索,防止灾难性策略崩溃
Card 01
研究单位
研究单位
- 中国科学院自动化研究所
- 中国科学院大学人工智能学院
- 北京大学计算机学院
- 北京人工智能研究院
Card 02
论文概述
论文概述
- 提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境
- 将策略改进重新表述为一个无需显式似然估计的后验推断问题,通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
- 采用离线到在线的训练范式,在保持预训练先验知识的同时实现高效的环境探索,防止灾难性策略崩溃
Card 03
核心贡献
核心贡献
- 提出了 POCO 框架,通过隐式 E-M 过程和鲁棒的裁剪回归机制,实现了无需显式似然估计的时间动作块稳定微调
- 设计了离线到在线的训练范式,通过后验推断将在线探索锚定在预训练先验上,有效防止灾难性遗忘
- 提出的方法具有模型无关性,可直接应用于微调大规模 VLA 模型而不需修改架构
- 在 7 个模拟基准和 4 个真实世界任务上进行了系统评估,证明了其在样本效率和性能稳定性方面优于 SOTA 方法
Card 04
方法描述
方法描述
- 核心方法为 后验优化与裁剪目标 (POCO),包含隐式 E-step 和裁剪 M-step 两个阶段
- 隐式 E-step:通过重要性采样构建隐式后验,使用块级 Critic 评估候选动作块的 Q 值作为权重,避免了生成模型似然估计的难题
- 裁剪 M-step:采用裁剪代理目标函数将高价值行为提炼回策略网络,限制由 OOD 动作引起的剧烈梯度更新,防止策略崩溃
- 引入块级 Critic 评估时间动作块的多步回报,加速稀疏奖励的信用分配并促进 Critic 收敛
Card 05
数据集与资源
数据集与资源
- 模拟环境:OGBench 和 RoboMimic(包含 Lift, Can, Transport, Tool Hang 等任务)
- 真实世界任务:4 个接触丰富的机器人操控任务(Block rotation, Cup arranging, Precision insertion, Tool picking)
- 关键超参数:裁剪阈值 ζ、后验引导尺度 β、块视界 T、候选动作数量 N
Card 06
评估与结果
评估与结果
- 评估指标:任务成功率
- 实验结果表明,POCO 成功避免了离线到在线微调中常见的灾难性策略崩溃现象
- 在真实世界任务中,POCO 在 50K 在线训练步数内达到了 96.7% 的成功率
- 相比现有 SOTA 基线,在样本效率和最终性能上均有显著提升