提出了 POCO 框架，旨在解决生成式机器人策略（如扩散模型、流匹配模型）在线微调时面临的稳定性与样本效率之间的两难困境

论文详情

Posterior Optimization with Clipped Objective for Bridging Efficiency and Stability in Generative Policy Learning

2026-04-02 · 原文 · 翻译 · 2604.01860

提出了 POCO 框架，旨在解决生成式机器人策略（如扩散模型、流匹配模型）在线微调时面临的稳定性与样本效率之间的两难困境将策略改进重新表述为一个无需显式似然估计的后验推断问题，通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新采用离线到在线的训练范式，在保持预训练先验知识的同时实现高效的环境探索，防止灾难性策略崩溃

4 分钟读完 6 张阅读卡中国科学院自动化研究所

一眼看懂封面预览

提出了 POCO 框架，旨在解决生成式机器人策略（如扩散模型、流匹配模型）在线微调时面临的稳定性与样本效率之间的两难困境

提出了 POCO 框架，旨在解决生成式机器人策略（如扩散模型、流匹配模型）在线微调时面临的稳定性与样本效率之间的两难困境
将策略改进重新表述为一个无需显式似然估计的后验推断问题，通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
采用离线到在线的训练范式，在保持预训练先验知识的同时实现高效的环境探索，防止灾难性策略崩溃

Card 01 研究单位

研究单位

中国科学院自动化研究所
中国科学院大学人工智能学院
北京大学计算机学院
北京人工智能研究院

Card 02 论文概述

论文概述

提出了 POCO 框架，旨在解决生成式机器人策略（如扩散模型、流匹配模型）在线微调时面临的稳定性与样本效率之间的两难困境
将策略改进重新表述为一个无需显式似然估计的后验推断问题，通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
采用离线到在线的训练范式，在保持预训练先验知识的同时实现高效的环境探索，防止灾难性策略崩溃

Card 03 核心贡献

核心贡献

提出了 POCO 框架，通过隐式 E-M 过程和鲁棒的裁剪回归机制，实现了无需显式似然估计的时间动作块稳定微调
设计了离线到在线的训练范式，通过后验推断将在线探索锚定在预训练先验上，有效防止灾难性遗忘
提出的方法具有模型无关性，可直接应用于微调大规模 VLA 模型而不需修改架构
在 7 个模拟基准和 4 个真实世界任务上进行了系统评估，证明了其在样本效率和性能稳定性方面优于 SOTA 方法

Card 04 方法描述

方法描述

核心方法为 后验优化与裁剪目标 (POCO)，包含隐式 E-step 和裁剪 M-step 两个阶段
隐式 E-step：通过重要性采样构建隐式后验，使用块级 Critic 评估候选动作块的 Q 值作为权重，避免了生成模型似然估计的难题
裁剪 M-step：采用裁剪代理目标函数将高价值行为提炼回策略网络，限制由 OOD 动作引起的剧烈梯度更新，防止策略崩溃
引入块级 Critic 评估时间动作块的多步回报，加速稀疏奖励的信用分配并促进 Critic 收敛

Card 05 数据集与资源

数据集与资源

模拟环境：OGBench 和 RoboMimic（包含 Lift, Can, Transport, Tool Hang 等任务）
真实世界任务：4 个接触丰富的机器人操控任务（Block rotation, Cup arranging, Precision insertion, Tool picking）
关键超参数：裁剪阈值 ζ、后验引导尺度 β、块视界 T、候选动作数量 N

Card 06 评估与结果

评估与结果

评估指标：任务成功率
实验结果表明，POCO 成功避免了离线到在线微调中常见的灾难性策略崩溃现象
在真实世界任务中，POCO 在 50K 在线训练步数内达到了 96.7% 的成功率
相比现有 SOTA 基线，在样本效率和最终性能上均有显著提升