返回列表 VLA / Vision-Language-Action 每日论文卡
Posterior Optimization with Clipped Objective for Bridging Efficiency and Stability in Generative Policy Learning
提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境

论文详情

Posterior Optimization with Clipped Objective for Bridging Efficiency and Stability in Generative Policy Learning

2026-04-02 · 原文 · 翻译 · 2604.01860

提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境 将策略改进重新表述为一个无需显式似然估计的后验推断问题,通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新 采用离线到在线的训练范式,在保持预训练先验知识的同时实现高效的环境探索,防止灾难性策略崩溃

4 分钟读完 6 张阅读卡 中国科学院自动化研究所
一眼看懂 封面预览

提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境

  • 提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境
  • 将策略改进重新表述为一个无需显式似然估计的后验推断问题,通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
  • 采用离线到在线的训练范式,在保持预训练先验知识的同时实现高效的环境探索,防止灾难性策略崩溃
Card 01 研究单位

研究单位

  • 中国科学院自动化研究所
  • 中国科学院大学人工智能学院
  • 北京大学计算机学院
  • 北京人工智能研究院
Card 02 论文概述

论文概述

  • 提出了 POCO 框架,旨在解决生成式机器人策略(如扩散模型、流匹配模型)在线微调时面临的稳定性与样本效率之间的两难困境
  • 将策略改进重新表述为一个无需显式似然估计的后验推断问题,通过隐式 E-M 过程和裁剪目标函数实现稳定的策略更新
  • 采用离线到在线的训练范式,在保持预训练先验知识的同时实现高效的环境探索,防止灾难性策略崩溃
Card 03 核心贡献

核心贡献

  • 提出了 POCO 框架,通过隐式 E-M 过程和鲁棒的裁剪回归机制,实现了无需显式似然估计的时间动作块稳定微调
  • 设计了离线到在线的训练范式,通过后验推断将在线探索锚定在预训练先验上,有效防止灾难性遗忘
  • 提出的方法具有模型无关性,可直接应用于微调大规模 VLA 模型而不需修改架构
  • 在 7 个模拟基准和 4 个真实世界任务上进行了系统评估,证明了其在样本效率和性能稳定性方面优于 SOTA 方法
Card 04 方法描述

方法描述

  • 核心方法为 后验优化与裁剪目标 (POCO),包含隐式 E-step 和裁剪 M-step 两个阶段
  • 隐式 E-step:通过重要性采样构建隐式后验,使用块级 Critic 评估候选动作块的 Q 值作为权重,避免了生成模型似然估计的难题
  • 裁剪 M-step:采用裁剪代理目标函数将高价值行为提炼回策略网络,限制由 OOD 动作引起的剧烈梯度更新,防止策略崩溃
  • 引入块级 Critic 评估时间动作块的多步回报,加速稀疏奖励的信用分配并促进 Critic 收敛
Card 05 数据集与资源

数据集与资源

  • 模拟环境:OGBenchRoboMimic(包含 Lift, Can, Transport, Tool Hang 等任务)
  • 真实世界任务:4 个接触丰富的机器人操控任务(Block rotation, Cup arranging, Precision insertion, Tool picking)
  • 关键超参数:裁剪阈值 ζ、后验引导尺度 β、块视界 T、候选动作数量 N
Card 06 评估与结果

评估与结果

  • 评估指标:任务成功率
  • 实验结果表明,POCO 成功避免了离线到在线微调中常见的灾难性策略崩溃现象
  • 在真实世界任务中,POCO 在 50K 在线训练步数内达到了 96.7% 的成功率
  • 相比现有 SOTA 基线,在样本效率和最终性能上均有显著提升