论文针对视觉-语言-动作模型在机器人操作中严重依赖专家演示、导致演示偏差和性能受限的问题。

论文详情

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

2025-11-19 · 原文 · 翻译 · 2511.15605

论文针对视觉-语言-动作模型在机器人操作中严重依赖专家演示、导致演示偏差和性能受限的问题。现有的VLA强化学习方法（如GRPO）受困于奖励信号稀疏，仅依赖二元成功指示器，浪费了失败轨迹中的宝贵信息。论文提出自参考策略优化框架，利用模型在当前训练批次中生成的成功轨迹作为自我参考，为失败尝试分配过程奖励，从而提升训练效率。

4 分钟读完 6 张阅读卡复旦大学

一眼看懂封面预览

论文针对视觉-语言-动作模型在机器人操作中严重依赖专家演示、导致演示偏差和性能受限的问题。

论文针对视觉-语言-动作模型在机器人操作中严重依赖专家演示、导致演示偏差和性能受限的问题。
现有的VLA强化学习方法（如GRPO）受困于奖励信号稀疏，仅依赖二元成功指示器，浪费了失败轨迹中的宝贵信息。
论文提出自参考策略优化框架，利用模型在当前训练批次中生成的成功轨迹作为自我参考，为失败尝试分配过程奖励，从而提升训练效率。

Card 01 研究单位

研究单位

复旦大学
同济大学
上海创新研究院

Card 02 论文概述

论文概述

论文针对 视觉-语言-动作模型 在机器人操作中严重依赖专家演示、导致演示偏差和性能受限的问题。
现有的VLA强化学习方法（如GRPO）受困于奖励信号稀疏，仅依赖二元成功指示器，浪费了失败轨迹中的宝贵信息。
论文提出 自参考策略优化框架，利用模型在当前训练批次中生成的成功轨迹作为自我参考，为失败尝试分配过程奖励，从而提升训练效率。

Card 03 核心贡献

核心贡献

提出 SRPO，一个新颖的VLA强化学习框架，通过使用模型生成的成功轨迹提供过程奖励，消除对专家演示或特定任务工程的依赖。
引入基于 潜在世界表示 的过程奖励方法，克服了传统像素级世界模型的泛化局限和特定领域训练需求。
实验证明该方法在 LIBERO 基准上达到最先进性能，并在 LIBERO-Plus 上展现出强大的泛化能力，且无需在RL训练中增加额外监督。

Card 04 方法描述

方法描述

采用 世界模型编码器 将观测编码为潜在表示，并使用 DBSCAN算法 对成功轨迹的表示进行聚类，以获得代表性中心。
通过计算失败轨迹表示到最近聚类中心的 L2距离 来衡量其行为与成功模式的对齐程度，从而生成过程奖励。
基于GRPO框架，将世界进度奖励用于优势估计，并加入 KL散度正则化 项以保持策略稳定性，最终优化策略。

Card 05 数据集与资源

数据集与资源

主要评估基准为 LIBERO（包含Goal, Spatial, Object, Long四个任务套件）和用于评估鲁棒性的 LIBERO-Plus。
基础模型采用增强动作分块和并行解码的 OpenVLA*（称为OpenVLA*）。
使用大规模视频预训练的潜在世界模型 V-JEPA 2 来获取共享潜在世界表示。
训练框架基于 SiiRL 开发。

Card 06 评估与结果

评估与结果

在 LIBERO 基准上，SRPO从基线模型的48.9%成功率，在仅200个RL步后达到 99.2% 的最先进成功率，相对提升103%。
在 LIBERO-Plus 鲁棒性基准上，SRPO实现了 167% 的性能提升，显著超越了全样本SFT基线。
真实机器人实验表明，该方法能将扩散型策略 π₀ 和自回归策略 π₀-FAST 的性能分别提升66.8%和86.7%。
分析证明，相比像素级或ImageBind基方法，SRPO的奖励信号更平滑、单调，更能准确反映任务进展，并有效激励策略探索新型轨迹。