论文提出了 ProgressVLA 模型，旨在解决现有视觉-语言-动作（VLA）模型缺乏任务进度感知能力的问题，特别是在长序列任务中依赖手工启…

论文详情

ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

2026-03-29 · 原文 · 翻译 · 2603.27670

论文提出了 ProgressVLA 模型，旨在解决现有视觉-语言-动作（VLA）模型缺乏任务进度感知能力的问题，特别是在长序列任务中依赖手工启发式终止规则的局限性。核心思想是将进度估计直接嵌入扩散策略的动作生成过程，通过预训练的进度估计器和逆向动力学世界模型，实现可微分的进度引导。目标是实现更鲁棒的长序列机器人操作任务执行，提供基于进度的终止判据，并减少无效的动作采样。

6 分钟读完 6 张阅读卡 Hongyu Yan, Qiwei Li, Yadong Mu (标记 1), Jiaolong Ya…

一眼看懂封面预览

论文提出了 ProgressVLA 模型，旨在解决现有视觉-语言-动作（VLA）模型缺乏任务进度感知能力的问题，特别是在长序列任务中依赖手工启…

论文提出了 ProgressVLA 模型，旨在解决现有视觉-语言-动作（VLA）模型缺乏任务进度感知能力的问题，特别是在长序列任务中依赖手工启…
核心思想是将进度估计直接嵌入扩散策略的动作生成过程，通过预训练的进度估计器和逆向动力学世界模型，实现可微分的进度引导。
目标是实现更鲁棒的长序列机器人操作任务执行，提供基于进度的终止判据，并减少无效的动作采样。

Card 01 研究单位

研究单位

Hongyu Yan, Qiwei Li, Yadong Mu (标记 1), Jiaolong Yang (标记 2)
(注：提供的 HTML 源文截断，未包含具体机构名称，仅显示作者及单位标记)

Card 02 论文概述

论文概述

论文提出了 ProgressVLA 模型，旨在解决现有视觉-语言-动作（VLA）模型缺乏任务进度感知能力的问题，特别是在长序列任务中依赖手工启发式终止规则的局限性。
核心思想是将进度估计直接嵌入扩散策略的动作生成过程，通过预训练的进度估计器和逆向动力学世界模型，实现可微分的进度引导。
目标是实现更鲁棒的长序列机器人操作任务执行，提供基于进度的终止判据，并减少无效的动作采样。

Card 03 核心贡献

核心贡献

提出了在大规模 Open X-Embodiment (OXE) 数据集上预训练的进度估计器，能够预测归一化的任务进度，并在真实世界场景中实现零样本泛化。
引入了基于逆向动力学世界模型的可微分进度引导机制，通过预测动作的未来视觉效果并最大化进度得分，在扩散去噪过程中优化动作潜变量。
设计了一套强化学习微调框架，利用在线轨迹挖掘进度异常点并引入单调性约束，同时通过 KL 正则化的策略改进增强模型的鲁棒性。
在 CALVIN 和 LIBERO 基准测试以及真实机器人平台上进行了广泛验证，展示了显著的性能提升。

Card 04 方法描述

方法描述

进度估计器：使用 Vision-Language 架构（基于 DINOv2 特征），输入语言指令、初始帧和当前帧，输出 [0, 1] 范围的进度分数，使用归一化时间步作为训练标签。
世界模型：包含逆向动力学模型（将观测变化映射为潜动作）和前向动力学模型（根据潜动作预测未来观测），训练时加入 KL 散度约束。
引导扩散策略：采用两阶段生成（潜动作专家 -> 动作解码器），在扩散去噪步骤中，利用世界模型预测未来状态，计算进度梯度作为分类器引导修正采样分布。
在线微调：收集在线轨迹，对进度估计器施加单调性损失以修正异常预测，对扩散策略利用进度得分进行 KL 约束的策略梯度优化。

Card 05 数据集与资源

数据集与资源

预训练数据集：Open X-Embodiment (OXE) 数据集。
评估基准：CALVIN (ABC→D) 和 LIBERO (包含 Spatial, Object, Goal, Long 等子集)。
真实世界实验：基于 ARX AC-One 双臂机器人，配备 Intel RealSense D405 相机的桌面操作环境。
训练资源：8 张 NVIDIA H20 GPU，Batch size 2048，基础学习率 $1 \times 10^{-4}$。

Card 06 评估与结果

评估与结果

评估环境：CALVIN 模拟环境（长序列任务）、LIBERO 多任务基准、真实双臂机器人平台。
主要指标：连续任务成功率（1-5 tasks in a row）、平均完成任务长度、进度预测残差。
CALVIN 结果：完整模型平均完成长度 3.73，5 连续任务成功率 56.4%，优于 GR-MG、3D Diffuser 等基线；预训练评估器引导效果显著优于从头训练。
LIBERO 结果：完整模型平均成功率 84.5%，长序列任务（LIBERO-LONG）成功率 66.2%，显著优于 OpenVLA (53.7%)。
真实世界结果：带引导版本平均成功率 76%，平均执行步数 53.3，相比 Octo 基线（成功率 23%）和无引导版本有显著提升。
进度估计精度：仿真环境预测残差 0.07，真实环境残差 0.1。