返回列表 VLA / Vision-Language-Action 每日论文卡
ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation
论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启…

论文详情

ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

2026-03-29 · 原文 · 翻译 · 2603.27670

论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启发式终止规则的局限性。 核心思想是将进度估计直接嵌入扩散策略的动作生成过程,通过预训练的进度估计器和逆向动力学世界模型,实现可微分的进度引导。 目标是实现更鲁棒的长序列机器人操作任务执行,提供基于进度的终止判据,并减少无效的动作采样。

6 分钟读完 6 张阅读卡 Hongyu Yan, Qiwei Li, Yadong Mu (标记 1), Jiaolong Ya…
一眼看懂 封面预览

论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启…

  • 论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启…
  • 核心思想是将进度估计直接嵌入扩散策略的动作生成过程,通过预训练的进度估计器和逆向动力学世界模型,实现可微分的进度引导。
  • 目标是实现更鲁棒的长序列机器人操作任务执行,提供基于进度的终止判据,并减少无效的动作采样。
Card 01 研究单位

研究单位

  • Hongyu Yan, Qiwei Li, Yadong Mu (标记 1), Jiaolong Yang (标记 2)
  • (注:提供的 HTML 源文截断,未包含具体机构名称,仅显示作者及单位标记)
Card 02 论文概述

论文概述

  • 论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启发式终止规则的局限性。
  • 核心思想是将进度估计直接嵌入扩散策略的动作生成过程,通过预训练的进度估计器和逆向动力学世界模型,实现可微分的进度引导。
  • 目标是实现更鲁棒的长序列机器人操作任务执行,提供基于进度的终止判据,并减少无效的动作采样。
Card 03 核心贡献

核心贡献

  • 提出了在大规模 Open X-Embodiment (OXE) 数据集上预训练的进度估计器,能够预测归一化的任务进度,并在真实世界场景中实现零样本泛化。
  • 引入了基于逆向动力学世界模型的可微分进度引导机制,通过预测动作的未来视觉效果并最大化进度得分,在扩散去噪过程中优化动作潜变量。
  • 设计了一套强化学习微调框架,利用在线轨迹挖掘进度异常点并引入单调性约束,同时通过 KL 正则化的策略改进增强模型的鲁棒性。
  • CALVINLIBERO 基准测试以及真实机器人平台上进行了广泛验证,展示了显著的性能提升。
Card 04 方法描述

方法描述

  • 进度估计器:使用 Vision-Language 架构(基于 DINOv2 特征),输入语言指令、初始帧和当前帧,输出 [0, 1] 范围的进度分数,使用归一化时间步作为训练标签。
  • 世界模型:包含逆向动力学模型(将观测变化映射为潜动作)和前向动力学模型(根据潜动作预测未来观测),训练时加入 KL 散度约束。
  • 引导扩散策略:采用两阶段生成(潜动作专家 -> 动作解码器),在扩散去噪步骤中,利用世界模型预测未来状态,计算进度梯度作为分类器引导修正采样分布。
  • 在线微调:收集在线轨迹,对进度估计器施加单调性损失以修正异常预测,对扩散策略利用进度得分进行 KL 约束的策略梯度优化。
Card 05 数据集与资源

数据集与资源

  • 预训练数据集:Open X-Embodiment (OXE) 数据集。
  • 评估基准:CALVIN (ABC→D) 和 LIBERO (包含 Spatial, Object, Goal, Long 等子集)。
  • 真实世界实验:基于 ARX AC-One 双臂机器人,配备 Intel RealSense D405 相机的桌面操作环境。
  • 训练资源:8 张 NVIDIA H20 GPU,Batch size 2048,基础学习率 $1 \times 10^{-4}$。
Card 06 评估与结果

评估与结果

  • 评估环境:CALVIN 模拟环境(长序列任务)、LIBERO 多任务基准、真实双臂机器人平台。
  • 主要指标:连续任务成功率(1-5 tasks in a row)、平均完成任务长度、进度预测残差。
  • CALVIN 结果:完整模型 平均完成长度 3.73,5 连续任务成功率 56.4%,优于 GR-MG、3D Diffuser 等基线;预训练评估器引导效果显著优于从头训练。
  • LIBERO 结果:完整模型平均成功率 84.5%,长序列任务(LIBERO-LONG)成功率 66.2%,显著优于 OpenVLA (53.7%)。
  • 真实世界结果:带引导版本平均成功率 76%,平均执行步数 53.3,相比 Octo 基线(成功率 23%)和无引导版本有显著提升。
  • 进度估计精度:仿真环境预测残差 0.07,真实环境残差 0.1