一眼看懂
封面预览
论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启…
- 论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启…
- 核心思想是将进度估计直接嵌入扩散策略的动作生成过程,通过预训练的进度估计器和逆向动力学世界模型,实现可微分的进度引导。
- 目标是实现更鲁棒的长序列机器人操作任务执行,提供基于进度的终止判据,并减少无效的动作采样。
Card 01
研究单位
研究单位
- Hongyu Yan, Qiwei Li, Yadong Mu (标记 1), Jiaolong Yang (标记 2)
- (注:提供的 HTML 源文截断,未包含具体机构名称,仅显示作者及单位标记)
Card 02
论文概述
论文概述
- 论文提出了 ProgressVLA 模型,旨在解决现有视觉-语言-动作(VLA)模型缺乏任务进度感知能力的问题,特别是在长序列任务中依赖手工启发式终止规则的局限性。
- 核心思想是将进度估计直接嵌入扩散策略的动作生成过程,通过预训练的进度估计器和逆向动力学世界模型,实现可微分的进度引导。
- 目标是实现更鲁棒的长序列机器人操作任务执行,提供基于进度的终止判据,并减少无效的动作采样。
Card 03
核心贡献
核心贡献
- 提出了在大规模 Open X-Embodiment (OXE) 数据集上预训练的进度估计器,能够预测归一化的任务进度,并在真实世界场景中实现零样本泛化。
- 引入了基于逆向动力学世界模型的可微分进度引导机制,通过预测动作的未来视觉效果并最大化进度得分,在扩散去噪过程中优化动作潜变量。
- 设计了一套强化学习微调框架,利用在线轨迹挖掘进度异常点并引入单调性约束,同时通过 KL 正则化的策略改进增强模型的鲁棒性。
- 在 CALVIN 和 LIBERO 基准测试以及真实机器人平台上进行了广泛验证,展示了显著的性能提升。
Card 04
方法描述
方法描述
- 进度估计器:使用 Vision-Language 架构(基于 DINOv2 特征),输入语言指令、初始帧和当前帧,输出 [0, 1] 范围的进度分数,使用归一化时间步作为训练标签。
- 世界模型:包含逆向动力学模型(将观测变化映射为潜动作)和前向动力学模型(根据潜动作预测未来观测),训练时加入 KL 散度约束。
- 引导扩散策略:采用两阶段生成(潜动作专家 -> 动作解码器),在扩散去噪步骤中,利用世界模型预测未来状态,计算进度梯度作为分类器引导修正采样分布。
- 在线微调:收集在线轨迹,对进度估计器施加单调性损失以修正异常预测,对扩散策略利用进度得分进行 KL 约束的策略梯度优化。
Card 05
数据集与资源
数据集与资源
- 预训练数据集:Open X-Embodiment (OXE) 数据集。
- 评估基准:CALVIN (ABC→D) 和 LIBERO (包含 Spatial, Object, Goal, Long 等子集)。
- 真实世界实验:基于 ARX AC-One 双臂机器人,配备 Intel RealSense D405 相机的桌面操作环境。
- 训练资源:8 张 NVIDIA H20 GPU,Batch size 2048,基础学习率 $1 \times 10^{-4}$。
Card 06
评估与结果
评估与结果
- 评估环境:CALVIN 模拟环境(长序列任务)、LIBERO 多任务基准、真实双臂机器人平台。
- 主要指标:连续任务成功率(1-5 tasks in a row)、平均完成任务长度、进度预测残差。
- CALVIN 结果:完整模型 平均完成长度 3.73,5 连续任务成功率 56.4%,优于 GR-MG、3D Diffuser 等基线;预训练评估器引导效果显著优于从头训练。
- LIBERO 结果:完整模型平均成功率 84.5%,长序列任务(LIBERO-LONG)成功率 66.2%,显著优于 OpenVLA (53.7%)。
- 真实世界结果:带引导版本平均成功率 76%,平均执行步数 53.3,相比 Octo 基线(成功率 23%)和无引导版本有显著提升。
- 进度估计精度:仿真环境预测残差 0.07,真实环境残差 0.1。