一眼看懂
封面预览
论文提出了 DIAL 框架,旨在通过 潜在世界建模 来解耦意图和行动,实现端到端的视觉语言行动(VLA)模型。
- 论文提出了 DIAL 框架,旨在通过 潜在世界建模 来解耦意图和行动,实现端到端的视觉语言行动(VLA)模型。
- 核心目标是解决现有VLA模型将预训练视觉语言模型(VLM)仅作为被动编码器的问题,从而充分利用其在高级决策方面的潜力,并避免训练不稳定导致的语…
- 论文通过引入 可微分潜在意图瓶颈,将基于VLM的高级认知推理(System-2)与低级反应式运动控制(System-1)进行结构性连接。
Card 01
研究单位
研究单位
- 香港大学
- XPENG Robotics
- 北卡罗来纳大学教堂山分校
Card 02
论文概述
论文概述
- 论文提出了 DIAL 框架,旨在通过 潜在世界建模 来解耦意图和行动,实现端到端的视觉语言行动(VLA)模型。
- 核心目标是解决现有VLA模型将预训练视觉语言模型(VLM)仅作为被动编码器的问题,从而充分利用其在高级决策方面的潜力,并避免训练不稳定导致的语义表示退化。
- 论文通过引入 可微分潜在意图瓶颈,将基于VLM的高级认知推理(System-2)与低级反应式运动控制(System-1)进行结构性连接。
Card 03
核心贡献
核心贡献
- 提出了一种新颖的VLA架构,通过将 潜在视觉预见 作为结构瓶颈,确保生成的动作严格建立在VLM的推理意图之上。
- 设计了从 解耦预热 到 端到端协同 的稳定训练范式,通过双阶段预热策略防止表示崩溃,并为无缝的端到端微调奠定基础。
- 在 RoboCasa GR1基准测试 上建立了新的SOTA性能,数据效率比先前方法高出10倍,并展示了强大的可扩展性,能成功利用异构人类演示数据。
- 在真实世界的 IRON-R01-1.11人形机器人 上验证了其可靠的物理执行能力和对未见场景的鲁棒零样本泛化能力。
Card 04
方法描述
方法描述
- 采用受认知科学启发的双系统架构:System-2(类比“大脑”)基于预训练VLM(如 Qwen2.5-VL-3B)进行潜在世界建模,通过合成潜在视觉预见来编码意图;System-1(类比“小脑”)作为基于流匹配的轻量级策略,充当潜在逆动力学模型,将当前观察与预测意图解码为精确动作。
- 创新点在于引入了 可微分潜在意图瓶颈,它强制System-1必须弥合当前视觉特征与System-2预测的潜在预见之间的差距来生成动作,有效避免了捷径学习。
- 技术关键包括:System-2通过可学习查询token在VLM原生ViT特征空间内预测未来状态;System-1使用共享的预训练ViT确保特征空间一致性;采用MSE损失进行潜在预见对齐。
Card 05
数据集与资源
数据集与资源
- 使用了 RoboCasa GR1桌面仿真基准测试(包含24个任务)和真实世界 IRON-R01-1.11机器人。
- 引入了大规模人类演示数据集 EgoDex 进行跨具身学习。
- System-2 使用 Qwen2.5-VL-3B 作为VLM骨干,System-1 包含一个4层自注意力模块和一个16层扩散Transformer(DiT)。
- 训练分为两个阶段:第一阶段为解耦预热(包含不同步数的训练),第二阶段为端到端联合优化。
Card 06
评估与结果
评估与结果
- 在 RoboCasa仿真环境 和 真实机器人部署 中进行了全面评估。
- 主要评估指标为 任务成功率。
- 在仿真基准上,DIAL平均成功率达到 70.2%,显著超越最强基线FLARE(55.0%),并在仅需10%演示数据(100条轨迹/任务)的条件下仍能达到 58.3% 的成功率。
- 真实世界实验表明,DIAL在分布内任务平均成功率为 77.5%,在分布外场景成功率为 58.3%,展示了优异的鲁棒性和泛化能力。
- 潜在可视化实验证实,模型成功将抽象语言指令转化为连贯的“视觉路线图”,其中预测的潜在预见与任务相关的未来状态实现了结构性对齐。