DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

一眼看懂封面预览

提出 DreamVLA，一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架，建立感知-预测-行动循环。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

重新定义视觉-语言-动作模型为感知-预测-行动模型，使其显式预测动态、空间和高级语义信息的紧凑集合。
引入块状结构化注意力机制，结合扩散Transformer解码器，以抑制跨类型知识泄露的表示噪声，实现连贯的多步动作推理。
DreamVLA 在 CALVIN ABC-D 基准上取得了新的最先进性能，并在真实世界任务中达到 76.7% 的成功率，综合实验证实了其有效性。

Card 04 方法描述

- 动态区域引导的世界知识预测：专注于与机器人执行相关的运动区域，而非重建冗余的完整未来帧。

- 结构化注意力机制：通过掩码块状注意力，防止不同类型知识（动态、深度、语义）之间的信息泄露，保持表征的分离与清洁。

- 基于去噪扩散Transformer的逆动力学建模：使用扩散Transformer从噪声中生成动作序列，以建模条件分布并利用跨模态相关性。

Card 05 数据集与资源

Card 06 评估与结果

- 在CALVIN ABC-D基准上，达到4.44的平均任务长度，优于 UP-VLA、Seer 和 VPP 等方法。

- 在真实世界的拾取、放置和开关抽屉任务中，综合平均成功率达到76.7%。

- 消融研究表明，动态区域预测 贡献最大，而深度和语义信息提供了较小的补充增益。