返回列表 VLA / Vision-Language-Action 每日论文卡

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

论文详情

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

2025-07-06 · 原文 · 翻译 · 2507.04447

提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。 旨在解决现有VLA方法依赖冗余像素级图像预测、缺乏空间和高级语义知识的问题。 核心是让模型通过预测未来相关的动态区域、深度和语义特征,为动作规划提供简洁而全面的前瞻性线索。

4 分钟读完 6 张阅读卡 SJTU (上海交通大学)
一眼看懂 封面预览

提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。

  • 提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。
  • 旨在解决现有VLA方法依赖冗余像素级图像预测、缺乏空间和高级语义知识的问题。
  • 核心是让模型通过预测未来相关的动态区域、深度和语义特征,为动作规划提供简洁而全面的前瞻性线索。
Card 01 研究单位

研究单位

  • SJTU (上海交通大学)
  • EIT
  • THU (清华大学)
  • Galbot
  • PKU (北京大学)
  • UIUC
  • USTC (中国科学技术大学)
Card 02 论文概述

论文概述

  • 提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环
  • 旨在解决现有VLA方法依赖冗余像素级图像预测、缺乏空间和高级语义知识的问题。
  • 核心是让模型通过预测未来相关的动态区域、深度和语义特征,为动作规划提供简洁而全面的前瞻性线索。
Card 03 核心贡献

核心贡献

  • 重新定义视觉-语言-动作模型为感知-预测-行动模型,使其显式预测动态、空间和高级语义信息的紧凑集合。
  • 引入块状结构化注意力机制,结合扩散Transformer解码器,以抑制跨类型知识泄露的表示噪声,实现连贯的多步动作推理。
  • DreamVLACALVIN ABC-D 基准上取得了新的最先进性能,并在真实世界任务中达到 76.7% 的成功率,综合实验证实了其有效性。
Card 04 方法描述

方法描述

  • 技术方法:提出一个统一框架,通过可学习的查询大型语言模型 生成世界嵌入,并通过多个轻量级解码器预测未来动态区域、深度和语义。
  • 创新点:

- 动态区域引导的世界知识预测:专注于与机器人执行相关的运动区域,而非重建冗余的完整未来帧。

- 结构化注意力机制:通过掩码块状注意力,防止不同类型知识(动态、深度、语义)之间的信息泄露,保持表征的分离与清洁。

- 基于去噪扩散Transformer的逆动力学建模:使用扩散Transformer从噪声中生成动作序列,以建模条件分布并利用跨模态相关性。

Card 05 数据集与资源

数据集与资源

  • 使用的数据集:CALVINDROIDLIBERO
  • 模型规模与参数量:使用基于 GPT-2 的大型语言模型,结合冻结的视觉和文本编码器。
  • 训练资源:使用 8块 NVIDIA A800 GPU 进行训练。
Card 06 评估与结果

评估与结果

  • 评估环境与基准:在模拟环境(CALVIN ABC-DLIBERO)以及真实世界(Franka Panda 机器人)进行。
  • 主要评估指标:任务连续成功率、平均任务完成长度、真实世界任务成功率。
  • 关键实验结果:

- 在CALVIN ABC-D基准上,达到4.44的平均任务长度,优于 UP-VLASeerVPP 等方法。

- 在真实世界的拾取、放置和开关抽屉任务中,综合平均成功率达到76.7%

- 消融研究表明,动态区域预测 贡献最大,而深度和语义信息提供了较小的补充增益。