一眼看懂
封面预览
提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。
- 提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。
- 旨在解决现有VLA方法依赖冗余像素级图像预测、缺乏空间和高级语义知识的问题。
- 核心是让模型通过预测未来相关的动态区域、深度和语义特征,为动作规划提供简洁而全面的前瞻性线索。
Card 01
研究单位
研究单位
- SJTU (上海交通大学)
- EIT
- THU (清华大学)
- Galbot
- PKU (北京大学)
- UIUC
- USTC (中国科学技术大学)
Card 02
论文概述
论文概述
- 提出 DreamVLA,一个将全面世界知识预测整合到视觉-语言-动作模型中的新框架,建立感知-预测-行动循环。
- 旨在解决现有VLA方法依赖冗余像素级图像预测、缺乏空间和高级语义知识的问题。
- 核心是让模型通过预测未来相关的动态区域、深度和语义特征,为动作规划提供简洁而全面的前瞻性线索。
Card 03
核心贡献
核心贡献
- 重新定义视觉-语言-动作模型为感知-预测-行动模型,使其显式预测动态、空间和高级语义信息的紧凑集合。
- 引入块状结构化注意力机制,结合扩散Transformer解码器,以抑制跨类型知识泄露的表示噪声,实现连贯的多步动作推理。
- DreamVLA 在 CALVIN ABC-D 基准上取得了新的最先进性能,并在真实世界任务中达到 76.7% 的成功率,综合实验证实了其有效性。
Card 04
方法描述
方法描述
- 技术方法:提出一个统一框架,通过可学习的查询 和 大型语言模型 生成世界嵌入,并通过多个轻量级解码器预测未来动态区域、深度和语义。
- 创新点:
- 动态区域引导的世界知识预测:专注于与机器人执行相关的运动区域,而非重建冗余的完整未来帧。
- 结构化注意力机制:通过掩码块状注意力,防止不同类型知识(动态、深度、语义)之间的信息泄露,保持表征的分离与清洁。
- 基于去噪扩散Transformer的逆动力学建模:使用扩散Transformer从噪声中生成动作序列,以建模条件分布并利用跨模态相关性。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:CALVIN、DROID、LIBERO。
- 模型规模与参数量:使用基于 GPT-2 的大型语言模型,结合冻结的视觉和文本编码器。
- 训练资源:使用 8块 NVIDIA A800 GPU 进行训练。
Card 06
评估与结果
评估与结果
- 评估环境与基准:在模拟环境(CALVIN ABC-D 和 LIBERO)以及真实世界(Franka Panda 机器人)进行。
- 主要评估指标:任务连续成功率、平均任务完成长度、真实世界任务成功率。
- 关键实验结果:
- 在CALVIN ABC-D基准上,达到4.44的平均任务长度,优于 UP-VLA、Seer 和 VPP 等方法。
- 在真实世界的拾取、放置和开关抽屉任务中,综合平均成功率达到76.7%。
- 消融研究表明,动态区域预测 贡献最大,而深度和语义信息提供了较小的补充增益。