一眼看懂
封面预览
论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。
- 论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。
- 该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题,即早期生成的错误token无法在后续步骤中被修正。
- 通过建模一个token级别的概率速度场,DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。
Card 01
研究单位
研究单位
- 香港科技大学(广州)
- 哈尔滨工业大学
- 上海科技大学
- 中国科学院上海技术物理研究所
Card 02
论文概述
论文概述
- 论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。
- 该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题,即早期生成的错误token无法在后续步骤中被修正。
- 通过建模一个token级别的概率速度场,DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。
Card 03
核心贡献
核心贡献
- 识别并指出了现有自回归和离散扩散VLA解码范式中的“不可逆承诺”问题,限制了机器人操作中的token修正能力。
- 提出了 DFM-VLA 框架,通过离散流匹配实现了对完整行动序列的迭代式、全序列优化。
- 设计并系统分析了两种速度场构建策略:辅助速度头方案和行动嵌入引导方案。
- 提出了一种两阶段解码策略,包含迭代优化阶段和确定性验证阶段,以实现稳定收敛。
- 在仿真基准和真实世界任务上展示了优异的性能,同时保持了高推理效率。
Card 04
方法描述
方法描述
- 采用离散流匹配框架,建模一个token级别的概率速度场,用于动态更新完整的行动序列。
- 探索了两种速度场构建方法:1) 使用额外的速度预测头从隐藏状态预测速度;2) 在行动嵌入空间定义语义结构化的概率路径并推导最优速度。
- 提出两阶段解码策略:第一阶段为迭代优化阶段,使用CTMC过程进行随机性的探索与修正;第二阶段为确定性验证阶段,采用贪婪解码确保稳定收敛。
- 在推理过程中利用自适应KV缓存技术,在保持性能的同时实现了2.4倍的推理延迟加速。
Card 05
数据集与资源
数据集与资源
- 使用了 CALVIN 和 LIBERO 仿真基准进行评估,并进行了真实世界机器人操作实验。
- 模型基于预训练模型 UniVLA 的检查点进行初始化和训练。
- 所有训练和推理在 8块 NVIDIA H100 GPU 上进行。
Card 06
评估与结果
评估与结果
- 在 CALVIN 基准上,DFM-VLA+Embed版本达到了 4.44 的平均成功长度,优于所有基线方法。
- 在 LIBERO 基准上,DFM-VLA+Embed版本达到了 95.7% 的平均成功率,创下新的最优表现。
- 模型在长序列任务和跨任务泛化方面表现出显著优势,特别是在Object和Long任务套件上分别达到了 98.8% 和 92.6% 的成功率。
- 消融实验验证了速度场构建方法、解码策略分配等关键设计的有效性。