返回列表 VLA / Vision-Language-Action 每日论文卡
DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching
论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。

论文详情

DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching

2026-03-27 · 原文 · 翻译 · 2603.26320

论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。 该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题,即早期生成的错误token无法在后续步骤中被修正。 通过建模一个token级别的概率速度场,DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。

4 分钟读完 6 张阅读卡 香港科技大学(广州)
一眼看懂 封面预览

论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。

  • 论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。
  • 该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题,即早期生成的错误token无法在后续步骤中被修正。
  • 通过建模一个token级别的概率速度场,DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。
Card 01 研究单位

研究单位

  • 香港科技大学(广州)
  • 哈尔滨工业大学
  • 上海科技大学
  • 中国科学院上海技术物理研究所
Card 02 论文概述

论文概述

  • 论文提出了 DFM-VLA,一种基于离散流匹配的视觉-语言-行动模型,用于机器人操作中的行动token迭代优化。
  • 该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题,即早期生成的错误token无法在后续步骤中被修正。
  • 通过建模一个token级别的概率速度场,DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。
Card 03 核心贡献

核心贡献

  • 识别并指出了现有自回归和离散扩散VLA解码范式中的“不可逆承诺”问题,限制了机器人操作中的token修正能力。
  • 提出了 DFM-VLA 框架,通过离散流匹配实现了对完整行动序列的迭代式、全序列优化。
  • 设计并系统分析了两种速度场构建策略:辅助速度头方案和行动嵌入引导方案。
  • 提出了一种两阶段解码策略,包含迭代优化阶段和确定性验证阶段,以实现稳定收敛。
  • 在仿真基准和真实世界任务上展示了优异的性能,同时保持了高推理效率。
Card 04 方法描述

方法描述

  • 采用离散流匹配框架,建模一个token级别的概率速度场,用于动态更新完整的行动序列。
  • 探索了两种速度场构建方法:1) 使用额外的速度预测头从隐藏状态预测速度;2) 在行动嵌入空间定义语义结构化的概率路径并推导最优速度。
  • 提出两阶段解码策略:第一阶段为迭代优化阶段,使用CTMC过程进行随机性的探索与修正;第二阶段为确定性验证阶段,采用贪婪解码确保稳定收敛。
  • 在推理过程中利用自适应KV缓存技术,在保持性能的同时实现了2.4倍的推理延迟加速。
Card 05 数据集与资源

数据集与资源

  • 使用了 CALVINLIBERO 仿真基准进行评估,并进行了真实世界机器人操作实验。
  • 模型基于预训练模型 UniVLA 的检查点进行初始化和训练。
  • 所有训练和推理在 8块 NVIDIA H100 GPU 上进行。
Card 06 评估与结果

评估与结果

  • CALVIN 基准上,DFM-VLA+Embed版本达到了 4.44 的平均成功长度,优于所有基线方法。
  • LIBERO 基准上,DFM-VLA+Embed版本达到了 95.7% 的平均成功率,创下新的最优表现。
  • 模型在长序列任务和跨任务泛化方面表现出显著优势,特别是在Object和Long任务套件上分别达到了 98.8%92.6% 的成功率。
  • 消融实验验证了速度场构建方法、解码策略分配等关键设计的有效性。