论文提出了 DFM-VLA，一种基于离散流匹配的视觉-语言-行动模型，用于机器人操作中的行动token迭代优化。

论文详情

DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching

2026-03-27 · 原文 · 翻译 · 2603.26320

论文提出了 DFM-VLA，一种基于离散流匹配的视觉-语言-行动模型，用于机器人操作中的行动token迭代优化。该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题，即早期生成的错误token无法在后续步骤中被修正。通过建模一个token级别的概率速度场，DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。

4 分钟读完 6 张阅读卡香港科技大学（广州）

一眼看懂封面预览

论文提出了 DFM-VLA，一种基于离散流匹配的视觉-语言-行动模型，用于机器人操作中的行动token迭代优化。

论文提出了 DFM-VLA，一种基于离散流匹配的视觉-语言-行动模型，用于机器人操作中的行动token迭代优化。
该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题，即早期生成的错误token无法在后续步骤中被修正。
通过建模一个token级别的概率速度场，DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。

Card 01 研究单位

研究单位

香港科技大学（广州）
哈尔滨工业大学
上海科技大学
中国科学院上海技术物理研究所

Card 02 论文概述

论文概述

论文提出了 DFM-VLA，一种基于离散流匹配的视觉-语言-行动模型，用于机器人操作中的行动token迭代优化。
该工作旨在解决现有自回归和离散扩散VLA解码中的“不可逆承诺”问题，即早期生成的错误token无法在后续步骤中被修正。
通过建模一个token级别的概率速度场，DFM-VLA能够在整个行动序列上实现动态的、全序列的迭代修正。

Card 03 核心贡献

核心贡献

识别并指出了现有自回归和离散扩散VLA解码范式中的“不可逆承诺”问题，限制了机器人操作中的token修正能力。
提出了 DFM-VLA 框架，通过离散流匹配实现了对完整行动序列的迭代式、全序列优化。
设计并系统分析了两种速度场构建策略：辅助速度头方案和行动嵌入引导方案。
提出了一种两阶段解码策略，包含迭代优化阶段和确定性验证阶段，以实现稳定收敛。
在仿真基准和真实世界任务上展示了优异的性能，同时保持了高推理效率。

Card 04 方法描述

方法描述

采用离散流匹配框架，建模一个token级别的概率速度场，用于动态更新完整的行动序列。
探索了两种速度场构建方法：1) 使用额外的速度预测头从隐藏状态预测速度；2) 在行动嵌入空间定义语义结构化的概率路径并推导最优速度。
提出两阶段解码策略：第一阶段为迭代优化阶段，使用CTMC过程进行随机性的探索与修正；第二阶段为确定性验证阶段，采用贪婪解码确保稳定收敛。
在推理过程中利用自适应KV缓存技术，在保持性能的同时实现了2.4倍的推理延迟加速。

Card 05 数据集与资源

数据集与资源

使用了 CALVIN 和 LIBERO 仿真基准进行评估，并进行了真实世界机器人操作实验。
模型基于预训练模型 UniVLA 的检查点进行初始化和训练。
所有训练和推理在 8块 NVIDIA H100 GPU 上进行。

Card 06 评估与结果

评估与结果

在 CALVIN 基准上，DFM-VLA+Embed版本达到了 4.44 的平均成功长度，优于所有基线方法。
在 LIBERO 基准上，DFM-VLA+Embed版本达到了 95.7% 的平均成功率，创下新的最优表现。
模型在长序列任务和跨任务泛化方面表现出显著优势，特别是在Object和Long任务套件上分别达到了 98.8% 和 92.6% 的成功率。
消融实验验证了速度场构建方法、解码策略分配等关键设计的有效性。