针对 Flow-Matching Vision-Language-Action (VLA) 模型（如 $\pi_0$、$\pi_{0.5}$…

论文详情

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

2026-04-07 · 原文 · 翻译 · 2604.05656

针对 Flow-Matching Vision-Language-Action (VLA) 模型（如 $\pi_0$、$\pi_{0.5}$ 和 SmolVLA）推理延迟高的问题，提出了一种无需外部教师、无需架构更改的自蒸馏方法该方法旨在将多步迭代去噪过程（通常为 10 步 ODE）压缩为单次前向传播（1-NFE），实现实时机器人操作所需的推理速度解决了简单减少推理步数导致性能下降的问题，通过修正的一致性目标避…

5 分钟读完 6 张阅读卡 Jilin University

一眼看懂封面预览

针对 Flow-Matching Vision-Language-Action (VLA) 模型（如 $\pi_0$、$\pi_{0.5}$…

针对 Flow-Matching Vision-Language-Action (VLA) 模型（如 $\pi_0$、$\pi_{0.5}$…
该方法旨在将多步迭代去噪过程（通常为 10 步 ODE）压缩为单次前向传播（1-NFE），实现实时机器人操作所需的推理速度
解决了简单减少推理步数导致性能下降的问题，通过修正的一致性目标避免了轨迹漂移，在提升速度的同时保持了甚至略微超越了原模型的生成质量

Card 01 研究单位

研究单位

Jilin University
Chongqing University
University of Liverpool
GenY

Card 02 论文概述

论文概述

针对 Flow-Matching Vision-Language-Action (VLA) 模型（如 $\pi_0$、$\pi_{0.5}$ 和 SmolVLA）推理延迟高的问题，提出了一种无需外部教师、无需架构更改的自蒸馏方法
该方法旨在将多步迭代去噪过程（通常为 10 步 ODE）压缩为单次前向传播（1-NFE），实现实时机器人操作所需的推理速度
解决了简单减少推理步数导致性能下降的问题，通过修正的一致性目标避免了轨迹漂移，在提升速度的同时保持了甚至略微超越了原模型的生成质量

Card 03 核心贡献

核心贡献

提出了 SnapFlow 框架：一种渐进式自蒸馏方法，通过混合 Flow Matching 和一致性样本实现 1-NFE 推理，仅需约 12 小时在单个 GPU 上训练
在质量-速度权衡上表现优异：在 LIBERO 基准上，单步 SnapFlow 达到 98.75% 成功率，略微超越 10 步基线（97.75%），同时实现了 9.6 倍的去噪加速
方法具有通用性和正交性：在 $\pi_{0.5}$ (3B) 和 SmolVLA (500M) 两种不同架构上验证了有效性，且可与层级蒸馏等加速方法叠加

Card 04 方法描述

方法描述

基于理论分析（定理 1-3），指出使用条件速度替代边际速度会导致轨迹漂移，提出了修正的一致性目标，使用模型自身的边际速度预测
采用 Two-Step Euler Shortcut Target：通过计算两个时间点（$t=1$ 和 $t=0.5$）的速度平均值作为训练目标，避免了昂贵的梯度计算
引入 Progressive FM/Consistency Mixing：按比例 $\alpha$ 混合标准 Flow Matching 损失和 Shortcut 损失，以稳定训练并保持速度估计器的准确性
设计了 Target-Time Embedding：一个零初始化的 MLP，添加到时间嵌入中，使网络能在同一架构内区分局部速度估计和全局单步生成模式

Card 05 数据集与资源

数据集与资源

使用了 LIBERO 基准（包含 4 个套件，共 40 个任务，400 个测试回合）和 PushT 数据集进行评估
评估模型包括 $\pi_{0.5}$ (3B 参数) 和 SmolVLA (500M 参数)，覆盖了不同规模的 VLA 架构
训练资源为单张 A800-80G GPU，训练时长约 12 小时（30k 步），仅训练动作专家部分（约 10% 参数）

Card 06 评估与结果

评估与结果

在 LIBERO 闭环评估中，$\pi_{0.5}$ + SnapFlow 单步推理成功率达到 98.75%，端到端延迟从 274ms 降低至 83ms（3.3 倍加速）
在离线指标分析中，SnapFlow 显著降低了尾部误差（P95 MSE 降低 29.4%），提升了动作预测的稳定性
在 SmolVLA 上，MSE 降低 8.3%，CosSim 提升 6.9%，实现了 3.56 倍的端到端加速
实验表明 SnapFlow 在不同执行视界下均保持优势，在长视界任务中表现更稳健