返回列表 VLA / Vision-Language-Action 每日论文卡
SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation
针对 Flow-Matching Vision-Language-Action (VLA) 模型(如 $\pi_0$、$\pi_{0.5}$…

论文详情

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

2026-04-07 · 原文 · 翻译 · 2604.05656

针对 Flow-Matching Vision-Language-Action (VLA) 模型(如 $\pi_0$、$\pi_{0.5}$ 和 SmolVLA)推理延迟高的问题,提出了一种无需外部教师、无需架构更改的自蒸馏方法 该方法旨在将多步迭代去噪过程(通常为 10 步 ODE)压缩为单次前向传播(1-NFE),实现实时机器人操作所需的推理速度 解决了简单减少推理步数导致性能下降的问题,通过修正的一致性目标避…

5 分钟读完 6 张阅读卡 Jilin University
一眼看懂 封面预览

针对 Flow-Matching Vision-Language-Action (VLA) 模型(如 $\pi_0$、$\pi_{0.5}$…

  • 针对 Flow-Matching Vision-Language-Action (VLA) 模型(如 $\pi_0$、$\pi_{0.5}$…
  • 该方法旨在将多步迭代去噪过程(通常为 10 步 ODE)压缩为单次前向传播(1-NFE),实现实时机器人操作所需的推理速度
  • 解决了简单减少推理步数导致性能下降的问题,通过修正的一致性目标避免了轨迹漂移,在提升速度的同时保持了甚至略微超越了原模型的生成质量
Card 01 研究单位

研究单位

  • Jilin University
  • Chongqing University
  • University of Liverpool
  • GenY
Card 02 论文概述

论文概述

  • 针对 Flow-Matching Vision-Language-Action (VLA) 模型(如 $\pi_0$$\pi_{0.5}$SmolVLA)推理延迟高的问题,提出了一种无需外部教师、无需架构更改的自蒸馏方法
  • 该方法旨在将多步迭代去噪过程(通常为 10 步 ODE)压缩为单次前向传播(1-NFE),实现实时机器人操作所需的推理速度
  • 解决了简单减少推理步数导致性能下降的问题,通过修正的一致性目标避免了轨迹漂移,在提升速度的同时保持了甚至略微超越了原模型的生成质量
Card 03 核心贡献

核心贡献

  • 提出了 SnapFlow 框架:一种渐进式自蒸馏方法,通过混合 Flow Matching 和一致性样本实现 1-NFE 推理,仅需约 12 小时在单个 GPU 上训练
  • 在质量-速度权衡上表现优异:在 LIBERO 基准上,单步 SnapFlow 达到 98.75% 成功率,略微超越 10 步基线(97.75%),同时实现了 9.6 倍的去噪加速
  • 方法具有通用性和正交性:在 $\pi_{0.5}$ (3B) 和 SmolVLA (500M) 两种不同架构上验证了有效性,且可与层级蒸馏等加速方法叠加
Card 04 方法描述

方法描述

  • 基于理论分析(定理 1-3),指出使用条件速度替代边际速度会导致轨迹漂移,提出了修正的一致性目标,使用模型自身的边际速度预测
  • 采用 Two-Step Euler Shortcut Target:通过计算两个时间点($t=1$ 和 $t=0.5$)的速度平均值作为训练目标,避免了昂贵的梯度计算
  • 引入 Progressive FM/Consistency Mixing:按比例 $\alpha$ 混合标准 Flow Matching 损失和 Shortcut 损失,以稳定训练并保持速度估计器的准确性
  • 设计了 Target-Time Embedding:一个零初始化的 MLP,添加到时间嵌入中,使网络能在同一架构内区分局部速度估计和全局单步生成模式
Card 05 数据集与资源

数据集与资源

  • 使用了 LIBERO 基准(包含 4 个套件,共 40 个任务,400 个测试回合)和 PushT 数据集进行评估
  • 评估模型包括 $\pi_{0.5}$ (3B 参数) 和 SmolVLA (500M 参数),覆盖了不同规模的 VLA 架构
  • 训练资源为单张 A800-80G GPU,训练时长约 12 小时(30k 步),仅训练动作专家部分(约 10% 参数)
Card 06 评估与结果

评估与结果

  • LIBERO 闭环评估中,$\pi_{0.5}$ + SnapFlow 单步推理成功率达到 98.75%,端到端延迟从 274ms 降低至 83ms(3.3 倍加速)
  • 在离线指标分析中,SnapFlow 显著降低了尾部误差(P95 MSE 降低 29.4%),提升了动作预测的稳定性
  • SmolVLA 上,MSE 降低 8.3%,CosSim 提升 6.9%,实现了 3.56 倍的端到端加速
  • 实验表明 SnapFlow 在不同执行视界下均保持优势,在长视界任务中表现更稳健