返回列表 VLA / Vision-Language-Action 每日论文卡

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

论文详情

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

2025-08-23 · 原文 · 翻译 · 2508.16845

提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Action) 模型动作解码器,作为扩散模型的替代方案 解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题,实现单次前向传播即可生成动作 在 LIBERO 基准上验证,NinA 在保持与扩散模型相当性能的同时,推理速度提升达 10 倍

5 分钟读完 6 张阅读卡 AIRI (Artificial Intelligence Research Institute, 俄…
一眼看懂 封面预览

提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Ac…

  • 提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Ac…
  • 解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题,实现单次前向传播即可生成动作
  • 在 LIBERO 基准上验证,NinA 在保持与扩散模型相当性能的同时,推理速度提升达 10 倍
Card 01 研究单位

研究单位

  • AIRI (Artificial Intelligence Research Institute, 俄罗斯)
  • ETH Zürich (苏黎世联邦理工学院)
  • MIPT (莫斯科物理技术学院)
  • Skoltech (斯科尔科沃科学技术学院)
  • Innopolis University (因诺波利斯大学)
  • HSE (俄罗斯高等经济大学)
  • 工作由 dunnolab.ai 完成
Card 02 论文概述

论文概述

  • 提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Action) 模型动作解码器,作为扩散模型的替代方案
  • 解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题,实现单次前向传播即可生成动作
  • LIBERO 基准上验证,NinA 在保持与扩散模型相当性能的同时,推理速度提升达 10 倍
Card 03 核心贡献

核心贡献

  • 首次将归一化流 (Normalizing Flows) 成功应用于 VLA 模型的动作专家模块,实现高效的动作生成
  • 提出两种架构变体:NinA MLP (2M 参数,极致轻量) 和 NinA Transformer (38M 参数,性能更优)
  • 验证了噪声注入 (noise injection) 对归一化流在机器人控制任务中的关键作用
  • 证明归一化流可提供精确似然估计,为后续强化学习集成、不确定性建模和可解释性研究奠定基础
Card 04 方法描述

方法描述

  • 基于 RealNVP 架构实现归一化流,采用可逆的仿射耦合层 (affine coupling layers)
  • 条件化机制:将 VLM 输出的视觉-语言嵌入与动作输入拼接 (MLP) 或通过交叉注意力 (Transformer) 融合
  • 引入 PLU (Permutation-Linear-Unit) 可逆线性层增强表达能力
  • 训练时对参考动作添加高斯噪声作为正则化手段
  • 推理时仅需单次逆变换即可从标准高斯分布采样生成动作
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO 基准 (包含 LIBERO Spatial、Object、Goal、10、90 五个变体)
  • VLM 主干:Florence-2 Large (在 FLOWER 工作中微调过)
  • 基础架构:FLOWER VLA
  • 训练硬件:NVIDIA H100 GPU
  • 推理测试硬件:NVIDIA H100 和 NVIDIA RTX 3060 Mobile (消费级 GPU)
  • 训练设置:100 epochs,batch size 80
Card 06 评估与结果

评估与结果

  • 评估基准:LIBERO 全套任务 (Spatial、Object、Goal、10、90)
  • 主要指标:任务成功率 (success rate)
  • 关键结果:

- NinA Transformer (38M) 平均成功率 0.938,接近原始扩散模型 (0.952) 和 31M 扩散模型 (0.916)

- NinA MLP (2M) 平均成功率 0.909,参数量仅为扩散模型的 1/15-1/165

- 推理速度:NinA MLP 0.015s (H100) / 0.019s (RTX 3060),比扩散模型 (0.11-0.12s) 快 5-10 倍

- 噪声注入消融:去除噪声导致性能显著下降 (Transformer: 0.938→0.896,MLP: 0.909→0.880)