NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

论文详情

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

2025-08-23 · 原文 · 翻译 · 2508.16845

提出 NinA (Normalizing Flows in Action)，一种基于归一化流的 VLA (Vision-Language-Action) 模型动作解码器，作为扩散模型的替代方案解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题，实现单次前向传播即可生成动作在 LIBERO 基准上验证，NinA 在保持与扩散模型相当性能的同时，推理速度提升达 10 倍

5 分钟读完 6 张阅读卡 AIRI (Artificial Intelligence Research Institute, 俄…

一眼看懂封面预览

提出 NinA (Normalizing Flows in Action)，一种基于归一化流的 VLA (Vision-Language-Ac…

提出 NinA (Normalizing Flows in Action)，一种基于归一化流的 VLA (Vision-Language-Ac…
解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题，实现单次前向传播即可生成动作
在 LIBERO 基准上验证，NinA 在保持与扩散模型相当性能的同时，推理速度提升达 10 倍

Card 01 研究单位

研究单位

AIRI (Artificial Intelligence Research Institute, 俄罗斯)
ETH Zürich (苏黎世联邦理工学院)
MIPT (莫斯科物理技术学院)
Skoltech (斯科尔科沃科学技术学院)
Innopolis University (因诺波利斯大学)
HSE (俄罗斯高等经济大学)
工作由 dunnolab.ai 完成

Card 02 论文概述

论文概述

提出 NinA (Normalizing Flows in Action)，一种基于归一化流的 VLA (Vision-Language-Action) 模型动作解码器，作为扩散模型的替代方案
解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题，实现单次前向传播即可生成动作
在 LIBERO 基准上验证，NinA 在保持与扩散模型相当性能的同时，推理速度提升达 10 倍

Card 03 核心贡献

核心贡献

首次将归一化流 (Normalizing Flows) 成功应用于 VLA 模型的动作专家模块，实现高效的动作生成
提出两种架构变体：NinA MLP (2M 参数，极致轻量) 和 NinA Transformer (38M 参数，性能更优)
验证了噪声注入 (noise injection) 对归一化流在机器人控制任务中的关键作用
证明归一化流可提供精确似然估计，为后续强化学习集成、不确定性建模和可解释性研究奠定基础

Card 04 方法描述

方法描述

基于 RealNVP 架构实现归一化流，采用可逆的仿射耦合层 (affine coupling layers)
条件化机制：将 VLM 输出的视觉-语言嵌入与动作输入拼接 (MLP) 或通过交叉注意力 (Transformer) 融合
引入 PLU (Permutation-Linear-Unit) 可逆线性层增强表达能力
训练时对参考动作添加高斯噪声作为正则化手段
推理时仅需单次逆变换即可从标准高斯分布采样生成动作

Card 05 数据集与资源

数据集与资源

数据集：LIBERO 基准 (包含 LIBERO Spatial、Object、Goal、10、90 五个变体)
VLM 主干：Florence-2 Large (在 FLOWER 工作中微调过)
基础架构：FLOWER VLA
训练硬件：NVIDIA H100 GPU
推理测试硬件：NVIDIA H100 和 NVIDIA RTX 3060 Mobile (消费级 GPU)
训练设置：100 epochs，batch size 80

Card 06 评估与结果

评估与结果

评估基准：LIBERO 全套任务 (Spatial、Object、Goal、10、90)
主要指标：任务成功率 (success rate)
关键结果：

- NinA Transformer (38M) 平均成功率 0.938，接近原始扩散模型 (0.952) 和 31M 扩散模型 (0.916)

- NinA MLP (2M) 平均成功率 0.909，参数量仅为扩散模型的 1/15-1/165

- 推理速度：NinA MLP 0.015s (H100) / 0.019s (RTX 3060)，比扩散模型 (0.11-0.12s) 快 5-10 倍

- 噪声注入消融：去除噪声导致性能显著下降 (Transformer: 0.938→0.896，MLP: 0.909→0.880)