一眼看懂
封面预览
提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Ac…
- 提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Ac…
- 解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题,实现单次前向传播即可生成动作
- 在 LIBERO 基准上验证,NinA 在保持与扩散模型相当性能的同时,推理速度提升达 10 倍
Card 01
研究单位
研究单位
- AIRI (Artificial Intelligence Research Institute, 俄罗斯)
- ETH Zürich (苏黎世联邦理工学院)
- MIPT (莫斯科物理技术学院)
- Skoltech (斯科尔科沃科学技术学院)
- Innopolis University (因诺波利斯大学)
- HSE (俄罗斯高等经济大学)
- 工作由 dunnolab.ai 完成
Card 02
论文概述
论文概述
- 提出 NinA (Normalizing Flows in Action),一种基于归一化流的 VLA (Vision-Language-Action) 模型动作解码器,作为扩散模型的替代方案
- 解决扩散模型在推理时需要多步迭代去噪导致的延迟瓶颈问题,实现单次前向传播即可生成动作
- 在 LIBERO 基准上验证,NinA 在保持与扩散模型相当性能的同时,推理速度提升达 10 倍
Card 03
核心贡献
核心贡献
- 首次将归一化流 (Normalizing Flows) 成功应用于 VLA 模型的动作专家模块,实现高效的动作生成
- 提出两种架构变体:NinA MLP (2M 参数,极致轻量) 和 NinA Transformer (38M 参数,性能更优)
- 验证了噪声注入 (noise injection) 对归一化流在机器人控制任务中的关键作用
- 证明归一化流可提供精确似然估计,为后续强化学习集成、不确定性建模和可解释性研究奠定基础
Card 04
方法描述
方法描述
- 基于 RealNVP 架构实现归一化流,采用可逆的仿射耦合层 (affine coupling layers)
- 条件化机制:将 VLM 输出的视觉-语言嵌入与动作输入拼接 (MLP) 或通过交叉注意力 (Transformer) 融合
- 引入 PLU (Permutation-Linear-Unit) 可逆线性层增强表达能力
- 训练时对参考动作添加高斯噪声作为正则化手段
- 推理时仅需单次逆变换即可从标准高斯分布采样生成动作
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO 基准 (包含 LIBERO Spatial、Object、Goal、10、90 五个变体)
- VLM 主干:Florence-2 Large (在 FLOWER 工作中微调过)
- 基础架构:FLOWER VLA
- 训练硬件:NVIDIA H100 GPU
- 推理测试硬件:NVIDIA H100 和 NVIDIA RTX 3060 Mobile (消费级 GPU)
- 训练设置:100 epochs,batch size 80
Card 06
评估与结果
评估与结果
- 评估基准:LIBERO 全套任务 (Spatial、Object、Goal、10、90)
- 主要指标:任务成功率 (success rate)
- 关键结果:
- NinA Transformer (38M) 平均成功率 0.938,接近原始扩散模型 (0.952) 和 31M 扩散模型 (0.916)
- NinA MLP (2M) 平均成功率 0.909,参数量仅为扩散模型的 1/15-1/165
- 推理速度:NinA MLP 0.015s (H100) / 0.019s (RTX 3060),比扩散模型 (0.11-0.12s) 快 5-10 倍
- 噪声注入消融:去除噪声导致性能显著下降 (Transformer: 0.938→0.896,MLP: 0.909→0.880)