FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

一眼看懂封面预览

论文提出 FLOWER（Florence With Embodied Flow），一种高效的视觉-语言-动作（VLA）策略模型，旨在解决现有…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 FLOWER（Florence With Embodied Flow），一种高效的视觉-语言-动作（VLA）策略模型，旨在解决现有 VLA 模型（如 OpenVLA、RDT-1B）参数量过大（数十亿参数）、训练成本高昂（数千 GPU 小时）的问题
核心目标是在保持竞争力的性能的同时，显著降低模型规模（<1B 参数）和训练成本（200 GPU 小时），实现"民主化"的通用机器人策略

Card 03 核心贡献

中间层模态融合（Intermediate Modality Fusion）：通过剪枝 30-50% 的 VLM 层，将容量重新分配给扩散头，在保留语义理解的同时提升计算效率
全局动作空间 AdaLN（Global-AdaLN）：提出动作特定的层归一化控制机制，通过模块化适配减少 20% 的参数量，且不损失准确性
Rectified Flow 动作生成：采用直线流模型进行动作生成，仅需 4-8 步去噪，显著降低推理延迟
高效预训练策略：仅使用 250k 轨迹的精选"OXE-soup"数据集，在 200 H100 GPU 小时内完成预训练
跨具身泛化能力：统一处理单臂/双臂、delta-EEF/关节角度等多种动作空间，在 10 个基准测试的 190 个任务上验证

Card 04 方法描述

架构设计：基于 Florence-2-L VLM 骨干网络（编码器-解码器架构），剪枝 50% 层数后保留编码器部分；搭配 18 层 Flow Transformer（1024 维隐层）
融合策略：在中间层提取 VLM 隐藏状态，通过线性投影和 RMSNorm 后，以交叉注意力注入 Flow Transformer
归一化创新：Global-AdaLN-Zero 在所有层共享调制权重，结合轻量级 LoRA 适配器实现层特定调制，替代标准 AdaLN 减少 20% 参数
训练目标：使用 Rectified Flow 学习从噪声到动作分布的速度场，优化条件流匹配损失

Card 05 数据集与资源

预训练数据：8 个公开机器人数据集混合（约 250k 轨迹），包括 Droid、BridgeV2、Google Robot 等，75% 来自多样化环境数据
微调数据：Franka Panda 真实厨房环境 417 条轨迹（45 分钟演示）
模型规模：947M 参数（ViT 360M + VLM 205M + Flow Transformer 339M + 其他 43M）
训练资源：4× H100 GPU，48 小时（约 200 GPU 小时），BF-16 精度
推理资源：仅需 1.85 GB VRAM，RTX 4090 上可达 311 Hz 吞吐量

Card 06 评估与结果

仿真基准：CALVIN（ABC 设置新 SOTA 4.53 平均序列长度）、LIBERO（Long/Spatial/Object/Goal/90）、SIMPLER（Bridge/Google Robot）、Aloha 仿真
真实世界：Franka Panda 厨房 20 项任务，以及新颖物体、光照变化、背景干扰、新任务组合等泛化测试
关键结果：

- CALVIN ABC 平均序列长度 4.53，超越 OpenVLA（3.0）和 π₀（4.0）

- 真实世界任务成功率 61%，是 OpenVLA（31%）的两倍

- 泛化测试平均成功率 51%，远超 OpenVLA（23.4%）

- 推理速度比 OpenVLA 快 50 倍，内存占用仅 12.7%