返回列表 VLA / Vision-Language-Action 每日论文卡
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
论文提出 FLOWER(Florence With Embodied Flow),一种高效的视觉-语言-动作(VLA)策略模型,旨在解决现有…

论文详情

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

2025-09-05 · 原文 · 翻译 · 2509.04996

论文提出 FLOWER(Florence With Embodied Flow),一种高效的视觉-语言-动作(VLA)策略模型,旨在解决现有 VLA 模型(如 OpenVLA、RDT-1B)参数量过大(数十亿参数)、训练成本高昂(数千 GPU 小时)的问题 核心目标是在保持竞争力的性能的同时,显著降低模型规模(<1B 参数)和训练成本(200 GPU 小时),实现"民主化"的通用机器人策略

6 分钟读完 6 张阅读卡 Intuitive Robots Lab, Karlsruhe Institute of Techno…
一眼看懂 封面预览

论文提出 FLOWER(Florence With Embodied Flow),一种高效的视觉-语言-动作(VLA)策略模型,旨在解决现有…

  • 论文提出 FLOWER(Florence With Embodied Flow),一种高效的视觉-语言-动作(VLA)策略模型,旨在解决现有…
  • 核心目标是在保持竞争力的性能的同时,显著降低模型规模(<1B 参数)和训练成本(200 GPU 小时),实现"民主化"的通用机器人策略
  • 中间层模态融合(Intermediate Modality Fusion):通过剪枝 30-50% 的 VLM 层,将容量重新分配给扩散头,在…
Card 01 研究单位

研究单位

  • Intuitive Robots Lab, Karlsruhe Institute of Technology, Germany(主要研究机构)
  • Microsoft Research(合作机构,Fabian Otto 所属)
Card 02 论文概述

论文概述

  • 论文提出 FLOWER(Florence With Embodied Flow),一种高效的视觉-语言-动作(VLA)策略模型,旨在解决现有 VLA 模型(如 OpenVLA、RDT-1B)参数量过大(数十亿参数)、训练成本高昂(数千 GPU 小时)的问题
  • 核心目标是在保持竞争力的性能的同时,显著降低模型规模(<1B 参数)和训练成本(200 GPU 小时),实现"民主化"的通用机器人策略
Card 03 核心贡献

核心贡献

  • 中间层模态融合(Intermediate Modality Fusion):通过剪枝 30-50% 的 VLM 层,将容量重新分配给扩散头,在保留语义理解的同时提升计算效率
  • 全局动作空间 AdaLN(Global-AdaLN):提出动作特定的层归一化控制机制,通过模块化适配减少 20% 的参数量,且不损失准确性
  • Rectified Flow 动作生成:采用直线流模型进行动作生成,仅需 4-8 步去噪,显著降低推理延迟
  • 高效预训练策略:仅使用 250k 轨迹的精选"OXE-soup"数据集,在 200 H100 GPU 小时内完成预训练
  • 跨具身泛化能力:统一处理单臂/双臂、delta-EEF/关节角度等多种动作空间,在 10 个基准测试的 190 个任务上验证
Card 04 方法描述

方法描述

  • 架构设计:基于 Florence-2-L VLM 骨干网络(编码器-解码器架构),剪枝 50% 层数后保留编码器部分;搭配 18 层 Flow Transformer(1024 维隐层)
  • 融合策略:在中间层提取 VLM 隐藏状态,通过线性投影和 RMSNorm 后,以交叉注意力注入 Flow Transformer
  • 归一化创新:Global-AdaLN-Zero 在所有层共享调制权重,结合轻量级 LoRA 适配器实现层特定调制,替代标准 AdaLN 减少 20% 参数
  • 训练目标:使用 Rectified Flow 学习从噪声到动作分布的速度场,优化条件流匹配损失
Card 05 数据集与资源

数据集与资源

  • 预训练数据:8 个公开机器人数据集混合(约 250k 轨迹),包括 DroidBridgeV2Google Robot 等,75% 来自多样化环境数据
  • 微调数据:Franka Panda 真实厨房环境 417 条轨迹(45 分钟演示)
  • 模型规模947M 参数(ViT 360M + VLM 205M + Flow Transformer 339M + 其他 43M)
  • 训练资源4× H100 GPU,48 小时(约 200 GPU 小时),BF-16 精度
  • 推理资源:仅需 1.85 GB VRAM,RTX 4090 上可达 311 Hz 吞吐量
Card 06 评估与结果

评估与结果

  • 仿真基准CALVIN(ABC 设置新 SOTA 4.53 平均序列长度)、LIBERO(Long/Spatial/Object/Goal/90)、SIMPLER(Bridge/Google Robot)、Aloha 仿真
  • 真实世界:Franka Panda 厨房 20 项任务,以及新颖物体、光照变化、背景干扰、新任务组合等泛化测试
  • 关键结果

- CALVIN ABC 平均序列长度 4.53,超越 OpenVLA(3.0)和 π₀(4.0)

- 真实世界任务成功率 61%,是 OpenVLA(31%)的两倍

- 泛化测试平均成功率 51%,远超 OpenVLA(23.4%)

- 推理速度比 OpenVLA 快 50 倍,内存占用仅 12.7%