F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

一眼看懂封面预览

论文提出 $\mathcal{F}_1$，一个预训练的视觉-语言-动作(VLA)模型，通过将视觉前瞻生成整合到决策流程中，解决现有VLA模型依…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 $\mathcal{F}_1$，一个预训练的视觉-语言-动作(VLA)模型，通过将视觉前瞻生成整合到决策流程中，解决现有VLA模型依赖反应式状态到动作映射导致的短视行为和动态场景鲁棒性差的问题
核心思想是将动作生成重新表述为前瞻引导的逆动力学问题，通过预测合理的未来视觉状态来隐式实现视觉目标
研究目标是使机器人能够在动态视觉环境中执行语言条件任务，具备长期规划能力和强泛化性

Card 03 核心贡献

提出一种新的VLA范式，集成专用的生成专家(generation expert)，利用预测逆动力学模型预测视觉观察，将动作预测从反应式转变为基于规划的过程
设计三阶段训练方案（阶段I：生成与理解专家对齐；阶段II：大规模机器人数据预训练；阶段III：任务特定数据后训练），逐步整合理解、生成和动作模块，确保鲁棒性和泛化性
提出Mixture-of-Transformer (MoT)架构，包含理解专家、生成专家和动作专家三个专用模块，通过UGA渐进注意力机制实现信息的分层流动
采用下一尺度预测机制(next-scale prediction)高效合成目标条件视觉前瞻，平衡计算效率与预测精度
在真实世界和仿真基准上取得显著性能提升，特别是在动态环境和长期任务中

Card 04 方法描述

- 理解专家：基于预训练MLLM（PaliGemma架构），使用SigLIP视觉编码器处理指令和观察

- 生成专家：使用多尺度残差VQ编码器将观察分解为离散token，通过时序卷积网络聚合运动特征，自回归生成未来视觉token

- 动作专家：基于流匹配(flow matching)目标，在语言目标、当前观察和生成的前瞻图像条件下预测动作块

Card 05 数据集与资源

Card 06 评估与结果

真实世界任务：在Genie机器人平台上9项任务中，$\mathcal{F}_1$平均抓取成功率92.6%，任务成功率82.2%，显著优于$\pi_0$（65.2%）、gr00t-N1（30.4%）和gr00t-N1.5（53.3%）；在动态协调任务"Handover (R2H)"上达到93.3%成功率（$\pi_0$仅40%）
仿真基准LIBERO：在LIBERO-Spatial（98.2%）、LIBERO-Object（97.8%）、LIBERO-Goal（95.4%）、LIBERO-Long（91.3%）上均取得最优或次优表现，平均成功率95.7%
仿真基准SimplerEnv Bridge：平均成功率72.9%，显著超越$\pi_0$-Fast（48.3%）和SpatialVLA（47.9%）
消融研究：验证生成专家（无生成模块性能从77.5%降至60.3%）、三阶段训练（去除阶段II下降3.3%）、联合优化（冻结生成专家下降3.7%）和4尺度预测（最优配置）的关键作用
鲁棒性与泛化：在动态传送带环境（ARX LIFT II机器人，仅47条后训练样本）中展现强适应能力；支持快速迁移到新机器人形态；在长期顺序操作任务中保持稳定性能