一眼看懂
封面预览
论文提出 $\mathcal{F}_1$,一个预训练的视觉-语言-动作(VLA)模型,通过将视觉前瞻生成整合到决策流程中,解决现有VLA模型依…
- 论文提出 $\mathcal{F}_1$,一个预训练的视觉-语言-动作(VLA)模型,通过将视觉前瞻生成整合到决策流程中,解决现有VLA模型依…
- 核心思想是将动作生成重新表述为前瞻引导的逆动力学问题,通过预测合理的未来视觉状态来隐式实现视觉目标
- 研究目标是使机器人能够在动态视觉环境中执行语言条件任务,具备长期规划能力和强泛化性
Card 01
研究单位
研究单位
- Shanghai AI Laboratory (上海人工智能实验室)
- Harbin Institute of Technology (Shenzhen) (哈尔滨工业大学深圳)
Card 02
论文概述
论文概述
- 论文提出 $\mathcal{F}_1$,一个预训练的视觉-语言-动作(VLA)模型,通过将视觉前瞻生成整合到决策流程中,解决现有VLA模型依赖反应式状态到动作映射导致的短视行为和动态场景鲁棒性差的问题
- 核心思想是将动作生成重新表述为前瞻引导的逆动力学问题,通过预测合理的未来视觉状态来隐式实现视觉目标
- 研究目标是使机器人能够在动态视觉环境中执行语言条件任务,具备长期规划能力和强泛化性
Card 03
核心贡献
核心贡献
- 提出一种新的VLA范式,集成专用的生成专家(generation expert),利用预测逆动力学模型预测视觉观察,将动作预测从反应式转变为基于规划的过程
- 设计三阶段训练方案(阶段I:生成与理解专家对齐;阶段II:大规模机器人数据预训练;阶段III:任务特定数据后训练),逐步整合理解、生成和动作模块,确保鲁棒性和泛化性
- 提出Mixture-of-Transformer (MoT)架构,包含理解专家、生成专家和动作专家三个专用模块,通过UGA渐进注意力机制实现信息的分层流动
- 采用下一尺度预测机制(next-scale prediction)高效合成目标条件视觉前瞻,平衡计算效率与预测精度
- 在真实世界和仿真基准上取得显著性能提升,特别是在动态环境和长期任务中
Card 04
方法描述
方法描述
- 架构设计:采用Mixture-of-Transformer (MoT)架构,包含三个专用专家:
- 理解专家:基于预训练MLLM(PaliGemma架构),使用SigLIP视觉编码器处理指令和观察
- 生成专家:使用多尺度残差VQ编码器将观察分解为离散token,通过时序卷积网络聚合运动特征,自回归生成未来视觉token
- 动作专家:基于流匹配(flow matching)目标,在语言目标、当前观察和生成的前瞻图像条件下预测动作块
- 注意力机制:UGA渐进注意力——专家内双向注意力捕获丰富token交互,专家间因果层次注意力(生成→理解,动作→生成+理解)防止信息泄露
- 训练目标:联合优化生成损失(自回归下一尺度预测)和动作损失(流匹配),加权组合为总损失
- 三阶段训练:阶段I冻结理解专家训练生成专家;阶段II联合预训练所有专家;阶段III任务特定微调
Card 05
数据集与资源
数据集与资源
- 训练数据:超过330k条轨迹,涵盖136个多样化任务和5种机器人形态
- 公开数据集:LIBERO、Open-X-Embodiment、AgiBotWorld
- 模型规模:4.2B参数
- 架构细节:理解专家采用PaliGemma架构,生成和动作专家采用Gemma骨干网络,集成Swish激活、RMSNorm归一化和旋转位置编码
- 初始化:理解和动作专家继承自$\pi_0$,生成专家随机初始化并配备预训练残差VQ-VAE
Card 06
评估与结果
评估与结果
- 真实世界任务:在Genie机器人平台上9项任务中,$\mathcal{F}_1$平均抓取成功率92.6%,任务成功率82.2%,显著优于$\pi_0$(65.2%)、gr00t-N1(30.4%)和gr00t-N1.5(53.3%);在动态协调任务"Handover (R2H)"上达到93.3%成功率($\pi_0$仅40%)
- 仿真基准LIBERO:在LIBERO-Spatial(98.2%)、LIBERO-Object(97.8%)、LIBERO-Goal(95.4%)、LIBERO-Long(91.3%)上均取得最优或次优表现,平均成功率95.7%
- 仿真基准SimplerEnv Bridge:平均成功率72.9%,显著超越$\pi_0$-Fast(48.3%)和SpatialVLA(47.9%)
- 消融研究:验证生成专家(无生成模块性能从77.5%降至60.3%)、三阶段训练(去除阶段II下降3.3%)、联合优化(冻结生成专家下降3.7%)和4尺度预测(最优配置)的关键作用
- 鲁棒性与泛化:在动态传送带环境(ARX LIFT II机器人,仅47条后训练样本)中展现强适应能力;支持快速迁移到新机器人形态;在长期顺序操作任务中保持稳定性能