FLARE: Robot Learning with Implicit World Modeling

论文详情

FLARE: Robot Learning with Implicit World Modeling

2025-05-21 · 原文 · 翻译 · 2505.15659

提出了 FLARE (Future Latent Representation Alignment) 框架，通过将扩散 Transformer 的特征与未来观测的潜在嵌入对齐，将预测性潜在世界模型集成到机器人策略学习中。旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。赋予了机器人策略推理长期后果的能力，并解锁了利用无动作标签的人类视频进行训练的潜力。

6 分钟读完 6 张阅读卡 NVIDIA

一眼看懂封面预览

提出了 FLARE (Future Latent Representation Alignment) 框架，通过将扩散 Transformer…

提出了 FLARE (Future Latent Representation Alignment) 框架，通过将扩散 Transformer…
旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
赋予了机器人策略推理长期后果的能力，并解锁了利用无动作标签的人类视频进行训练的潜力。

Card 01 研究单位

研究单位

NVIDIA
University of Maryland, College Park
Nanyang Technological University
University of Texas, Austin

Card 02 论文概述

论文概述

提出了 FLARE (Future Latent Representation Alignment) 框架，通过将扩散 Transformer 的特征与未来观测的潜在嵌入对齐，将预测性潜在世界模型集成到机器人策略学习中。
旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
赋予了机器人策略推理长期后果的能力，并解锁了利用无动作标签的人类视频进行训练的潜力。

Card 03 核心贡献

核心贡献

提出了 Future Latent Representation Alignment 方法，仅需对标准 VLA 模型增加少量 Token 即可实现隐式世界建模，无需进行全帧重建。
设计并预训练了一个 Action-aware Future Embedding Model，该模型紧凑且针对下游控制任务优化，用作未来预测的目标嵌入。
在多任务仿真基准测试和真实 GR1 Humanoid 机器人任务上实现了最先进的性能，最高超越基线方法 26%。
实现了与无动作标签的人类自我中心视频的联合训练，显著提升了策略对未知几何形状物体的泛化能力。

Card 04 方法描述

方法描述

基于包含 Flow-matching 目标的 Diffusion Transformer (DiT) 架构，引入了 $M$ 个可学习的未来 Token 到输入序列中。
在网络的中间层提取这些未来 Token 的激活值，并通过余弦相似度损失将其与未来观测的冻结视觉-语言嵌入进行对齐，总损失函数为 $\mathcal{L} = \mathcal{L}_{fm} + \lambda\mathcal{L}_{align}$。
使用 SigLIP-2 编码器和 Q-former 构建了紧凑的视觉-语言嵌入模型，将其压缩为 32 个 Token，并通过端到端的动作预测任务进行预训练以确保动作感知能力。
在下游任务微调中，采用 Exponential Moving Average (EMA) 策略更新目标嵌入模型，以缓解预训练与下游任务间的分布偏差。

Card 05 数据集与资源

数据集与资源

仿真基准：RoboCasa (24 项单臂任务) 和 GR1 Tabletop Manipulation (24 项人形机器人任务)。
预训练数据：混合了 GR00T N1 和 Open X-Embodiment 数据集，总计约 2000 小时的跨具身机器人数据。
真实世界数据：真实 GR1 Humanoid 机器人的遥操作演示数据。
人类视频：使用 GoPro 采集的人类自我中心视角视频演示。

Card 06 评估与结果

评估与结果

评估基准包括 RoboCasa 和 GR1 仿真环境以及真实 GR1 Humanoid 机器人。
主要评估指标为任务 Success Rate。
在仿真多任务基准上，FLARE 在 RoboCasa 上达到 70.1% 的平均成功率，在 GR1 任务上达到 55.0%，显著优于 Diffusion Policy、UWM 和 GR00T N1 等基线。
在真实 GR1 机器人上，使用预训练嵌入模型进行后训练，成功率最高达到 95.1%。
结合少量机器人演示（每物体 1-10 条轨迹）和人类视频训练时，对未见物体的抓取成功率提升至 80%，是纯动作标签基线的两倍。