一眼看懂
封面预览
提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer…
- 提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer…
- 旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
- 赋予了机器人策略推理长期后果的能力,并解锁了利用无动作标签的人类视频进行训练的潜力。
Card 01
研究单位
研究单位
- NVIDIA
- University of Maryland, College Park
- Nanyang Technological University
- University of Texas, Austin
Card 02
论文概述
论文概述
- 提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer 的特征与未来观测的潜在嵌入对齐,将预测性潜在世界模型集成到机器人策略学习中。
- 旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
- 赋予了机器人策略推理长期后果的能力,并解锁了利用无动作标签的人类视频进行训练的潜力。
Card 03
核心贡献
核心贡献
- 提出了 Future Latent Representation Alignment 方法,仅需对标准 VLA 模型增加少量 Token 即可实现隐式世界建模,无需进行全帧重建。
- 设计并预训练了一个 Action-aware Future Embedding Model,该模型紧凑且针对下游控制任务优化,用作未来预测的目标嵌入。
- 在多任务仿真基准测试和真实 GR1 Humanoid 机器人任务上实现了最先进的性能,最高超越基线方法 26%。
- 实现了与无动作标签的人类自我中心视频的联合训练,显著提升了策略对未知几何形状物体的泛化能力。
Card 04
方法描述
方法描述
- 基于包含 Flow-matching 目标的 Diffusion Transformer (DiT) 架构,引入了 $M$ 个可学习的未来 Token 到输入序列中。
- 在网络的中间层提取这些未来 Token 的激活值,并通过余弦相似度损失将其与未来观测的冻结视觉-语言嵌入进行对齐,总损失函数为 $\mathcal{L} = \mathcal{L}_{fm} + \lambda\mathcal{L}_{align}$。
- 使用 SigLIP-2 编码器和 Q-former 构建了紧凑的视觉-语言嵌入模型,将其压缩为 32 个 Token,并通过端到端的动作预测任务进行预训练以确保动作感知能力。
- 在下游任务微调中,采用 Exponential Moving Average (EMA) 策略更新目标嵌入模型,以缓解预训练与下游任务间的分布偏差。
Card 05
数据集与资源
数据集与资源
- 仿真基准:RoboCasa (24 项单臂任务) 和 GR1 Tabletop Manipulation (24 项人形机器人任务)。
- 预训练数据:混合了 GR00T N1 和 Open X-Embodiment 数据集,总计约 2000 小时的跨具身机器人数据。
- 真实世界数据:真实 GR1 Humanoid 机器人的遥操作演示数据。
- 人类视频:使用 GoPro 采集的人类自我中心视角视频演示。
Card 06
评估与结果
评估与结果
- 评估基准包括 RoboCasa 和 GR1 仿真环境以及真实 GR1 Humanoid 机器人。
- 主要评估指标为任务 Success Rate。
- 在仿真多任务基准上,FLARE 在 RoboCasa 上达到 70.1% 的平均成功率,在 GR1 任务上达到 55.0%,显著优于 Diffusion Policy、UWM 和 GR00T N1 等基线。
- 在真实 GR1 机器人上,使用预训练嵌入模型进行后训练,成功率最高达到 95.1%。
- 结合少量机器人演示(每物体 1-10 条轨迹)和人类视频训练时,对未见物体的抓取成功率提升至 80%,是纯动作标签基线的两倍。