返回列表 VLA / Vision-Language-Action 每日论文卡

FLARE: Robot Learning with Implicit World Modeling

论文详情

FLARE: Robot Learning with Implicit World Modeling

2025-05-21 · 原文 · 翻译 · 2505.15659

提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer 的特征与未来观测的潜在嵌入对齐,将预测性潜在世界模型集成到机器人策略学习中。 旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。 赋予了机器人策略推理长期后果的能力,并解锁了利用无动作标签的人类视频进行训练的潜力。

6 分钟读完 6 张阅读卡 NVIDIA
一眼看懂 封面预览

提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer…

  • 提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer…
  • 旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
  • 赋予了机器人策略推理长期后果的能力,并解锁了利用无动作标签的人类视频进行训练的潜力。
Card 01 研究单位

研究单位

  • NVIDIA
  • University of Maryland, College Park
  • Nanyang Technological University
  • University of Texas, Austin
Card 02 论文概述

论文概述

  • 提出了 FLARE (Future Latent Representation Alignment) 框架,通过将扩散 Transformer 的特征与未来观测的潜在嵌入对齐,将预测性潜在世界模型集成到机器人策略学习中。
  • 旨在解决现有显式像素级未来帧预测方法中存在的计算开销大、视觉生成与动作建模优化冲突等问题。
  • 赋予了机器人策略推理长期后果的能力,并解锁了利用无动作标签的人类视频进行训练的潜力。
Card 03 核心贡献

核心贡献

  • 提出了 Future Latent Representation Alignment 方法,仅需对标准 VLA 模型增加少量 Token 即可实现隐式世界建模,无需进行全帧重建。
  • 设计并预训练了一个 Action-aware Future Embedding Model,该模型紧凑且针对下游控制任务优化,用作未来预测的目标嵌入。
  • 在多任务仿真基准测试和真实 GR1 Humanoid 机器人任务上实现了最先进的性能,最高超越基线方法 26%。
  • 实现了与无动作标签的人类自我中心视频的联合训练,显著提升了策略对未知几何形状物体的泛化能力。
Card 04 方法描述

方法描述

  • 基于包含 Flow-matching 目标的 Diffusion Transformer (DiT) 架构,引入了 $M$ 个可学习的未来 Token 到输入序列中。
  • 在网络的中间层提取这些未来 Token 的激活值,并通过余弦相似度损失将其与未来观测的冻结视觉-语言嵌入进行对齐,总损失函数为 $\mathcal{L} = \mathcal{L}_{fm} + \lambda\mathcal{L}_{align}$。
  • 使用 SigLIP-2 编码器和 Q-former 构建了紧凑的视觉-语言嵌入模型,将其压缩为 32 个 Token,并通过端到端的动作预测任务进行预训练以确保动作感知能力。
  • 在下游任务微调中,采用 Exponential Moving Average (EMA) 策略更新目标嵌入模型,以缓解预训练与下游任务间的分布偏差。
Card 05 数据集与资源

数据集与资源

  • 仿真基准:RoboCasa (24 项单臂任务) 和 GR1 Tabletop Manipulation (24 项人形机器人任务)。
  • 预训练数据:混合了 GR00T N1Open X-Embodiment 数据集,总计约 2000 小时的跨具身机器人数据。
  • 真实世界数据:真实 GR1 Humanoid 机器人的遥操作演示数据。
  • 人类视频:使用 GoPro 采集的人类自我中心视角视频演示。
Card 06 评估与结果

评估与结果

  • 评估基准包括 RoboCasaGR1 仿真环境以及真实 GR1 Humanoid 机器人。
  • 主要评估指标为任务 Success Rate
  • 在仿真多任务基准上,FLARE 在 RoboCasa 上达到 70.1% 的平均成功率,在 GR1 任务上达到 55.0%,显著优于 Diffusion Policy、UWM 和 GR00T N1 等基线。
  • 在真实 GR1 机器人上,使用预训练嵌入模型进行后训练,成功率最高达到 95.1%
  • 结合少量机器人演示(每物体 1-10 条轨迹)和人类视频训练时,对未见物体的抓取成功率提升至 80%,是纯动作标签基线的两倍。