返回列表 VLA / Vision-Language-Action 每日论文卡
FORGE-Tree: Diffusion-Forcing Tree Search for Long-Horizon Robot Manipulation
研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题

论文详情

FORGE-Tree: Diffusion-Forcing Tree Search for Long-Horizon Robot Manipulation

2025-10-07 · 原文 · 翻译 · 2510.21744

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题 核心问题:现有方法使用固定超参数对整个轨迹进行去噪,导致小几何误差在阶段间累积,且无法在测试时自适应分配计算资源 提出 FORGE-Tree:一种即插即用的控制层,结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Carlo Tree Diffusion (M…

5 分钟读完 6 张阅读卡 德克萨斯农工大学(计算机科学与工程系):Yanjia Huang, Qingxiao Xu, Ming…
一眼看懂 封面预览

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题

  • 研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题
  • 核心问题:现有方法使用固定超参数对整个轨迹进行去噪,导致小几何误差在阶段间累积,且无法在测试时自适应分配计算资源
  • 提出 FORGE-Tree:一种即插即用的控制层,结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Car…
Card 01 研究单位

研究单位

  • 德克萨斯农工大学(计算机科学与工程系):Yanjia Huang, Qingxiao Xu, Mingyang Wu, Xiangbo Gao, Zhengzhong Tu
  • 华盛顿大学(电气与计算机工程系):Shuo Liu
  • 德国卡尔斯鲁厄理工学院:Sheng Liu
Card 02 论文概述

论文概述

  • 研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题
  • 核心问题:现有方法使用固定超参数对整个轨迹进行去噪,导致小几何误差在阶段间累积,且无法在测试时自适应分配计算资源
  • 提出 FORGE-Tree:一种即插即用的控制层,结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Carlo Tree Diffusion (MCTD)
Card 03 核心贡献

核心贡献

  • VLA 条件扩散头:使用 Transformer+FiLM 架构预测每个 token 的噪声,条件于 VLA 编码
  • Diffusion Forcing 目标:将去噪调度与子任务结构对齐,使模型学习"着陆"子目标
  • 树结构去噪:通过元动作(分段、步长、引导、温度)实现可扩展的自适应预算解码
  • 双角色场景图:同时提供扩展先验和几何关系感知评估,连接符号与运动学
  • 即插即用设计:作为控制层升级,不修改 VLA 主干,在 OpenVLA 和 Octo-Base 上均产生一致性能提升
Card 04 方法描述

方法描述

  • Diffusion Forcing 训练:为每个子任务分配单一时间步,使同一阶段内的 token 共享噪声水平("噪声=掩码")
  • 部分去噪推理:使用分段算子仅演化未来分段,同时冻结已执行前缀
  • 几何关系感知引导:定义势函数 U 结合终端对齐、阶段锚定、关系违反惩罚和碰撞成本
  • 阶段感知 MCTD:使用 P-UCT 选取引擎,双重奖励(快速启发式 vs 真实几何回报)指导搜索
Card 05 数据集与资源

数据集与资源

  • 训练数据:EMMA-X(阶段标注的机器人操作轨迹)
  • 评估基准:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long 和 ManiSkill
  • VLA 主干:OpenVLA、Octo-Base(冻结,不微调)
  • 训练资源:4×48GB Ada GPU,200k 步,每 GPU 批大小 64
Card 06 评估与结果

评估与结果

  • LIBERO 基准:FORGE-Tree 在四个套件上取得显著改进

- OpenVLA 基线:76.5% → 89.9%(+13.4 pp)

- Octo-Base 基线:75.1% → 92.3%(+17.2 pp)

  • 最长时域任务:LIBERO-Long 提升最大(OpenVLA +29.5 pp,Octo +39.9 pp)
  • SOTA 对比:与离散扩散 VLA(96.3%)差距缩小至 4-6 pp
  • 核心优势:作为即插控制层,在不修改编码器的情况下大幅提升 VLA 的长时域任务表现