研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题

论文详情

FORGE-Tree: Diffusion-Forcing Tree Search for Long-Horizon Robot Manipulation

2025-10-07 · 原文 · 翻译 · 2510.21744

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题核心问题：现有方法使用固定超参数对整个轨迹进行去噪，导致小几何误差在阶段间累积，且无法在测试时自适应分配计算资源提出 FORGE-Tree：一种即插即用的控制层，结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Carlo Tree Diffusion (M…

5 分钟读完 6 张阅读卡德克萨斯农工大学（计算机科学与工程系）：Yanjia Huang, Qingxiao Xu, Ming…

一眼看懂封面预览

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题
核心问题：现有方法使用固定超参数对整个轨迹进行去噪，导致小几何误差在阶段间累积，且无法在测试时自适应分配计算资源
提出 FORGE-Tree：一种即插即用的控制层，结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Car…

Card 01 研究单位

研究单位

德克萨斯农工大学（计算机科学与工程系）：Yanjia Huang, Qingxiao Xu, Mingyang Wu, Xiangbo Gao, Zhengzhong Tu
华盛顿大学（电气与计算机工程系）：Shuo Liu
德国卡尔斯鲁厄理工学院：Sheng Liu

Card 02 论文概述

论文概述

研究目标是解决长时域机器人操作任务中 Vision-Language-Action (VLA) 策略的漂移和暴露偏差问题
核心问题：现有方法使用固定超参数对整个轨迹进行去噪，导致小几何误差在阶段间累积，且无法在测试时自适应分配计算资源
提出 FORGE-Tree：一种即插即用的控制层，结合阶段对齐的 Diffusion Forcing (DF) 头和测试时 Monte Carlo Tree Diffusion (MCTD)

Card 03 核心贡献

核心贡献

VLA 条件扩散头：使用 Transformer+FiLM 架构预测每个 token 的噪声，条件于 VLA 编码
Diffusion Forcing 目标：将去噪调度与子任务结构对齐，使模型学习"着陆"子目标
树结构去噪：通过元动作（分段、步长、引导、温度）实现可扩展的自适应预算解码
双角色场景图：同时提供扩展先验和几何关系感知评估，连接符号与运动学
即插即用设计：作为控制层升级，不修改 VLA 主干，在 OpenVLA 和 Octo-Base 上均产生一致性能提升

Card 04 方法描述

方法描述

Diffusion Forcing 训练：为每个子任务分配单一时间步，使同一阶段内的 token 共享噪声水平（"噪声=掩码"）
部分去噪推理：使用分段算子仅演化未来分段，同时冻结已执行前缀
几何关系感知引导：定义势函数 U 结合终端对齐、阶段锚定、关系违反惩罚和碰撞成本
阶段感知 MCTD：使用 P-UCT 选取引擎，双重奖励（快速启发式 vs 真实几何回报）指导搜索

Card 05 数据集与资源

数据集与资源

训练数据：EMMA-X（阶段标注的机器人操作轨迹）
评估基准：LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long 和 ManiSkill
VLA 主干：OpenVLA、Octo-Base（冻结，不微调）
训练资源：4×48GB Ada GPU，200k 步，每 GPU 批大小 64

Card 06 评估与结果

评估与结果

LIBERO 基准：FORGE-Tree 在四个套件上取得显著改进

- OpenVLA 基线：76.5% → 89.9%（+13.4 pp）

- Octo-Base 基线：75.1% → 92.3%（+17.2 pp）

最长时域任务：LIBERO-Long 提升最大（OpenVLA +29.5 pp，Octo +39.9 pp）
SOTA 对比：与离散扩散 VLA（96.3%）差距缩小至 4-6 pp
核心优势：作为即插控制层，在不修改编码器的情况下大幅提升 VLA 的长时域任务表现