返回列表 VLA / Vision-Language-Action 每日论文卡
Long-Horizon Manipulation via Trace-Conditioned VLA Planning
论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…

论文详情

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

2026-04-23 · 原文 · 翻译 · 2604.21924

论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的难题。 核心思想是将复杂的长期指令分解为可执行的短期子任务序列,并由任务管理器预测一个“视觉轨迹”作为空间提示,引导执行器完成局部控制。 该框架通过在每一步预测“剩余计划”,实现了隐式的闭环进度跟踪与错误恢复,无需依赖长视觉历史或人工设计的恢复逻辑。

4 分钟读完 6 张阅读卡 University of California, San Diego
一眼看懂 封面预览

论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…

  • 论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…
  • 核心思想是将复杂的长期指令分解为可执行的短期子任务序列,并由任务管理器预测一个“视觉轨迹”作为空间提示,引导执行器完成局部控制。
  • 该框架通过在每一步预测“剩余计划”,实现了隐式的闭环进度跟踪与错误恢复,无需依赖长视觉历史或人工设计的恢复逻辑。
Card 01 研究单位

研究单位

  • University of California, San Diego
  • NVIDIA
Card 02 论文概述

论文概述

  • 论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的难题。
  • 核心思想是将复杂的长期指令分解为可执行的短期子任务序列,并由任务管理器预测一个“视觉轨迹”作为空间提示,引导执行器完成局部控制。
  • 该框架通过在每一步预测“剩余计划”,实现了隐式的闭环进度跟踪与错误恢复,无需依赖长视觉历史或人工设计的恢复逻辑。
Card 03 核心贡献

核心贡献

  • 提出了 LoHo-Manip 模块化框架,将专用的任务管理VLM与短期VLA执行器分离,使高层管理可跨不同低层策略复用。
  • 训练任务管理器从当前观测预测“剩余”子任务及轨迹,从而实现隐式的进度跟踪、重规划与失败恢复。
  • 引入 视觉轨迹 作为一种可执行的空间提示,将长时程规划转化为局部轨迹跟踪,提升了泛化性与鲁棒性。
Card 04 方法描述

方法描述

  • 系统由一个高层 任务管理器(VLM)和一个低层 执行器(VLA)组成。管理器接收当前观测与指令,输出子任务描述和2D关键点轨迹。
  • 创新点在于 “剩余计划预测”:管理器不依赖长历史帧,而是基于当前帧和轻量文本记忆(记录已完成与剩余子任务)进行预测,避免了分布偏移问题。
  • 视觉轨迹由末端执行器的2D像素坐标序列构成,渲染为视觉提示供执行器使用,使其学会“跟随轨迹”的通用技能。
Card 05 数据集与资源

数据集与资源

  • 训练数据来源包括 Bridge数据集(真实机器人演示)、RoboVQAEgoPlan-BenchIT(用于提升推理规划能力)。
  • 任务管理器基于 Qwen3-VL 模型初始化并微调;执行器采用 π0.5 架构并进行适配训练。
  • 评估中展示的 LoHo-Manip-4B 为4B参数规模的模型版本。
Card 06 评估与结果

评估与结果

  • 评估涵盖四个维度:具身推理(RoboVQA)、人类规划水平(EgoPlan-Bench2)、轨迹预测(ShareRobot-TVABench-V)及仿真与真实机器人操控。
  • 主要指标包括BLEU分数、任务规划准确率以及轨迹预测误差(DFD、HD、RMSE)。
  • 关键结果显示,LoHo-Manip-4B 在各项基准上均优于同等规模的专有模型(如Gemini)、开源VLM及具身基础模型,并在真实 Franka机器人 上验证了其对长时程任务和分布外场景的强泛化与恢复能力。