论文提出了 LoHo-Manip，一个模块化框架，通过将高层任务管理与低层VLA执行解耦，解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…

论文详情

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

2026-04-23 · 原文 · 翻译 · 2604.21924

论文提出了 LoHo-Manip，一个模块化框架，通过将高层任务管理与低层VLA执行解耦，解决长时程机器人操控中任务依赖、进度跟踪和错误累积的难题。核心思想是将复杂的长期指令分解为可执行的短期子任务序列，并由任务管理器预测一个“视觉轨迹”作为空间提示，引导执行器完成局部控制。该框架通过在每一步预测“剩余计划”，实现了隐式的闭环进度跟踪与错误恢复，无需依赖长视觉历史或人工设计的恢复逻辑。

4 分钟读完 6 张阅读卡 University of California, San Diego

一眼看懂封面预览

论文提出了 LoHo-Manip，一个模块化框架，通过将高层任务管理与低层VLA执行解耦，解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…

论文提出了 LoHo-Manip，一个模块化框架，通过将高层任务管理与低层VLA执行解耦，解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…
核心思想是将复杂的长期指令分解为可执行的短期子任务序列，并由任务管理器预测一个“视觉轨迹”作为空间提示，引导执行器完成局部控制。
该框架通过在每一步预测“剩余计划”，实现了隐式的闭环进度跟踪与错误恢复，无需依赖长视觉历史或人工设计的恢复逻辑。

Card 01 研究单位

研究单位

University of California, San Diego
NVIDIA

Card 02 论文概述

论文概述

论文提出了 LoHo-Manip，一个模块化框架，通过将高层任务管理与低层VLA执行解耦，解决长时程机器人操控中任务依赖、进度跟踪和错误累积的难题。
核心思想是将复杂的长期指令分解为可执行的短期子任务序列，并由任务管理器预测一个“视觉轨迹”作为空间提示，引导执行器完成局部控制。
该框架通过在每一步预测“剩余计划”，实现了隐式的闭环进度跟踪与错误恢复，无需依赖长视觉历史或人工设计的恢复逻辑。

Card 03 核心贡献

核心贡献

提出了 LoHo-Manip 模块化框架，将专用的任务管理VLM与短期VLA执行器分离，使高层管理可跨不同低层策略复用。
训练任务管理器从当前观测预测“剩余”子任务及轨迹，从而实现隐式的进度跟踪、重规划与失败恢复。
引入 视觉轨迹 作为一种可执行的空间提示，将长时程规划转化为局部轨迹跟踪，提升了泛化性与鲁棒性。

Card 04 方法描述

方法描述

系统由一个高层 任务管理器（VLM）和一个低层 执行器（VLA）组成。管理器接收当前观测与指令，输出子任务描述和2D关键点轨迹。
创新点在于 “剩余计划预测”：管理器不依赖长历史帧，而是基于当前帧和轻量文本记忆（记录已完成与剩余子任务）进行预测，避免了分布偏移问题。
视觉轨迹由末端执行器的2D像素坐标序列构成，渲染为视觉提示供执行器使用，使其学会“跟随轨迹”的通用技能。

Card 05 数据集与资源

数据集与资源

训练数据来源包括 Bridge数据集（真实机器人演示）、RoboVQA 和 EgoPlan-BenchIT（用于提升推理规划能力）。
任务管理器基于 Qwen3-VL 模型初始化并微调；执行器采用 π0.5 架构并进行适配训练。
评估中展示的 LoHo-Manip-4B 为4B参数规模的模型版本。

Card 06 评估与结果

评估与结果

评估涵盖四个维度：具身推理（RoboVQA）、人类规划水平（EgoPlan-Bench2）、轨迹预测（ShareRobot-T 与 VABench-V）及仿真与真实机器人操控。
主要指标包括BLEU分数、任务规划准确率以及轨迹预测误差（DFD、HD、RMSE）。
关键结果显示，LoHo-Manip-4B 在各项基准上均优于同等规模的专有模型（如Gemini）、开源VLM及具身基础模型，并在真实 Franka机器人 上验证了其对长时程任务和分布外场景的强泛化与恢复能力。