一眼看懂
封面预览
论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…
- 论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的…
- 核心思想是将复杂的长期指令分解为可执行的短期子任务序列,并由任务管理器预测一个“视觉轨迹”作为空间提示,引导执行器完成局部控制。
- 该框架通过在每一步预测“剩余计划”,实现了隐式的闭环进度跟踪与错误恢复,无需依赖长视觉历史或人工设计的恢复逻辑。
Card 01
研究单位
研究单位
- University of California, San Diego
- NVIDIA
Card 02
论文概述
论文概述
- 论文提出了 LoHo-Manip,一个模块化框架,通过将高层任务管理与低层VLA执行解耦,解决长时程机器人操控中任务依赖、进度跟踪和错误累积的难题。
- 核心思想是将复杂的长期指令分解为可执行的短期子任务序列,并由任务管理器预测一个“视觉轨迹”作为空间提示,引导执行器完成局部控制。
- 该框架通过在每一步预测“剩余计划”,实现了隐式的闭环进度跟踪与错误恢复,无需依赖长视觉历史或人工设计的恢复逻辑。
Card 03
核心贡献
核心贡献
- 提出了 LoHo-Manip 模块化框架,将专用的任务管理VLM与短期VLA执行器分离,使高层管理可跨不同低层策略复用。
- 训练任务管理器从当前观测预测“剩余”子任务及轨迹,从而实现隐式的进度跟踪、重规划与失败恢复。
- 引入 视觉轨迹 作为一种可执行的空间提示,将长时程规划转化为局部轨迹跟踪,提升了泛化性与鲁棒性。
Card 04
方法描述
方法描述
- 系统由一个高层 任务管理器(VLM)和一个低层 执行器(VLA)组成。管理器接收当前观测与指令,输出子任务描述和2D关键点轨迹。
- 创新点在于 “剩余计划预测”:管理器不依赖长历史帧,而是基于当前帧和轻量文本记忆(记录已完成与剩余子任务)进行预测,避免了分布偏移问题。
- 视觉轨迹由末端执行器的2D像素坐标序列构成,渲染为视觉提示供执行器使用,使其学会“跟随轨迹”的通用技能。
Card 05
数据集与资源
数据集与资源
- 训练数据来源包括 Bridge数据集(真实机器人演示)、RoboVQA 和 EgoPlan-BenchIT(用于提升推理规划能力)。
- 任务管理器基于 Qwen3-VL 模型初始化并微调;执行器采用 π0.5 架构并进行适配训练。
- 评估中展示的 LoHo-Manip-4B 为4B参数规模的模型版本。
Card 06
评估与结果
评估与结果
- 评估涵盖四个维度:具身推理(RoboVQA)、人类规划水平(EgoPlan-Bench2)、轨迹预测(ShareRobot-T 与 VABench-V)及仿真与真实机器人操控。
- 主要指标包括BLEU分数、任务规划准确率以及轨迹预测误差(DFD、HD、RMSE)。
- 关键结果显示,LoHo-Manip-4B 在各项基准上均优于同等规模的专有模型(如Gemini)、开源VLM及具身基础模型,并在真实 Franka机器人 上验证了其对长时程任务和分布外场景的强泛化与恢复能力。