返回列表 VLA / Vision-Language-Action 每日论文卡
IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction
提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推…

论文详情

IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction

2025-10-09 · 原文 · 翻译 · 2510.07778

提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推理引导操作的问题 核心目标是使机器人能够理解人类的隐含意图(如"我手机没电了"而非明确的"把手机放在充电器上"),并在复杂环境中准确执行任务 面临两大挑战:现有数据集缺少意图感知标注,且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制

5 分钟读完 6 张阅读卡 哈尔滨工业大学(深圳) - Yandu Chen, Liqiang Nie(通讯作者)
一眼看懂 封面预览

提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推…

  • 提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推…
  • 核心目标是使机器人能够理解人类的隐含意图(如"我手机没电了"而非明确的"把手机放在充电器上"),并在复杂环境中准确执行任务
  • 面临两大挑战:现有数据集缺少意图感知标注,且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制
Card 01 研究单位

研究单位

  • 哈尔滨工业大学(深圳) - Yandu Chen, Liqiang Nie(通讯作者)
  • 南京大学 - Kefan Gu
  • 中国科学技术大学 - Yuqing Wen
  • Dexmal - Yucheng Zhao(项目负责人), Tiancai Wang
Card 02 论文概述

论文概述

  • 提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推理引导操作的问题
  • 核心目标是使机器人能够理解人类的隐含意图(如"我手机没电了"而非明确的"把手机放在充电器上"),并在复杂环境中准确执行任务
  • 面临两大挑战:现有数据集缺少意图感知标注,且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制
Card 03 核心贡献

核心贡献

  • 提出 IntentionVLA 统一框架,通过精心设计的意图推理数据(包含意图推理、空间推理、紧凑推理三种格式)和两阶段训练范式进行训练
  • 设计高效的自动化标注 pipeline,利用 GPT-4o 和 Florence-2 等预训练模型生成丰富的具身推理信号
  • 引入紧凑推理机制("move \ to \"),在 0.2 秒内生成短推理序列,实现实时推理(约 0.72 秒/轮 vs ECoT 的 3.41 秒)
  • 在直接指令任务上比 π₀ 高 18.3% 成功率在意图指令任务上比 ECoT 高 28.3%,在 OOD 设置下达到所有基线两倍以上的成功率
Card 04 方法描述

方法描述

  • VLM 主干:使用 Qwen2.5-7B 作为视觉语言主干,处理多模态具身输入(视觉观测+文本指令)
  • 可学习查询:附加可学习查询 token 从 VLM 提取中间动作表示,作为连接推理与动作的关键桥梁
  • Connector 模块:4 层 Transformer 模块,将中间动作表示精炼为扩散模型的条件向量
  • 动作生成:使用 Denoising Transformer (DiT) 进行扩散去噪,生成 7-DoF 末端执行器姿态变化
  • 两阶段训练:第一阶段在推理数据上训练 VLM 获得具身推理和空间感知能力;第二阶段冻结 VLM,只训练动作模块,将紧凑推理作为高效引导
Card 05 数据集与资源

数据集与资源

  • 数据集:日常工作环境数据,通过自动化 pipeline 标注为三种推理格式
  • 模型规模:7B 参数(基于 Qwen2.5-7B)
  • 训练平台:WidowX-250s 机械臂 + RealSense D435i 相机
  • 评估任务:6 个分布内任务 + 5 个未见过指令 + 3 个新物体操作 + 零样本人机交互
Card 06 评估与结果

评估与结果

  • 评估指标:任务成功率(每任务 10 次试验)
  • 分布内任务:IntentionVLA 在直接指令下达到 48.3% 成功率(π₀ 为 30%),在意图指令下达到 45%(所有基线低于 20%)
  • OOD 任务:未见过指令下达 30%(π₀ 仅 8.3%);新物体操作是唯一能完成"Marker in pencil box"的模型
  • 零样本 HRI:在真实人手任务达 40%,移动手任务达 30%(π₀ 为 0%),推理速度 0.72 秒/轮(ECoT 为 3.41 秒)
  • 多模态理解:在 MMMU、MME、HallBench 等基准上超越 LLaVA 和其他 VLA 基线