提出 IntentionVLA，一个用于人机交互的具身意图推理 VLA（视觉-语言-动作）框架，解决现有 VLA 模型缺乏推理密集型预训练和推…

论文详情

IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction

2025-10-09 · 原文 · 翻译 · 2510.07778

提出 IntentionVLA，一个用于人机交互的具身意图推理 VLA（视觉-语言-动作）框架，解决现有 VLA 模型缺乏推理密集型预训练和推理引导操作的问题核心目标是使机器人能够理解人类的隐含意图（如"我手机没电了"而非明确的"把手机放在充电器上"），并在复杂环境中准确执行任务面临两大挑战：现有数据集缺少意图感知标注，且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制

5 分钟读完 6 张阅读卡哈尔滨工业大学（深圳） - Yandu Chen, Liqiang Nie（通讯作者）

一眼看懂封面预览

提出 IntentionVLA，一个用于人机交互的具身意图推理 VLA（视觉-语言-动作）框架，解决现有 VLA 模型缺乏推理密集型预训练和推…

提出 IntentionVLA，一个用于人机交互的具身意图推理 VLA（视觉-语言-动作）框架，解决现有 VLA 模型缺乏推理密集型预训练和推…
核心目标是使机器人能够理解人类的隐含意图（如"我手机没电了"而非明确的"把手机放在充电器上"），并在复杂环境中准确执行任务
面临两大挑战：现有数据集缺少意图感知标注，且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制

Card 01 研究单位

研究单位

哈尔滨工业大学（深圳） - Yandu Chen, Liqiang Nie（通讯作者）
南京大学 - Kefan Gu
中国科学技术大学 - Yuqing Wen
Dexmal - Yucheng Zhao（项目负责人）, Tiancai Wang

Card 02 论文概述

论文概述

提出 IntentionVLA，一个用于人机交互的具身意图推理 VLA（视觉-语言-动作）框架，解决现有 VLA 模型缺乏推理密集型预训练和推理引导操作的问题
核心目标是使机器人能够理解人类的隐含意图（如"我手机没电了"而非明确的"把手机放在充电器上"），并在复杂环境中准确执行任务
面临两大挑战：现有数据集缺少意图感知标注，且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制

Card 03 核心贡献

核心贡献

提出 IntentionVLA 统一框架，通过精心设计的意图推理数据（包含意图推理、空间推理、紧凑推理三种格式）和两阶段训练范式进行训练
设计高效的自动化标注 pipeline，利用 GPT-4o 和 Florence-2 等预训练模型生成丰富的具身推理信号
引入紧凑推理机制（"move \ to \"），在 0.2 秒内生成短推理序列，实现实时推理（约 0.72 秒/轮 vs ECoT 的 3.41 秒）
在直接指令任务上比 π₀ 高 18.3% 成功率在意图指令任务上比 ECoT 高 28.3%，在 OOD 设置下达到所有基线两倍以上的成功率

Card 04 方法描述

方法描述

VLM 主干：使用 Qwen2.5-7B 作为视觉语言主干，处理多模态具身输入（视觉观测+文本指令）
可学习查询：附加可学习查询 token 从 VLM 提取中间动作表示，作为连接推理与动作的关键桥梁
Connector 模块：4 层 Transformer 模块，将中间动作表示精炼为扩散模型的条件向量
动作生成：使用 Denoising Transformer (DiT) 进行扩散去噪，生成 7-DoF 末端执行器姿态变化
两阶段训练：第一阶段在推理数据上训练 VLM 获得具身推理和空间感知能力；第二阶段冻结 VLM，只训练动作模块，将紧凑推理作为高效引导

Card 05 数据集与资源

数据集与资源

数据集：日常工作环境数据，通过自动化 pipeline 标注为三种推理格式
模型规模：7B 参数（基于 Qwen2.5-7B）
训练平台：WidowX-250s 机械臂 + RealSense D435i 相机
评估任务：6 个分布内任务 + 5 个未见过指令 + 3 个新物体操作 + 零样本人机交互

Card 06 评估与结果

评估与结果

评估指标：任务成功率（每任务 10 次试验）
分布内任务：IntentionVLA 在直接指令下达到 48.3% 成功率（π₀ 为 30%），在意图指令下达到 45%（所有基线低于 20%）
OOD 任务：未见过指令下达 30%（π₀ 仅 8.3%）；新物体操作是唯一能完成"Marker in pencil box"的模型
零样本 HRI：在真实人手任务达 40%，移动手任务达 30%（π₀ 为 0%），推理速度 0.72 秒/轮（ECoT 为 3.41 秒）
多模态理解：在 MMMU、MME、HallBench 等基准上超越 LLaVA 和其他 VLA 基线