一眼看懂
封面预览
提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推…
- 提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推…
- 核心目标是使机器人能够理解人类的隐含意图(如"我手机没电了"而非明确的"把手机放在充电器上"),并在复杂环境中准确执行任务
- 面临两大挑战:现有数据集缺少意图感知标注,且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制
Card 01
研究单位
研究单位
- 哈尔滨工业大学(深圳) - Yandu Chen, Liqiang Nie(通讯作者)
- 南京大学 - Kefan Gu
- 中国科学技术大学 - Yuqing Wen
- Dexmal - Yucheng Zhao(项目负责人), Tiancai Wang
Card 02
论文概述
论文概述
- 提出 IntentionVLA,一个用于人机交互的具身意图推理 VLA(视觉-语言-动作)框架,解决现有 VLA 模型缺乏推理密集型预训练和推理引导操作的问题
- 核心目标是使机器人能够理解人类的隐含意图(如"我手机没电了"而非明确的"把手机放在充电器上"),并在复杂环境中准确执行任务
- 面临两大挑战:现有数据集缺少意图感知标注,且缺乏将 VLM 推理能力整合到动作生成的轻量级语义推理机制
Card 03
核心贡献
核心贡献
- 提出 IntentionVLA 统一框架,通过精心设计的意图推理数据(包含意图推理、空间推理、紧凑推理三种格式)和两阶段训练范式进行训练
- 设计高效的自动化标注 pipeline,利用 GPT-4o 和 Florence-2 等预训练模型生成丰富的具身推理信号
- 引入紧凑推理机制("move \
to \ - 在直接指令任务上比 π₀ 高 18.3% 成功率在意图指令任务上比 ECoT 高 28.3%,在 OOD 设置下达到所有基线两倍以上的成功率
Card 04
方法描述
方法描述
- VLM 主干:使用 Qwen2.5-7B 作为视觉语言主干,处理多模态具身输入(视觉观测+文本指令)
- 可学习查询:附加可学习查询 token 从 VLM 提取中间动作表示,作为连接推理与动作的关键桥梁
- Connector 模块:4 层 Transformer 模块,将中间动作表示精炼为扩散模型的条件向量
- 动作生成:使用 Denoising Transformer (DiT) 进行扩散去噪,生成 7-DoF 末端执行器姿态变化
- 两阶段训练:第一阶段在推理数据上训练 VLM 获得具身推理和空间感知能力;第二阶段冻结 VLM,只训练动作模块,将紧凑推理作为高效引导
Card 05
数据集与资源
数据集与资源
- 数据集:日常工作环境数据,通过自动化 pipeline 标注为三种推理格式
- 模型规模:7B 参数(基于 Qwen2.5-7B)
- 训练平台:WidowX-250s 机械臂 + RealSense D435i 相机
- 评估任务:6 个分布内任务 + 5 个未见过指令 + 3 个新物体操作 + 零样本人机交互
Card 06
评估与结果
评估与结果
- 评估指标:任务成功率(每任务 10 次试验)
- 分布内任务:IntentionVLA 在直接指令下达到 48.3% 成功率(π₀ 为 30%),在意图指令下达到 45%(所有基线低于 20%)
- OOD 任务:未见过指令下达 30%(π₀ 仅 8.3%);新物体操作是唯一能完成"Marker in pencil box"的模型
- 零样本 HRI:在真实人手任务达 40%,移动手任务达 30%(π₀ 为 0%),推理速度 0.72 秒/轮(ECoT 为 3.41 秒)
- 多模态理解:在 MMMU、MME、HallBench 等基准上超越 LLaVA 和其他 VLA 基线