Hume: Introducing System-2 Thinking in Visual-Language-Action Model

论文详情

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

2025-05-27 · 原文 · 翻译 · 2505.21432

提出一个双系统视觉-语言-动作模型 Hume，引入系统2慢思考范式，用于灵巧机器人控制。旨在解决通用机器人策略在处理复杂物理世界任务时缺乏有效思考和推理能力的问题。核心目标是通过价值引导的思考和级联动作去噪，提升VLA模型在复杂、灵巧任务中的表现。

4 分钟读完 6 张阅读卡上海交通大学

一眼看懂封面预览

提出一个双系统视觉-语言-动作模型 Hume，引入系统2慢思考范式，用于灵巧机器人控制。

提出一个双系统视觉-语言-动作模型 Hume，引入系统2慢思考范式，用于灵巧机器人控制。
旨在解决通用机器人策略在处理复杂物理世界任务时缺乏有效思考和推理能力的问题。
核心目标是通过价值引导的思考和级联动作去噪，提升VLA模型在复杂、灵巧任务中的表现。

Card 01 研究单位

研究单位

上海交通大学
上海人工智能实验室
复旦大学
AgiBot
索菲亚大学INSAIT
浙江大学
西北工业大学

Card 02 论文概述

论文概述

提出一个双系统视觉-语言-动作模型 Hume，引入系统2慢思考范式，用于灵巧机器人控制。
旨在解决通用机器人策略在处理复杂物理世界任务时缺乏有效思考和推理能力的问题。
核心目标是通过价值引导的思考和级联动作去噪，提升VLA模型在复杂、灵巧任务中的表现。

Card 03 核心贡献

核心贡献

提出双系统通用机器人策略 Hume，探索视觉-语言-动作模型的系统2慢思考范式。
引入新颖的价值引导思考和级联动作去噪机制，无缝结合低频系统2与高频系统1。
在多个基准和真实机器人测试中实现最先进性能，相较于 π₀ 在 LIBERO 基准上成功率提升 +4.4%，在 Simpler 基准上提升 +25.9%，在真实世界部署中提升 +12.9%。

Card 04 方法描述

方法描述

系统2 基于预训练视觉-语言模型，附加流匹配去噪头和价值查询头，通过重复采样多个动作候选并根据状态-动作价值选择最优动作，实现价值引导的思考。
系统1 是一个轻量级反应式视觉运动策略，接收系统2选择的动作候选，通过单独的轻量级扩散策略执行级联动作去噪，生成流畅的机器人动作。
部署时，系统2以低频率（4 Hz）执行价值引导思考，系统1异步接收动作并以高频率（90 Hz）预测实时动作。

Card 05 数据集与资源

数据集与资源

使用 LIBERO 基准、Simpler 基准和真实世界机器人平台进行评估。
模型基于预训练视觉-语言模型，附加定制头，具体参数量未在原文明确列出。
训练使用离线强化学习方法（如 Calibrated Q-learning），在预收集的机器人演示数据集上进行。

Card 06 评估与结果

评估与结果

评估环境包括 3个仿真基准和 21个真实世界机器人场景，涵盖视点、纹理、光照、布局、未见物体、未见环境以及最具挑战性的人形机器人控制任务。
主要评估指标为任务成功率。
关键实验结果显示，Hume 在所有基准上均显著优于现有最先进的视觉-语言-动作模型，证明了系统2思考范式的有效性。