ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

一眼看懂封面预览

提出 ThinkAct，一个双系统框架，通过强化视觉潜在规划（Reinforced Visual Latent Planning）连接高层推理…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 ThinkAct，一个双系统框架，通过强化视觉潜在规划（Reinforced Visual Latent Planning）连接高层推理与低层动作执行。
旨在解决复杂的视觉-语言-动作（VLA）推理任务，这些任务需要长时程规划、适应动态环境并进行多步推理，而现有端到端模型在此能力上存在局限。

Card 03 核心贡献

提出 ThinkAct 框架，通过视觉潜在规划，协同增强动作执行与视觉接地的具身推理能力。
利用基于目标完成度和轨迹一致性的动作对齐视觉反馈（action-aligned visual feedback）设计奖励机制，激励模型在具身场景中进行长时程推理。
通过强化学习（Group Relative Policy Optimization，GRPO）微调多模态大语言模型，以生成具身推理计划，并将其压缩为紧凑的视觉计划潜在表示。
该框架使下游动作模型能适应新环境，实现了在复杂具身AI任务中的小样本适应、长时程规划和自我纠正能力。

Card 04 方法描述

核心是一个双系统架构：一个推理多模态大语言模型（Reasoning MLLM）和一个动作模型。
推理模块（MLLM）接收视觉观察和文本指令，通过强化学习生成推理步骤，并输出一个视觉计划潜在（visual plan latent），该潜在表示编码了高级空间-时间规划意图。
动作模块（基于DiT的扩散策略）以推理模块生成的视觉计划潜能为条件，预测可执行的动作序列。
关键技术包括：动作对齐的视觉奖励（包含目标奖励和轨迹奖励）、GRPO强化微调、以及使用Q-Former作为潜在投影器连接推理与执行模块。

Card 05 数据集与资源

训练数据集：Open X-Embodiment (OXE) 数据集子集、RoboVQA、EgoPlan-IT/Val、Video-R1-CoT、Reflect (RoboFail)、LLaVA-Video-178K 和 Something-Something v2。
模型规模：推理MLLM基于 Qwen2.5-VL 7B 模型；动作模型为 DiT-based policy，包含 4.32亿 参数。
训练资源：实验在 16 块 NVIDIA A100 GPU（80GB内存） 上进行。

Card 06 评估与结果

评估环境与基准：在机器人操作基准 SimplerEnv 和 LIBERO，以及具身推理基准 EgoPlan-Bench2、RoboVQA 和 OpenEQA 上进行评估。
主要评估指标：机器人任务成功率、多选题准确率、BLEU 分数和 LLM-based 评分。
关键实验结果：

- 在 SimplerEnv 上，ThinkAct 总体成功率显著优于基线（DiT-Policy）和现有先进方法（如 CoT-VLA, Magma）。

- 在 LIBERO 上取得 84.4% 的总体成功率，超越所有对比方法。

- 在 EgoPlan-Bench2、RoboVQA 和 OpenEQA 三个具身推理基准上均取得了最先进的性能。

- 消融实验证明了所提出的目标奖励和轨迹奖励对提升性能的关键作用。