返回列表 VLA / Vision-Language-Action 每日论文卡
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
提出 Fast-ThinkAct,一种高效的视觉-语言-动作 (VLA) 推理框架,通过可表达潜在规划实现紧凑且高性能的规划能力

论文详情

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

2026-01-14 · 原文 · 翻译 · 2601.09708

提出 Fast-ThinkAct,一种高效的视觉-语言-动作 (VLA) 推理框架,通过可表达潜在规划实现紧凑且高性能的规划能力 解决现有推理 VLA 模型面临的高推理延迟问题——传统方法需要生成冗长的链式思考 (CoT) 文本(约 250 tokens),导致推理速度仅约 0.1 Hz,无法满足实时机器人操作需求(1-15 Hz) 核心创新:将语言和视觉规划能力压缩到紧凑的连续潜在表示中,同时保持强大的长程规划、…

6 分钟读完 6 张阅读卡 NVIDIA
一眼看懂 封面预览

提出 Fast-ThinkAct,一种高效的视觉-语言-动作 (VLA) 推理框架,通过可表达潜在规划实现紧凑且高性能的规划能力

  • 提出 Fast-ThinkAct,一种高效的视觉-语言-动作 (VLA) 推理框架,通过可表达潜在规划实现紧凑且高性能的规划能力
  • 解决现有推理 VLA 模型面临的高推理延迟问题——传统方法需要生成冗长的链式思考 (CoT) 文本(约 250 tokens),导致推理速度仅…
  • 核心创新:将语言和视觉规划能力压缩到紧凑的连续潜在表示中,同时保持强大的长程规划、少样本适应和失败恢复能力
Card 01 研究单位

研究单位

  • NVIDIA
  • 卡内基梅隆大学 (Carnegie Mellon University)
  • 其他 affiliations 已在论文中标注(具体机构信息需查看原始论文)
Card 02 论文概述

论文概述

  • 提出 Fast-ThinkAct,一种高效的视觉-语言-动作 (VLA) 推理框架,通过可表达潜在规划实现紧凑且高性能的规划能力
  • 解决现有推理 VLA 模型面临的高推理延迟问题——传统方法需要生成冗长的链式思考 (CoT) 文本(约 250 tokens),导致推理速度仅约 0.1 Hz,无法满足实时机器人操作需求(1-15 Hz)
  • 核心创新:将语言和视觉规划能力压缩到紧凑的连续潜在表示中,同时保持强大的长程规划、少样本适应和失败恢复能力
Card 03 核心贡献

核心贡献

  • 提出 Fast-ThinkAct 高效推理框架,将推理压缩到可表达的潜在思考中,同时保持表达能力
  • 引入基于奖励偏好的偏好蒸馏方法,结合操作轨迹对齐,将语言和视觉规划压缩到紧凑的连续潜在向量
  • 通过推理增强策略学习,将高层视觉规划与低层动作执行连接
  • 在各类具体化基准测试中实现高达 89.3% 的推理延迟降低,同时保持强大性能
Card 04 方法描述

方法描述

  • 师生框架:文本教师模型 $\mathcal{F}_{\theta}^{T}$ 通过 GRPO 训练生成显式推理链,学生模型 $\mathcal{F}_{\theta}$ 将推理蒸馏到紧凑潜在表示
  • 可表达潜在 CoT:引入 Verbalizer LLM 将潜在向量解码为文本,基于 DPO 风格的偏好损失 $\mathcal{L}_{verb}$ 引导学生编码高质量推理模式
  • 动作对齐视觉规划蒸馏:通过 L2 距离对齐教师和学生 hidden states,传递视觉规划能力;使用空间 tokens 并行预测轨迹路点
  • 推理增强策略学习:将学生 VLM 的视觉潜在规划(从空间 tokens 的 KV cache 提取)连接到扩散 Transformer 动作模型(如 RDT、DiT-Policy),通过模仿学习目标训练动作预测
Card 05 数据集与资源

数据集与资源

  • VLM backbone: Qwen2.5-VL 3B
  • 训练数据: RoboFAC、RoboVQA、ShareRobot、EgoPlan-Bench、Video-R1-CoT、PixMo、OXE(动作数据)、Aloha(双机械臂数据)
  • 评估基准:

- 机器人操作: SimplerEnv、LIBERO(包含 Spatial/Object/Goal/Long 子任务)、RoboTwin2.0

- 具体化推理: EgoPlan-Bench2、RoboVQA、OpenEQA、RoboFAC

  • 硬件: 16 张 NVIDIA A100 GPU(每张 80GB 内存)
Card 06 评估与结果

评估与结果

  • 推理延迟: 相比 ThinkAct-7B 降低 89.3%,相比 MolmoAct-7B 降低 88.0%,比 ThinkAct-3B 快 7 倍
  • 机器人操作: 在 LIBERO 和 SimplerEnv 所有子任务中达到最高成功率,优于 OpenVLA、CoT-VLA、ThinkAct、MolmoAct 等基线;在 RoboTwin2.0 双机械臂任务中,Easy 模式下比 RDT 提升 9.3%,Hard 模式下提升 3.6%
  • 具体化推理: 在 EgoPlan-Bench2、RoboVQA、OpenEQA 上超越所有对比方法,包括 GPT-4V 和 Gemini-2.5-Flash 等专有模型
  • 长程规划: RoboTwin2.0 长程任务(>270 步)中,Easy/Hard 模式分别达到 48.8/16.8,显著超越 RDT 和 ThinkAct
  • 失败恢复: RoboFAC 基准上比 RoboFAC-3B 在模拟环境提升 10.9 分,在真实机器人环境提升 16.4 分