提出 CollabVLA，一种自反思型视觉-语言-动作（VLA）框架，将标准视觉运动策略转变为协作型助手

论文详情

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human

2025-09-18 · 原文 · 翻译 · 2509.14889

提出 CollabVLA，一种自反思型视觉-语言-动作（VLA）框架，将标准视觉运动策略转变为协作型助手解决现有VLA的三大局限：域过拟合、推理不可解释、辅助生成模型高延迟通过集成基于VLM的反思推理与基于扩散的动作生成，实现显式自反思并在不确定性时主动寻求人类指导

5 分钟读完 6 张阅读卡清华大学计算机科学与技术系

一眼看懂封面预览

提出 CollabVLA，一种自反思型视觉-语言-动作（VLA）框架，将标准视觉运动策略转变为协作型助手

提出 CollabVLA，一种自反思型视觉-语言-动作（VLA）框架，将标准视觉运动策略转变为协作型助手
解决现有VLA的三大局限：域过拟合、推理不可解释、辅助生成模型高延迟
通过集成基于VLM的反思推理与基于扩散的动作生成，实现显式自反思并在不确定性时主动寻求人类指导

Card 01 研究单位

研究单位

清华大学计算机科学与技术系

Card 02 论文概述

论文概述

提出 CollabVLA，一种自反思型视觉-语言-动作（VLA）框架，将标准视觉运动策略转变为协作型助手
解决现有VLA的三大局限：域过拟合、推理不可解释、辅助生成模型高延迟
通过集成基于VLM的反思推理与基于扩散的动作生成，实现显式自反思并在不确定性时主动寻求人类指导

Card 03 核心贡献

核心贡献

系统分析了直接自回归VLA、潜在动作公式与显式世界模型方法之间的权衡，突出轻量级人在回路指导的缺失机会
引入 CollabVLA，采用混合专家（MoE）自适应的协作VLA框架，使标准视觉运动策略具备推理、行动和与人类交互的能力
证明CollabVLA在提高成功率、保持低延迟的同时，能有效扩展自反思以获取及时的人类指导
将归一化Time降低约2倍，Dream次数降低约4倍，相比生成式智能体

Card 04 方法描述

方法描述

两阶段训练流程：(1) 动作 grounding 阶段，在潜在动作表示上训练VLM驱动的动作策略；(2) 反思微调 阶段，统一场景理解与动作生成，强化鲁棒内部反思推理
MoE自适应架构：在VLM主干中插入Control Expert和Reflection Expert两个LoRA专家，通过自适应门控机制在常规控制与不确定性反思之间切换
扩散动作模型：采用DiT（Diffusion Transformer）作为动作生成器，利用潜在动作token和反思嵌入通过FiLM进行条件生成
推理机制：执行reflect-ask/act两阶段循环，根据二元询问指示器决定是否向人类展示反思并获取指导

Card 05 数据集与资源

数据集与资源

多模态目标预训练数据：结合Interleave-VLA和MDT的数据管道，包含交错多模态提示和目标图像增强
反思增强微调数据：扩展InstructVLA管道，包含Context Reflection任务，合成困难案例（插入无关帧、添加感知歧义、扰动动作标签）
评估数据集：MMMU、MMStar、OCRBench、HallBench、TextVQA、DocVQA、InfoVQA、RealWorldQA、自建的ContextReflection集（500例）、Simpler-Collab模拟套件（200任务）
模型规模：基于InternVL2.5-4B构建

Card 06 评估与结果

评估与结果

多模态理解：在ContextReflection集上达到88.6%，在VQA基准上保持与强MLLM相当的性能，显著优于其他VLA（如DiVLA、ChatVLA）
模拟实验：在Simpler-Collab基准上，CollabVLA在Fetch和WidowX机器人上取得最高成功率（如Pick Item达58.5%，Open/Close Drawer达63.8%），归一化Time为36，Dream次数为1.9
消融研究：No-MoE、No-Ref、No-FiLM、No-Ask、No-MG等变体性能均下降，验证各组件贡献
关键指标：成功率（SR）、平均完成长度（LEN）、归一化Time、Dream次数（显式推理生成或人类询问调用次数）