返回列表 VLA / Vision-Language-Action 每日论文卡
CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human
提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手

论文详情

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human

2025-09-18 · 原文 · 翻译 · 2509.14889

提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手 解决现有VLA的三大局限:域过拟合、推理不可解释、辅助生成模型高延迟 通过集成基于VLM的反思推理与基于扩散的动作生成,实现显式自反思并在不确定性时主动寻求人类指导

5 分钟读完 6 张阅读卡 清华大学计算机科学与技术系
一眼看懂 封面预览

提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手

  • 提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手
  • 解决现有VLA的三大局限:域过拟合、推理不可解释、辅助生成模型高延迟
  • 通过集成基于VLM的反思推理与基于扩散的动作生成,实现显式自反思并在不确定性时主动寻求人类指导
Card 01 研究单位

研究单位

  • 清华大学计算机科学与技术系
Card 02 论文概述

论文概述

  • 提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手
  • 解决现有VLA的三大局限:域过拟合、推理不可解释、辅助生成模型高延迟
  • 通过集成基于VLM的反思推理与基于扩散的动作生成,实现显式自反思并在不确定性时主动寻求人类指导
Card 03 核心贡献

核心贡献

  • 系统分析了直接自回归VLA、潜在动作公式与显式世界模型方法之间的权衡,突出轻量级人在回路指导的缺失机会
  • 引入 CollabVLA,采用混合专家(MoE)自适应的协作VLA框架,使标准视觉运动策略具备推理、行动和与人类交互的能力
  • 证明CollabVLA在提高成功率、保持低延迟的同时,能有效扩展自反思以获取及时的人类指导
  • 将归一化Time降低约2倍Dream次数降低约4倍,相比生成式智能体
Card 04 方法描述

方法描述

  • 两阶段训练流程:(1) 动作 grounding 阶段,在潜在动作表示上训练VLM驱动的动作策略;(2) 反思微调 阶段,统一场景理解与动作生成,强化鲁棒内部反思推理
  • MoE自适应架构:在VLM主干中插入Control ExpertReflection Expert两个LoRA专家,通过自适应门控机制在常规控制与不确定性反思之间切换
  • 扩散动作模型:采用DiT(Diffusion Transformer)作为动作生成器,利用潜在动作token和反思嵌入通过FiLM进行条件生成
  • 推理机制:执行reflect-ask/act两阶段循环,根据二元询问指示器决定是否向人类展示反思并获取指导
Card 05 数据集与资源

数据集与资源

  • 多模态目标预训练数据:结合Interleave-VLAMDT的数据管道,包含交错多模态提示和目标图像增强
  • 反思增强微调数据:扩展InstructVLA管道,包含Context Reflection任务,合成困难案例(插入无关帧、添加感知歧义、扰动动作标签)
  • 评估数据集:MMMU、MMStar、OCRBench、HallBench、TextVQA、DocVQA、InfoVQA、RealWorldQA、自建的ContextReflection集(500例)、Simpler-Collab模拟套件(200任务)
  • 模型规模:基于InternVL2.5-4B构建
Card 06 评估与结果

评估与结果

  • 多模态理解:在ContextReflection集上达到88.6%,在VQA基准上保持与强MLLM相当的性能,显著优于其他VLA(如DiVLA、ChatVLA)
  • 模拟实验:在Simpler-Collab基准上,CollabVLA在Fetch和WidowX机器人上取得最高成功率(如Pick Item达58.5%,Open/Close Drawer达63.8%),归一化Time为36,Dream次数为1.9
  • 消融研究:No-MoE、No-Ref、No-FiLM、No-Ask、No-MG等变体性能均下降,验证各组件贡献
  • 关键指标:成功率(SR)、平均完成长度(LEN)、归一化Time、Dream次数(显式推理生成或人类询问调用次数)