一眼看懂
封面预览
提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手
- 提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手
- 解决现有VLA的三大局限:域过拟合、推理不可解释、辅助生成模型高延迟
- 通过集成基于VLM的反思推理与基于扩散的动作生成,实现显式自反思并在不确定性时主动寻求人类指导
Card 01
研究单位
研究单位
- 清华大学计算机科学与技术系
Card 02
论文概述
论文概述
- 提出 CollabVLA,一种自反思型视觉-语言-动作(VLA)框架,将标准视觉运动策略转变为协作型助手
- 解决现有VLA的三大局限:域过拟合、推理不可解释、辅助生成模型高延迟
- 通过集成基于VLM的反思推理与基于扩散的动作生成,实现显式自反思并在不确定性时主动寻求人类指导
Card 03
核心贡献
核心贡献
- 系统分析了直接自回归VLA、潜在动作公式与显式世界模型方法之间的权衡,突出轻量级人在回路指导的缺失机会
- 引入 CollabVLA,采用混合专家(MoE)自适应的协作VLA框架,使标准视觉运动策略具备推理、行动和与人类交互的能力
- 证明CollabVLA在提高成功率、保持低延迟的同时,能有效扩展自反思以获取及时的人类指导
- 将归一化Time降低约2倍,Dream次数降低约4倍,相比生成式智能体
Card 04
方法描述
方法描述
- 两阶段训练流程:(1) 动作 grounding 阶段,在潜在动作表示上训练VLM驱动的动作策略;(2) 反思微调 阶段,统一场景理解与动作生成,强化鲁棒内部反思推理
- MoE自适应架构:在VLM主干中插入Control Expert和Reflection Expert两个LoRA专家,通过自适应门控机制在常规控制与不确定性反思之间切换
- 扩散动作模型:采用DiT(Diffusion Transformer)作为动作生成器,利用潜在动作token和反思嵌入通过FiLM进行条件生成
- 推理机制:执行reflect-ask/act两阶段循环,根据二元询问指示器决定是否向人类展示反思并获取指导
Card 05
数据集与资源
数据集与资源
- 多模态目标预训练数据:结合Interleave-VLA和MDT的数据管道,包含交错多模态提示和目标图像增强
- 反思增强微调数据:扩展InstructVLA管道,包含Context Reflection任务,合成困难案例(插入无关帧、添加感知歧义、扰动动作标签)
- 评估数据集:MMMU、MMStar、OCRBench、HallBench、TextVQA、DocVQA、InfoVQA、RealWorldQA、自建的ContextReflection集(500例)、Simpler-Collab模拟套件(200任务)
- 模型规模:基于InternVL2.5-4B构建
Card 06
评估与结果
评估与结果
- 多模态理解:在ContextReflection集上达到88.6%,在VQA基准上保持与强MLLM相当的性能,显著优于其他VLA(如DiVLA、ChatVLA)
- 模拟实验:在Simpler-Collab基准上,CollabVLA在Fetch和WidowX机器人上取得最高成功率(如Pick Item达58.5%,Open/Close Drawer达63.8%),归一化Time为36,Dream次数为1.9
- 消融研究:No-MoE、No-Ref、No-FiLM、No-Ask、No-MG等变体性能均下降,验证各组件贡献
- 关键指标:成功率(SR)、平均完成长度(LEN)、归一化Time、Dream次数(显式推理生成或人类询问调用次数)