返回列表 VLA / Vision-Language-Action 每日论文卡
CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models
论文提出了 CoMaTrack,一个用于具身视觉跟踪(EVT)的竞争性多智能体博弈论强化学习框架,旨在解决现有单一智能体模仿学习方法依赖昂贵专…

论文详情

CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

2026-03-24 · 原文 · 翻译 · 2603.22846

论文提出了 CoMaTrack,一个用于具身视觉跟踪(EVT)的竞争性多智能体博弈论强化学习框架,旨在解决现有单一智能体模仿学习方法依赖昂贵专家数据、泛化能力有限的问题。 研究的核心是将EVT任务从静态环境下的单智能体追逐,重新定义为一个动态对抗的多智能体博弈过程,通过对手策略动态提升任务难度,训练出更强健、具有抗干扰能力的跟踪策略。 论文同时发布了 CoMaTrack-Bench,这是首个用于竞争性EVT的开源基…

5 分钟读完 6 张阅读卡 作者所属机构为 Amap, Alibaba Group。
一眼看懂 封面预览

论文提出了 CoMaTrack,一个用于具身视觉跟踪(EVT)的竞争性多智能体博弈论强化学习框架,旨在解决现有单一智能体模仿学习方法依赖昂贵专…

  • 论文提出了 CoMaTrack,一个用于具身视觉跟踪(EVT)的竞争性多智能体博弈论强化学习框架,旨在解决现有单一智能体模仿学习方法依赖昂贵专…
  • 研究的核心是将EVT任务从静态环境下的单智能体追逐,重新定义为一个动态对抗的多智能体博弈过程,通过对手策略动态提升任务难度,训练出更强健、具有…
  • 论文同时发布了 CoMaTrack-Bench,这是首个用于竞争性EVT的开源基准,包含跟踪智能体与自适应对手的动态对抗场景,用于标准化的鲁棒…
Card 01 研究单位

研究单位

  • 作者所属机构为 Amap, Alibaba Group
Card 02 论文概述

论文概述

  • 论文提出了 CoMaTrack,一个用于具身视觉跟踪(EVT)的竞争性多智能体博弈论强化学习框架,旨在解决现有单一智能体模仿学习方法依赖昂贵专家数据、泛化能力有限的问题。
  • 研究的核心是将EVT任务从静态环境下的单智能体追逐,重新定义为一个动态对抗的多智能体博弈过程,通过对手策略动态提升任务难度,训练出更强健、具有抗干扰能力的跟踪策略。
  • 论文同时发布了 CoMaTrack-Bench,这是首个用于竞争性EVT的开源基准,包含跟踪智能体与自适应对手的动态对抗场景,用于标准化的鲁棒性评估。
Card 03 核心贡献

核心贡献

  • 首次将多智能体竞争博弈论与强化学习融合到EVT任务中,设计了一个智能体-对手-环境共同进化的训练循环,使紧凑的 3B参数模型 性能超越了此前基于 7B模型 的单智能体方法。
  • 开源了 CoMaTrack-Bench,首个多智能体对抗性EVT基准,包含静态障碍、随机干扰和竞争性跟踪三种渐进式对手行为,填补了现有基准缺乏主动对抗场景的空白。
  • 提出的竞争博弈训练范式具有良好的可扩展性,可以自然地扩展到其他视觉-语言-动作具身任务,以解决分布外泛化问题。
Card 04 方法描述

方法描述

  • CoMaTrack 是一个端到端的视觉-语言-动作模型,基于视频视觉语言模型骨干 Qwen2.5VL-3B 构建,并集成流匹配动作模块来预测未来轨迹。
  • 训练流程分为两阶段:首先在多任务导航、跟踪和VQA数据上进行监督微调;然后使用 GRPO 算法进行多智能体竞争性强化学习训练。
  • 创新性地设计了不对称奖励函数:跟踪智能体奖励维持标准跟踪目标并增加对手感知安全项;对手智能体奖励鼓励其更激进地接近目标以制造对抗,从而形成自我强化的“军备竞赛”。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集包括:用于跟踪任务的 EVT-Bench(包含STT、DT、AT任务)、用于场景的 HM3DMP3D、用于视觉问答的 ScanQALLaVA-Pretrain、用于语言理解的 RefCOCOFlickr30k,以及用于多任务导航的 R2R-CERxR-CEHM3D ObjectNavHM3D OVON
  • 模型基础为 Qwen2.5VL-3B,参数量为 3B
  • 监督微调阶段使用 48块 NVIDIA H20 GPU,多智能体强化学习阶段使用 4块 NVIDIA L20 GPU
Card 06 评估与结果

评估与结果

  • 评估环境为 EVT-Bench 和本文新提出的 CoMaTrack-Bench
  • 主要评估指标为成功率、跟踪率和碰撞率。
  • 关键实验结果显示:

- 在 EVT-Bench 上,CoMaTrack(3B)在STT、DT、AT任务上均达到最优,其中STT成功率为 92.1%,DT为 74.2%,AT为 57.5%,全面超越了此前基于7B模型的最强基线 TrackVLA++

- 在更具挑战性的 CoMaTrack-Bench 上,CoMaTrack 实现了 85.0% 的成功率和 82.9% 的跟踪率,大幅领先基线方法。

- 消融实验表明,多智能体竞争训练相比单智能体强化学习,能显著降低碰撞率(从 2.2% 降至 0.9%),证明了其在学习安全、鲁棒策略方面的有效性。