论文针对在高度复杂动态环境（如3D开放世界、大规模PvP游戏）中，现有视觉-语言-行动 (VLA) 模型难以从冗余传感器流中高效提取关键决策…

论文详情

MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models

2026-02-02 · 原文 · 翻译 · 2602.02212

论文针对在高度复杂动态环境（如3D开放世界、大规模PvP游戏）中，现有视觉-语言-行动 (VLA) 模型难以从冗余传感器流中高效提取关键决策信号的问题。提出了 MAIN-VLA 框架，通过显式建模意图抽象和环境语义抽象，使决策基于深度语义对齐，而非表面的模式匹配。核心目标是将冗长的指令和复杂的视觉流过滤、对齐为稀疏、可执行的原语，从而提升在复杂动态环境中的决策质量、泛化能力和推理效率。

5 分钟读完 6 张阅读卡作者所属机构在原文HTML中未明确标注。

一眼看懂封面预览

论文针对在高度复杂动态环境（如3D开放世界、大规模PvP游戏）中，现有视觉-语言-行动 (VLA) 模型难以从冗余传感器流中高效提取关键决策…

论文针对在高度复杂动态环境（如3D开放世界、大规模PvP游戏）中，现有视觉-语言-行动 (VLA) 模型难以从冗余传感器流中高效提取关键决策…
提出了 MAIN-VLA 框架，通过显式建模意图抽象和环境语义抽象，使决策基于深度语义对齐，而非表面的模式匹配。
核心目标是将冗长的指令和复杂的视觉流过滤、对齐为稀疏、可执行的原语，从而提升在复杂动态环境中的决策质量、泛化能力和推理效率。

Card 01 研究单位

研究单位

作者所属机构在原文HTML中未明确标注。

Card 02 论文概述

论文概述

论文针对在高度复杂动态环境（如3D开放世界、大规模PvP游戏）中，现有 视觉-语言-行动 (VLA) 模型难以从冗余传感器流中高效提取关键决策信号的问题。
提出了 MAIN-VLA 框架，通过显式建模 意图抽象 和 环境语义抽象，使决策基于深度语义对齐，而非表面的模式匹配。
核心目标是将冗长的指令和复杂的视觉流过滤、对齐为稀疏、可执行的原语，从而提升在复杂动态环境中的决策质量、泛化能力和推理效率。

Card 03 核心贡献

核心贡献

提出了 MAIN-VLA 框架，该框架通过双路径抽象机制（IA和ESA），模仿人脑的“意识瓶颈”，将决策建立在深度语义对齐之上。
设计了 意图抽象 (IA) 模块，将冗长的指令和推理过程压缩为紧凑、明确的语义原语，使智能体能理解潜在的战略意图，而非依赖短语匹配。
设计了 环境语义抽象 (ESA) 模块，将高维视觉流投影为结构化的、稀疏的拓扑功能表示（如语义地图），优先编码任务关键的 affordance，舍弃无关的纹理细节。
框架自然涌现出参数无关的 令牌修剪 能力，能在推理时过滤感知冗余，实现实时推理速度且性能损失可忽略。

Card 04 方法描述

方法描述

采用统一因果 Transformer 作为骨干网络，通过在动作令牌之后放置抽象令牌来实现“事后监督”，迫使模型在执行动作前的隐藏状态中嵌入推理逻辑。
意图抽象 (IA) 通过专家模型自动生成意图关键词序列作为训练目标，并通过“事后意图对齐”目标函数迫使模型内部表征包含充足的语义信息以恢复意图。
环境语义抽象 (ESA) 使用开放词汇分割模型生成语义地图，并通过基于战术优先级的语义池化策略下采样为低分辨率语义网格，最后将其标记化为序列令牌进行自回归重建。
涌现令牌修剪 基于注意力集中效应，计算每个视觉令牌的连通性得分，在推理时仅保留top-k个高分令牌，以过滤背景噪声。

Card 05 数据集与资源

数据集与资源

使用 Minecraft (MCU基准，超800个任务) 、 Game for Peace (和平精英，6项原子任务) 和 Valorant (战术射击基准) 作为评估环境。
基础模型为 Qwen2-VL-7B，在不同环境分别使用约50小时和200小时的游玩数据进行微调。
训练分布在 8个 NVIDIA H20 GPU 上，推理在 单个 NVIDIA L40S GPU 上进行评估。

Card 06 评估与结果

评估与结果

在 Minecraft 所有任务类别（Embodied, Combat, GUI）上，MAIN-VLA 在成功率和执行步数上均达到 SOTA，尤其在战斗任务中成功率领先近10%。
在 Game for Peace 基准上，MAIN-VLA 平均成功率达 67.9%，推理延迟仅 0.3秒，显著优于GPT-4o等专有模型和开源VLA基线。
消融实验证实，IA 和 ESA 模块对性能提升均有关键贡献，且模型在启用了涌现令牌修剪后仍能保持高性能。
模型在 零样本泛化 和对抗视觉干扰的鲁棒性测试中表现出色，证明了其学习到的语义表示具有较好的泛化能力。