论文提出TAG (Target-Agnostic Guidance)，一种针对视觉-语言-动作(VLA)模型的推理时引导机制，旨在提升模型在杂…

论文详情

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

2026-03-25 · 原文 · 翻译 · 2603.24584

论文提出TAG (Target-Agnostic Guidance)，一种针对视觉-语言-动作(VLA)模型的推理时引导机制，旨在提升模型在杂乱场景中的实例级目标定位鲁棒性。论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误（如抓取错误物体或偏离目标），而非动作不可行。目标是通过显式抑制干扰物和外观诱导偏差，增强VLA策略的稳定性，同时不改变模型架构。

5 分钟读完 6 张阅读卡 Sun Yat-sen University

一眼看懂封面预览

论文提出TAG (Target-Agnostic Guidance)，一种针对视觉-语言-动作(VLA)模型的推理时引导机制，旨在提升模型在杂…

论文提出TAG (Target-Agnostic Guidance)，一种针对视觉-语言-动作(VLA)模型的推理时引导机制，旨在提升模型在杂…
论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误（如抓取错误物体或偏离目标），而非动作不可行。
目标是通过显式抑制干扰物和外观诱导偏差，增强VLA策略的稳定性，同时不改变模型架构。

Card 01 研究单位

研究单位

Sun Yat-sen University
Guangdong Key Lab of Big Data Analysis & Processing
X-Era AI Lab

Card 02 论文概述

论文概述

论文提出TAG (Target-Agnostic Guidance)，一种针对视觉-语言-动作(VLA)模型的推理时引导机制，旨在提升模型在杂乱场景中的实例级目标定位鲁棒性。
论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误（如抓取错误物体或偏离目标），而非动作不可行。
目标是通过显式抑制干扰物和外观诱导偏差，增强VLA策略的稳定性，同时不改变模型架构。

Card 03 核心贡献

核心贡献

识别并定义了VLA策略在视觉干扰下的主要鲁棒性瓶颈，即系统性的近偏和错误物体执行。
提出了TAG，一种受无分类器引导(CFG)启发的轻量级推理时视觉引导机制，通过目标存在与移除观测间的残差对比来抑制干扰。
在LIBERO、LIBERO-Plus和VLABench三个基准上验证了TAG的有效性，展示了在成功率和视觉鲁棒性上的一致性提升。

Card 04 方法描述

方法描述

TAG的核心思想是在推理时对比策略在原始观测图像和“目标不可知”基线图像下的预测，利用其差异作为残差引导信号。
提出了三种构建无条件图像\( I_{\text{uncond}} \)的变体：纯背景图像\( I_{\text{bg}} \)、目标擦除图像\( I_{\text{erase}} \)和纯黑图像\( I_{\text{black}} \)。
训练时，以0.1的概率随机将输入替换为\( I_{\text{erase}} \)进行校准，使模型学习稳定的“干扰先验”，从而让推理时的残差信号更有效。
开发了一套反事实合成管道，利用Qwen3-VL、Grounding DINO、SAM 2和MiniMaxRemover等模型自动生成目标被移除的视频序列。

Card 05 数据集与资源

数据集与资源

评估数据集包括LIBERO、LIBERO-Plus和VLABench (Track 1)。
基础模型采用π₀和π₀.₅，其视觉语言骨干基于Gemma。
训练总步数为30，000步，批量大小为24-32。
所有训练和测试均在单块NVIDIA RTX PRO 6000 GPU上完成。

Card 06 评估与结果

评估与结果

在LIBERO基准上，TAG-bg使基线模型π₀.₅的平均成功率从95.2%提升至97.9%，尤其在长视野任务(LIBERO-Long)上提升显著(89.6% → 97.0%)。
在LIBERO-Plus鲁棒性基准上，TAG-black取得了最高的平均成功率(87.2%)，相比基线提升5.8%，在相机视角变化和光照变化等挑战性设置下改善明显。
在VLABench高精度选择任务中，应用TAG-bg后，π₀.₅的平均成功率从29.40%大幅提升至55.41%，过程分数(PS)也有显著提高，证明了方法在抑制视觉干扰方面的有效性。