返回列表 VLA / Vision-Language-Action 每日论文卡
TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models
论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂…

论文详情

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

2026-03-25 · 原文 · 翻译 · 2603.24584

论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂乱场景中的实例级目标定位鲁棒性。 论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误(如抓取错误物体或偏离目标),而非动作不可行。 目标是通过显式抑制干扰物和外观诱导偏差,增强VLA策略的稳定性,同时不改变模型架构。

5 分钟读完 6 张阅读卡 Sun Yat-sen University
一眼看懂 封面预览

论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂…

  • 论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂…
  • 论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误(如抓取错误物体或偏离目标),而非动作不可行。
  • 目标是通过显式抑制干扰物和外观诱导偏差,增强VLA策略的稳定性,同时不改变模型架构。
Card 01 研究单位

研究单位

  • Sun Yat-sen University
  • Guangdong Key Lab of Big Data Analysis & Processing
  • X-Era AI Lab
Card 02 论文概述

论文概述

  • 论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂乱场景中的实例级目标定位鲁棒性。
  • 论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误(如抓取错误物体或偏离目标),而非动作不可行。
  • 目标是通过显式抑制干扰物和外观诱导偏差,增强VLA策略的稳定性,同时不改变模型架构。
Card 03 核心贡献

核心贡献

  • 识别并定义了VLA策略在视觉干扰下的主要鲁棒性瓶颈,即系统性的近偏和错误物体执行。
  • 提出了TAG,一种受无分类器引导(CFG)启发的轻量级推理时视觉引导机制,通过目标存在与移除观测间的残差对比来抑制干扰。
  • LIBEROLIBERO-PlusVLABench三个基准上验证了TAG的有效性,展示了在成功率和视觉鲁棒性上的一致性提升。
Card 04 方法描述

方法描述

  • TAG的核心思想是在推理时对比策略在原始观测图像和“目标不可知”基线图像下的预测,利用其差异作为残差引导信号。
  • 提出了三种构建无条件图像\( I_{\text{uncond}} \)的变体:纯背景图像\( I_{\text{bg}} \)、目标擦除图像\( I_{\text{erase}} \)和纯黑图像\( I_{\text{black}} \)。
  • 训练时,以0.1的概率随机将输入替换为\( I_{\text{erase}} \)进行校准,使模型学习稳定的“干扰先验”,从而让推理时的残差信号更有效。
  • 开发了一套反事实合成管道,利用Qwen3-VLGrounding DINOSAM 2MiniMaxRemover等模型自动生成目标被移除的视频序列。
Card 05 数据集与资源

数据集与资源

  • 评估数据集包括LIBEROLIBERO-PlusVLABench (Track 1)。
  • 基础模型采用π₀π₀.₅,其视觉语言骨干基于Gemma
  • 训练总步数为30,000步,批量大小为24-32。
  • 所有训练和测试均在单块NVIDIA RTX PRO 6000 GPU上完成。
Card 06 评估与结果

评估与结果

  • LIBERO基准上,TAG-bg使基线模型π₀.₅的平均成功率从95.2%提升至97.9%,尤其在长视野任务(LIBERO-Long)上提升显著(89.6% → 97.0%)。
  • LIBERO-Plus鲁棒性基准上,TAG-black取得了最高的平均成功率(87.2%),相比基线提升5.8%,在相机视角变化和光照变化等挑战性设置下改善明显。
  • VLABench高精度选择任务中,应用TAG-bg后,π₀.₅的平均成功率从29.40%大幅提升至55.41%,过程分数(PS)也有显著提高,证明了方法在抑制视觉干扰方面的有效性。