一眼看懂
封面预览
论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂…
- 论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂…
- 论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误(如抓取错误物体或偏离目标),而非动作不可行。
- 目标是通过显式抑制干扰物和外观诱导偏差,增强VLA策略的稳定性,同时不改变模型架构。
Card 01
研究单位
研究单位
- Sun Yat-sen University
- Guangdong Key Lab of Big Data Analysis & Processing
- X-Era AI Lab
Card 02
论文概述
论文概述
- 论文提出TAG (Target-Agnostic Guidance),一种针对视觉-语言-动作(VLA)模型的推理时引导机制,旨在提升模型在杂乱场景中的实例级目标定位鲁棒性。
- 论文发现VLA模型在复杂场景下的失败主要源于实例级定位错误(如抓取错误物体或偏离目标),而非动作不可行。
- 目标是通过显式抑制干扰物和外观诱导偏差,增强VLA策略的稳定性,同时不改变模型架构。
Card 03
核心贡献
核心贡献
- 识别并定义了VLA策略在视觉干扰下的主要鲁棒性瓶颈,即系统性的近偏和错误物体执行。
- 提出了TAG,一种受无分类器引导(CFG)启发的轻量级推理时视觉引导机制,通过目标存在与移除观测间的残差对比来抑制干扰。
- 在LIBERO、LIBERO-Plus和VLABench三个基准上验证了TAG的有效性,展示了在成功率和视觉鲁棒性上的一致性提升。
Card 04
方法描述
方法描述
- TAG的核心思想是在推理时对比策略在原始观测图像和“目标不可知”基线图像下的预测,利用其差异作为残差引导信号。
- 提出了三种构建无条件图像\( I_{\text{uncond}} \)的变体:纯背景图像\( I_{\text{bg}} \)、目标擦除图像\( I_{\text{erase}} \)和纯黑图像\( I_{\text{black}} \)。
- 训练时,以0.1的概率随机将输入替换为\( I_{\text{erase}} \)进行校准,使模型学习稳定的“干扰先验”,从而让推理时的残差信号更有效。
- 开发了一套反事实合成管道,利用Qwen3-VL、Grounding DINO、SAM 2和MiniMaxRemover等模型自动生成目标被移除的视频序列。
Card 05
数据集与资源
数据集与资源
- 评估数据集包括LIBERO、LIBERO-Plus和VLABench (Track 1)。
- 基础模型采用π₀和π₀.₅,其视觉语言骨干基于Gemma。
- 训练总步数为30,000步,批量大小为24-32。
- 所有训练和测试均在单块NVIDIA RTX PRO 6000 GPU上完成。
Card 06
评估与结果
评估与结果
- 在LIBERO基准上,TAG-bg使基线模型π₀.₅的平均成功率从95.2%提升至97.9%,尤其在长视野任务(LIBERO-Long)上提升显著(89.6% → 97.0%)。
- 在LIBERO-Plus鲁棒性基准上,TAG-black取得了最高的平均成功率(87.2%),相比基线提升5.8%,在相机视角变化和光照变化等挑战性设置下改善明显。
- 在VLABench高精度选择任务中,应用TAG-bg后,π₀.₅的平均成功率从29.40%大幅提升至55.41%,过程分数(PS)也有显著提高,证明了方法在抑制视觉干扰方面的有效性。