返回列表 VLA / Vision-Language-Action 每日论文卡
DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
提出 Distracting Token Pruning (DTP) 框架,用于解决视觉-语言-动作(VLA)模型过度关注任务无关视觉标记("…

论文详情

DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models

2026-01-22 · 原文 · 翻译 · 2601.16065

提出 Distracting Token Pruning (DTP) 框架,用于解决视觉-语言-动作(VLA)模型过度关注任务无关视觉标记("干扰标记")的问题 通过动态检测和剪枝干扰标记,纠正模型的视觉注意力模式,从而提高任务成功率 作为即插即用的推理时方法,无需修改模型架构或添加额外输入

6 分钟读完 6 张阅读卡 Chenyang Li: Australian National University
一眼看懂 封面预览

提出 Distracting Token Pruning (DTP) 框架,用于解决视觉-语言-动作(VLA)模型过度关注任务无关视觉标记("…

  • 提出 Distracting Token Pruning (DTP) 框架,用于解决视觉-语言-动作(VLA)模型过度关注任务无关视觉标记("…
  • 通过动态检测和剪枝干扰标记,纠正模型的视觉注意力模式,从而提高任务成功率
  • 作为即插即用的推理时方法,无需修改模型架构或添加额外输入
Card 01 研究单位

研究单位

  • Chenyang Li: Australian National University
  • Jieyuan Liu: University of California, San Diego
  • Bin Li: Chinese Academy of Sciences
  • Bo Gao: Beijing Institute of Graphic Communication
  • Yilin Yuan: Beijing Institute of Graphic Communication
  • Yangfan He: University of North Carolina at Chapel Hill
  • Yuchen Li: Baidu Search
  • Jingqun Tang: Bytedance
Card 02 论文概述

论文概述

  • 提出 Distracting Token Pruning (DTP) 框架,用于解决视觉-语言-动作(VLA)模型过度关注任务无关视觉标记("干扰标记")的问题
  • 通过动态检测和剪枝干扰标记,纠正模型的视觉注意力模式,从而提高任务成功率
  • 作为即插即用的推理时方法,无需修改模型架构或添加额外输入
Card 03 核心贡献

核心贡献

  • 引入 DTP 框架:一种基于交集的方法,自动识别并剪枝干扰标记,通过解决 VLA 模型常见的注意力弱点来提高任务成功率
  • 探索性能上界:通过调整容忍度参数 τ,探索 VLA 模型在其原有架构下可达到的性能上界,寻求与模型偏好对齐的理想视觉注意力模式
  • 揭示负相关关系:分析不重要区域的注意力值,发现其与任务成功率呈负相关,为构建更稳健的 VLA 模型提供见解
  • 跨模型泛化能力:在多种基于 Transformer 的 VLA 模型(SpatialVLANoraUniVLA)上验证了方法的有效性
Card 04 方法描述

方法描述

  • 重要区域构建:利用选定层的注意力矩阵计算提示标记与图像标记之间的相关性得分,通过余弦相似度或注意力权重聚合形成相关性热图,选取 top-k 最高相关性的视觉标记构成重要区域
  • 视觉注意力模式构建:为每个生成的动作标记提取对所有视觉标记的注意力权重,按各层视觉注意力的比例加权,聚合得到最终的视觉注意力模式
  • 干扰标记剪枝:对于不重要区域中的视觉标记,若其注意力值超过重要区域最大注意力值与容忍度 τ 的乘积,则判定为干扰标记并将其剪枝
Card 05 数据集与资源

数据集与资源

  • 评估基准SIMPLER Benchmark( WidowX 机器人任务、Google 机器人任务)、LIBERO Benchmark
  • 测试模型SpatialVLA(3B,基于 PaliGemma 2)、Nora(基于 Qwen2.5-VL-3B)、UniVLA(9B 世界模型)
  • 训练资源:推理时方法,无需额外训练资源
Card 06 评估与结果

评估与结果

  • WidowX 任务:SpatialVLA 从 29.2% 提升至 37.5%(相对提升 128.4%),Nora 从 6.2% 提升至 11.5%(约 2 倍),UniVLA 从 68.7% 提升至 74.0%(相对提升 107.7%)
  • Google 机器人任务:SpatialVLA 相对提升 1-3%,Nora 相对提升 2-3%
  • LIBERO 基准:Nora 在所有套件上均获提升,LIBERO-10 绝对提升 +6.6%
  • 关键发现:任务失败 episodes 在不重要区域的注意力始终高于成功 episodes(p<0.001),且差异在动作执行中期最为显著