论文旨在解决视觉-语言-动作模型在资源受限平台上推理成本高的问题，提出了一种无需训练的视觉标记剪枝方法。

论文详情

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

2026-03-24 · 原文 · 翻译 · 2603.22991

论文旨在解决视觉-语言-动作模型在资源受限平台上推理成本高的问题，提出了一种无需训练的视觉标记剪枝方法。指出现有剪枝方法主要依赖语义显著性或简单时序线索，忽略了VLA任务中关键的连续物理交互，导致关键操作区域被错误剪枝。提出向“交互优先”范式转变，通过几何先验和语义-运动对齐的动态策略，确保任务早期的鲁棒性和锁定交互后的效率。

5 分钟读完 6 张阅读卡香港科技大学 (The Hong Kong University of Science and Tec…

一眼看懂封面预览

论文旨在解决视觉-语言-动作模型在资源受限平台上推理成本高的问题，提出了一种无需训练的视觉标记剪枝方法。

论文旨在解决视觉-语言-动作模型在资源受限平台上推理成本高的问题，提出了一种无需训练的视觉标记剪枝方法。
指出现有剪枝方法主要依赖语义显著性或简单时序线索，忽略了VLA任务中关键的连续物理交互，导致关键操作区域被错误剪枝。
提出向“交互优先”范式转变，通过几何先验和语义-运动对齐的动态策略，确保任务早期的鲁棒性和锁定交互后的效率。

Card 01 研究单位

研究单位

香港科技大学 (The Hong Kong University of Science and Technology)
香港中文大学 (The Chinese University of Hong Kong)
华南师范大学 (South China Normal University)
国防科技大学 (National University of Defense Technology)
北京科技大学 (University of Science and Technology Beijing)

Card 02 论文概述

论文概述

论文旨在解决视觉-语言-动作模型 在资源受限平台上推理成本高的问题，提出了一种无需训练的视觉标记剪枝方法。
指出现有剪枝方法主要依赖语义显著性或简单时序线索，忽略了VLA任务中关键的连续物理交互，导致关键操作区域被错误剪枝。
提出向“交互优先”范式转变，通过几何先验和语义-运动对齐的动态策略，确保任务早期的鲁棒性和锁定交互后的效率。

Card 03 核心贡献

核心贡献

提出了 几何先验机制，通过轻量级边缘增强显式提取物理轮廓，纠正模型偏向语义外观而忽略可操作几何特征的倾向。
提出了 交互对齐动态策略，利用语义与运动掩码的IoU度量评估交互锁定状态，动态切换保守与激进剪枝模式。
在三个仿真基准（LIBERO, VLABench, CALVIN）和真实机器人平台上进行了广泛验证，证明了方法的优越性、泛化能力和实用性。

Card 04 方法描述

方法描述

方法整体为训练自由 的框架，在视觉编码器提取标记后，并行评估语义、运动和几何三个维度的物理重要性。
几何先验通过Sobel算子提取图像边缘强度，聚合到标记级别，形成独立于VLM语义空间的物理可供性图。
语义-运动对齐模块构建语义先验（文本-图像注意力）和运动先验（二阶时序差分），并计算其IoU作为动态策略的门控信号。
根据IoU阈值动态切换剪枝模式：低IoU时采用保守模式（双弱排斥策略保留非背景信息），高IoU时采用激进模式（收缩语义掩码并联合运动掩码移除冗余背景）。
最终标记选择通过融合几何先验得分与动态策略产生的保留集，生成精简的视觉序列输入LLM进行动作推理。

Card 05 数据集与资源

数据集与资源

仿真基准：LIBERO， VLABench， CALVIN (ABC-D)。
真实机器人任务：单臂（简单、长视野）和双臂（协同分类）操作任务。
基础VLA模型：OpenVLA-OFT， DreamVLA， π₀ 和 π₀.₅。
实验硬件：NVIDIA A100 GPU。

Card 06 评估与结果

评估与结果

在 LIBERO 基准上，方法实现了 97.8%的成功率，同时带来了 1.25倍的加速。
在 OpenVLA-OFT 上，实现了高达 1.54倍的加速，且性能与未剪枝的骨干模型相当。
在真实机器人实验中，实现了高达 1.48倍的推理加速，同时提高了平均操作成功率。
方法在多个模型架构和不同仿真环境中表现出优越且一致的性能，验证了其强大的泛化能力。