返回列表 VLA / Vision-Language-Action 每日论文卡
QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization
针对 Vision-Language-Action (VLA) 模型在资源受限机器人平台上部署困难的问题,提出了首个以动作为中心的量化框架 Q…

论文详情

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

2026-02-03 · 原文 · 翻译 · 2602.03782

针对 Vision-Language-Action (VLA) 模型在资源受限机器人平台上部署困难的问题,提出了首个以动作为中心的量化框架 QVLA。 指出现有的 LLM 量化方法忽略动作偏差累积导致的灾难性后果,无法直接应用于具身智能模型。 通过细粒度的 通道级位宽分配 策略,实现了模型压缩与剪枝的统一,大幅降低显存占用并保持控制精度。

5 分钟读完 6 张阅读卡 上海交通大学 (Shanghai Jiao Tong University)
一眼看懂 封面预览

针对 Vision-Language-Action (VLA) 模型在资源受限机器人平台上部署困难的问题,提出了首个以动作为中心的量化框架 Q…

  • 针对 Vision-Language-Action (VLA) 模型在资源受限机器人平台上部署困难的问题,提出了首个以动作为中心的量化框架 Q…
  • 指出现有的 LLM 量化方法忽略动作偏差累积导致的灾难性后果,无法直接应用于具身智能模型。
  • 通过细粒度的 通道级位宽分配 策略,实现了模型压缩与剪枝的统一,大幅降低显存占用并保持控制精度。
Card 01 研究单位

研究单位

  • 上海交通大学 (Shanghai Jiao Tong University)
  • Anyverse Dynamics
  • 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences)
  • 中国科学院大学 (University of Chinese Academy of Sciences)
  • 蚂蚁集团 (Ant Group)
Card 02 论文概述

论文概述

  • 针对 Vision-Language-Action (VLA) 模型在资源受限机器人平台上部署困难的问题,提出了首个以动作为中心的量化框架 QVLA
  • 指出现有的 LLM 量化方法忽略动作偏差累积导致的灾难性后果,无法直接应用于具身智能模型。
  • 通过细粒度的 通道级位宽分配 策略,实现了模型压缩与剪枝的统一,大幅降低显存占用并保持控制精度。
Card 03 核心贡献

核心贡献

  • 进行了首个针对 VLA 模型量化挑战的系统性分析,揭示了现有方法失效的原因及动作空间对齐的重要性。
  • 提出了 QVLA 框架,利用动作空间敏感性指导位宽分配,统一了权重量化和剪枝(0-bit)过程。
  • OpenVLAOpenVLA-OFT 基准模型上验证了方法的有效性,在同等平均位宽下显著优于 LLM 衍生的量化方法。
Card 04 方法描述

方法描述

  • 提出了一种基于 动作空间敏感性 的量化指标,直接衡量单个通道量化对最终动作输出的影响。
  • 引入基于 泰勒级数展开 的一阶近似作为敏感性代理,高效识别关键通道,避免昂贵的穷举计算。
  • 设计了 全局贪婪降级算法,从全精度开始逐步降低非敏感通道的位宽,实现受限预算下的最优位宽分配。
  • 支持 混合精度 量化(支持 {0, 2, 4, 8, 16} 位),将 0-bit 视为通道剪枝,统一了压缩流程。
Card 05 数据集与资源

数据集与资源

  • 使用 LIBERO 基准测试集,包含四个不同的机器人操作任务套件。
  • 使用 OpenVLAOpenVLA-OFT 作为基础模型(7B 参数量级)。
  • 实验在 NVIDIA RTX 4090 GPUs 上进行。
  • 真实世界任务使用 IMETA-Y1 双臂机器人系统进行验证。
Card 06 评估与结果

评估与结果

  • LIBERO 环境和真实世界任务中与 SmoothQuantOmniQuantAWQ 等方法进行对比。
  • 主要评估指标包括任务成功率、显存占用和推理速度。
  • OpenVLA-OFT 模型上,量化版本仅需原始模型 29.2% 的显存,保持了 98.9% 的原始性能,并实现了 1.49× 的加速。
  • 在 W4A4(4-bit权重,4-bit激活)设置下,QVLAOpenVLA 上的性能下降仅为 0.5%,远优于 SmoothQuant13.3% 下降。