返回列表 VLA / Vision-Language-Action 每日论文卡

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

论文详情

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

2025-06-09 · 原文 · 翻译 · 2506.07530

提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。 旨在解决大型 VLA 模型在边缘设备上部署困难的问题,通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。 提出了一种 Quantize-then-Distill 策略,在保持多模态对齐和任务性能的同时,将视觉编码器压缩至 1.58-bit 权重。

5 分钟读完 6 张阅读卡 中国科学院计算技术研究所 AI 安全重点实验室
一眼看懂 封面预览

提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。

  • 提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。
  • 旨在解决大型 VLA 模型在边缘设备上部署困难的问题,通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
  • 提出了一种 Quantize-then-Distill 策略,在保持多模态对齐和任务性能的同时,将视觉编码器压缩至 1.58-bit 权重。
Card 01 研究单位

研究单位

  • 中国科学院计算技术研究所 AI 安全重点实验室
  • 中国科学院大学
Card 02 论文概述

论文概述

  • 提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。
  • 旨在解决大型 VLA 模型在边缘设备上部署困难的问题,通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
  • 提出了一种 Quantize-then-Distill 策略,在保持多模态对齐和任务性能的同时,将视觉编码器压缩至 1.58-bit 权重。
Card 03 核心贡献

核心贡献

  • 引入了 BitVLA,建立了具身策略极低比特量化的新基准,在大幅降低资源消耗的同时保持了与大型全精度模型相当的性能。
  • 提出了 Quantize-then-Distill 训练策略,成功将视觉编码器量化为 1.58-bit 权重,有效缓解了量化引起的表征漂移问题。
  • 在仿真和真实世界任务中展示了极具竞争力的操作成功率,模型内存占用减少 11.0x,端到端延迟降低 4.4x,证明了其在资源受限硬件上的部署潜力。
Card 04 方法描述

方法描述

  • 模型架构基于 BitNet b1.58 2B4T(1-bit LLM)和 SigLIP-L(视觉编码器),通过一个轻量级两层 MLP 连接器进行模态对齐。
  • 采用三阶段训练流程:多模态训练(对齐 1-bit LLM 与全精度视觉编码器)、Quantize-then-Distill(利用全精度教师模型指导量化学生视觉编码器)、机器人训练(大规模轨迹预训练)。
  • 量化方案使用 absmean 量化器将权重量化为三值 {-1, 0, 1},使用 absmax 量化器将激活值量化为 INT8。
  • 在机器人训练阶段,采用并行解码和 Action Chunking 技术(块大小 K=8)以提高推理吞吐量。
Card 05 数据集与资源

数据集与资源

  • 数据集:LLaVA-1.5-558k(视觉对齐)、MammoTH-VL 10M 子集(视觉指令微调)、Open X-Embodiment 子集(约 1M 样本,机器人预训练)。
  • 模型规模:总参数量 3.0B(包含 2B LLM 主干和视觉编码器)。
  • 训练资源:使用 NVIDIA H800 GPU(80GB),多模态训练使用 8 张卡,VLA 预训练使用 16 张卡。
Card 06 评估与结果

评估与结果

  • 评估环境LIBERO 仿真基准测试和真实世界 Franka Emika 机械臂平台。
  • 主要指标:任务成功率、内存占用(GB)、推理延迟和吞吐量。
  • 关键结果:在 LIBERO 基准上平均成功率达到 96.0%,与 OpenVLA-OFT(97.1%)相当,优于 $\pi_0$(94.2%)。
  • 效率提升:模型内存占用仅为 1.4 GB(相比 OpenVLA-OFT 的 15.4 GB),推理延迟为 73 ms(相比 OpenVLA-OFT+ 的 321 ms),实现了 11.0 倍的内存压缩和 4.4 倍的加速。