BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

论文详情

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

2025-06-09 · 原文 · 翻译 · 2506.07530

提出了 BitVLA，这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作（VLA）模型，其所有参数均为三值（{-1, 0, 1}）。旨在解决大型 VLA 模型在边缘设备上部署困难的问题，通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。提出了一种 Quantize-then-Distill 策略，在保持多模态对齐和任务性能的同时，将视觉编码器压缩至 1.58-bit 权重。

5 分钟读完 6 张阅读卡中国科学院计算技术研究所 AI 安全重点实验室

一眼看懂封面预览

提出了 BitVLA，这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作（VLA）模型，其所有参数均为三值（{-1, 0, 1}）。

提出了 BitVLA，这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作（VLA）模型，其所有参数均为三值（{-1, 0, 1}）。
旨在解决大型 VLA 模型在边缘设备上部署困难的问题，通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
提出了一种 Quantize-then-Distill 策略，在保持多模态对齐和任务性能的同时，将视觉编码器压缩至 1.58-bit 权重。

Card 01 研究单位

研究单位

中国科学院计算技术研究所 AI 安全重点实验室
中国科学院大学

Card 02 论文概述

论文概述

提出了 BitVLA，这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作（VLA）模型，其所有参数均为三值（{-1, 0, 1}）。
旨在解决大型 VLA 模型在边缘设备上部署困难的问题，通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
提出了一种 Quantize-then-Distill 策略，在保持多模态对齐和任务性能的同时，将视觉编码器压缩至 1.58-bit 权重。

Card 03 核心贡献

核心贡献

引入了 BitVLA，建立了具身策略极低比特量化的新基准，在大幅降低资源消耗的同时保持了与大型全精度模型相当的性能。
提出了 Quantize-then-Distill 训练策略，成功将视觉编码器量化为 1.58-bit 权重，有效缓解了量化引起的表征漂移问题。
在仿真和真实世界任务中展示了极具竞争力的操作成功率，模型内存占用减少 11.0x，端到端延迟降低 4.4x，证明了其在资源受限硬件上的部署潜力。

Card 04 方法描述

方法描述

模型架构基于 BitNet b1.58 2B4T（1-bit LLM）和 SigLIP-L（视觉编码器），通过一个轻量级两层 MLP 连接器进行模态对齐。
采用三阶段训练流程：多模态训练（对齐 1-bit LLM 与全精度视觉编码器）、Quantize-then-Distill（利用全精度教师模型指导量化学生视觉编码器）、机器人训练（大规模轨迹预训练）。
量化方案使用 absmean 量化器将权重量化为三值 {-1, 0, 1}，使用 absmax 量化器将激活值量化为 INT8。
在机器人训练阶段，采用并行解码和 Action Chunking 技术（块大小 K=8）以提高推理吞吐量。

Card 05 数据集与资源

数据集与资源

数据集：LLaVA-1.5-558k（视觉对齐）、MammoTH-VL 10M 子集（视觉指令微调）、Open X-Embodiment 子集（约 1M 样本，机器人预训练）。
模型规模：总参数量 3.0B（包含 2B LLM 主干和视觉编码器）。
训练资源：使用 NVIDIA H800 GPU（80GB），多模态训练使用 8 张卡，VLA 预训练使用 16 张卡。

Card 06 评估与结果

评估与结果

评估环境：LIBERO 仿真基准测试和真实世界 Franka Emika 机械臂平台。
主要指标：任务成功率、内存占用（GB）、推理延迟和吞吐量。
关键结果：在 LIBERO 基准上平均成功率达到 96.0%，与 OpenVLA-OFT（97.1%）相当，优于 $\pi_0$（94.2%）。
效率提升：模型内存占用仅为 1.4 GB（相比 OpenVLA-OFT 的 15.4 GB），推理延迟为 73 ms（相比 OpenVLA-OFT+ 的 321 ms），实现了 11.0 倍的内存压缩和 4.4 倍的加速。