一眼看懂
封面预览
提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。
- 提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。
- 旨在解决大型 VLA 模型在边缘设备上部署困难的问题,通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
- 提出了一种 Quantize-then-Distill 策略,在保持多模态对齐和任务性能的同时,将视觉编码器压缩至 1.58-bit 权重。
Card 01
研究单位
研究单位
- 中国科学院计算技术研究所 AI 安全重点实验室
- 中国科学院大学
Card 02
论文概述
论文概述
- 提出了 BitVLA,这是首个用于机器人操作的全原生 1-bit 视觉-语言-动作(VLA)模型,其所有参数均为三值({-1, 0, 1})。
- 旨在解决大型 VLA 模型在边缘设备上部署困难的问题,通过在训练阶段集成量化而非依赖后处理压缩来实现效率优化。
- 提出了一种 Quantize-then-Distill 策略,在保持多模态对齐和任务性能的同时,将视觉编码器压缩至 1.58-bit 权重。
Card 03
核心贡献
核心贡献
- 引入了 BitVLA,建立了具身策略极低比特量化的新基准,在大幅降低资源消耗的同时保持了与大型全精度模型相当的性能。
- 提出了 Quantize-then-Distill 训练策略,成功将视觉编码器量化为 1.58-bit 权重,有效缓解了量化引起的表征漂移问题。
- 在仿真和真实世界任务中展示了极具竞争力的操作成功率,模型内存占用减少 11.0x,端到端延迟降低 4.4x,证明了其在资源受限硬件上的部署潜力。
Card 04
方法描述
方法描述
- 模型架构基于 BitNet b1.58 2B4T(1-bit LLM)和 SigLIP-L(视觉编码器),通过一个轻量级两层 MLP 连接器进行模态对齐。
- 采用三阶段训练流程:多模态训练(对齐 1-bit LLM 与全精度视觉编码器)、Quantize-then-Distill(利用全精度教师模型指导量化学生视觉编码器)、机器人训练(大规模轨迹预训练)。
- 量化方案使用
absmean量化器将权重量化为三值 {-1, 0, 1},使用absmax量化器将激活值量化为 INT8。 - 在机器人训练阶段,采用并行解码和 Action Chunking 技术(块大小 K=8)以提高推理吞吐量。
Card 05
数据集与资源
数据集与资源
- 数据集:LLaVA-1.5-558k(视觉对齐)、MammoTH-VL 10M 子集(视觉指令微调)、Open X-Embodiment 子集(约 1M 样本,机器人预训练)。
- 模型规模:总参数量 3.0B(包含 2B LLM 主干和视觉编码器)。
- 训练资源:使用 NVIDIA H800 GPU(80GB),多模态训练使用 8 张卡,VLA 预训练使用 16 张卡。
Card 06
评估与结果
评估与结果
- 评估环境:LIBERO 仿真基准测试和真实世界 Franka Emika 机械臂平台。
- 主要指标:任务成功率、内存占用(GB)、推理延迟和吞吐量。
- 关键结果:在 LIBERO 基准上平均成功率达到 96.0%,与 OpenVLA-OFT(97.1%)相当,优于 $\pi_0$(94.2%)。
- 效率提升:模型内存占用仅为 1.4 GB(相比 OpenVLA-OFT 的 15.4 GB),推理延迟为 73 ms(相比 OpenVLA-OFT+ 的 321 ms),实现了 11.0 倍的内存压缩和 4.4 倍的加速。