VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

论文详情

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

2025-07-01 · 原文 · 翻译 · 2507.01016

论文提出了一种基于向量量化的动作分词器（action tokenizer），旨在改进视觉-语言-动作（VLA）模型。研究的核心目标是解决VLA模型在长时序任务规划、推理效率和动作输出平滑性方面的问题。论文验证了使用大规模合成动作轨迹数据扩展动作分词器的可行性与有效性。

5 分钟读完 6 张阅读卡 Shanghai AI Lab

一眼看懂封面预览

论文提出了一种基于向量量化的动作分词器（action tokenizer），旨在改进视觉-语言-动作（VLA）模型。

论文提出了一种基于向量量化的动作分词器（action tokenizer），旨在改进视觉-语言-动作（VLA）模型。
研究的核心目标是解决VLA模型在长时序任务规划、推理效率和动作输出平滑性方面的问题。
论文验证了使用大规模合成动作轨迹数据扩展动作分词器的可行性与有效性。

Card 01 研究单位

研究单位

Shanghai AI Lab
Tongji University
University of Science and Technology of China
Zhejiang University
Nanjing University
Shanghai Jiao Tong University

Card 02 论文概述

论文概述

论文提出了一种基于向量量化的动作分词器（action tokenizer），旨在改进视觉-语言-动作（VLA）模型。
研究的核心目标是解决VLA模型在长时序任务规划、推理效率和动作输出平滑性方面的问题。
论文验证了使用大规模合成动作轨迹数据扩展动作分词器的可行性与有效性。

Card 03 核心贡献

核心贡献

提出了一个通用的卷积残差VQ-VAE（Residual VQ-VAE） 框架，用作动作分词器。
证明了动作分词器可以通过利用大规模模拟动作数据有效进行扩展。
验证了该方法能够同时提升VLA模型的性能、推理速度和长时序任务处理能力。

Card 04 方法描述

方法描述

设计并训练了一个卷积残差VQ-VAE模型作为动作分词器，其编码器和解码器采用2D时间卷积层以捕获时间依赖性。
在VQ-VAE训练中引入了时间嵌入和动作类型嵌入，以增强模型对动作序列时空结构的理解。
采用渐进式训练策略：先在真实机器人数据集（如OpenX-Embodiment）上训练，再逐步引入更平滑的模拟数据（如LIBERO、ManiSkill）。
将训练好的冻结VQ-VAE作为动作分词器集成到OpenVLA模型中，替代其原有的分桶离散化方法，并使用LoRA进行微调。

Card 05 数据集与资源

数据集与资源

训练数据集：OpenX-Embodiment、LIBERO、ManiSkill（模拟数据）；自采真实世界演示数据。
模型规模：提出了三个版本的Residual VQ-VAE，数据规模依次扩大（单数据集 -> 多数据集组合）。
训练资源：使用单张A100 GPU进行VQ-VAE训练（约一周）；使用4张A100-80GB GPU进行VLA模型微调。

Card 06 评估与结果

评估与结果

评估环境：在模拟器（LIBERO基准测试）和真实世界机器人平台（Franka Research 3 机械臂）上进行了评估。
主要评估指标：任务成功率（Success Rate）。
关键实验结果：

1. 在LIBERO-90模拟任务上，使用扩展数据训练的分词器（VQ_{M+R}）成功率达到80.98%，比OpenVLA基线提升7.45%。

2. 在真实世界长时序任务中，使用最大规模数据训练的分词器（VQ_{O+L+M}）成功率比基线高出30%。

3. 模型推理速度得到显著提升，且生成的动作轨迹更平滑、连贯。

4. 消融实验证实，时间卷积网络结构优于MLP，且数据规模对分词器性能有线性提升作用。