返回列表 VLA / Vision-Language-Action 每日论文卡
The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling
研究了视觉语言动作(VLA)模型中动作表示的选择如何影响视觉编码器升级的效果

论文详情

The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

2026-04-03 · 原文 · 翻译 · 2604.03191

研究了视觉语言动作(VLA)模型中动作表示的选择如何影响视觉编码器升级的效果 发现压缩间隙(Compression Gap)现象:连续动作表示(如Diffusion Policy)可以充分利用编码器升级,而离散动作表示(如OAT)则无法受益 通过信息理论框架(数据处理不等式)解释了这一现象:离散tokenization引入了固定容量的码本瓶颈,阻止了上游编码器信息的传递

5 分钟读完 6 张阅读卡 Takuya Shiba - Shibattic Inc.
一眼看懂 封面预览

研究了视觉语言动作(VLA)模型中动作表示的选择如何影响视觉编码器升级的效果

  • 研究了视觉语言动作(VLA)模型中动作表示的选择如何影响视觉编码器升级的效果
  • 发现压缩间隙(Compression Gap)现象:连续动作表示(如Diffusion Policy)可以充分利用编码器升级,而离散动作表示(…
  • 通过信息理论框架(数据处理不等式)解释了这一现象:离散tokenization引入了固定容量的码本瓶颈,阻止了上游编码器信息的传递
Card 01 研究单位

研究单位

  • Takuya Shiba - Shibattic Inc.
Card 02 论文概述

论文概述

  • 研究了视觉语言动作(VLA)模型中动作表示的选择如何影响视觉编码器升级的效果
  • 发现压缩间隙(Compression Gap)现象:连续动作表示(如Diffusion Policy)可以充分利用编码器升级,而离散动作表示(如OAT)则无法受益
  • 通过信息理论框架(数据处理不等式)解释了这一现象:离散tokenization引入了固定容量的码本瓶颈,阻止了上游编码器信息的传递
Card 03 核心贡献

核心贡献

  • 提出压缩间隙(Compression Gap)概念:描述了离散tokenization导致VLA模型缩放行为发散的现象
  • 建立信息理论基础:使用数据处理不等式证明离散码本成为信息瓶颈,阻止编码器改进传播到任务性能
  • 因子实验验证:在LIBERO基准上证明Diffusion Policy从ResNet-18升级到SigLIP提升21.2%(M尺寸)和26.0%(L尺寸),而OAT仅提升3.6%和10.4%
  • 编码器质量梯度实验:验证Diffusion Policy性能随编码器质量单调增长,OAT保持在狭窄范围内
  • 码本大小实验:提供因果证据表明增加码本容量可部分恢复OAT对编码器质量的敏感性
Card 04 方法描述

方法描述

  • 对比两种动作表示:OAT(离散有序动作tokenization,使用FSQ量化,码本大小1000)和Diffusion Policy(连续去噪过程)
  • 视觉编码器:ResNet-18(64维)和SigLIP(1152维)作为主要对比,以及DINOv2 ViT-L/14和SigLIP 2用于梯度实验
  • 模型规模:M尺寸(4层transformer,嵌入维度256)和L尺寸(6层,嵌入维度384)
  • 信息瓶颈分析:建立O→Z→A(连续路径)和O→Z→Q→T→A(离散路径)的信息流框架
Card 05 数据集与资源

数据集与资源

  • 基准数据集:LIBERO-10(10个任务,每个任务50条演示)
  • 机器人平台:Franka Emika Panda
  • 动作空间:7维(3D位置+3D姿态+1D夹爪)
  • 动作分块:H_a=32,执行前16步后重新推理
  • 训练配置:300个epochs,AdamW优化器,学习率5e-5(策略)和1e-5(编码器)
  • 硬件:单张NVIDIA A100 GPU
Card 06 评估与结果

评估与结果

  • 评估指标:峰值成功率(peak success rate),每次评估500条rollout
  • 关键发现

- Diffusion Policy + SigLIP (L)达到70.0%成功率,比ResNet-18提升26.0个百分点

- OAT + SigLIP (L)为58.4%,仅比ResNet-18提升10.4个百分点

- 编码器质量梯度:DP从36.4%(ResNet)→63.8%(DINOv2),OAT在44.2%-57.4%之间波动无明显趋势

- 码本实验:\|V\|=1920时,ResNet下降到42.6%,接近DP的ResNet性能(36.4%),显示瓶颈缓解后编码器质量开始显现

  • 结论:连续路径使编码器改进能够端到端传播,而离散路径的固定容量码本限制了信息流