The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

一眼看懂封面预览

研究了视觉语言动作（VLA）模型中动作表示的选择如何影响视觉编码器升级的效果

Card 01 研究单位

研究单位

Card 02 论文概述

研究了视觉语言动作（VLA）模型中动作表示的选择如何影响视觉编码器升级的效果
发现压缩间隙（Compression Gap）现象：连续动作表示（如Diffusion Policy）可以充分利用编码器升级，而离散动作表示（如OAT）则无法受益
通过信息理论框架（数据处理不等式）解释了这一现象：离散tokenization引入了固定容量的码本瓶颈，阻止了上游编码器信息的传递

Card 03 核心贡献

提出压缩间隙（Compression Gap）概念：描述了离散tokenization导致VLA模型缩放行为发散的现象
建立信息理论基础：使用数据处理不等式证明离散码本成为信息瓶颈，阻止编码器改进传播到任务性能
因子实验验证：在LIBERO基准上证明Diffusion Policy从ResNet-18升级到SigLIP提升21.2%（M尺寸）和26.0%（L尺寸），而OAT仅提升3.6%和10.4%
编码器质量梯度实验：验证Diffusion Policy性能随编码器质量单调增长，OAT保持在狭窄范围内
码本大小实验：提供因果证据表明增加码本容量可部分恢复OAT对编码器质量的敏感性

Card 04 方法描述

Card 05 数据集与资源

Card 06 评估与结果

- Diffusion Policy + SigLIP (L)达到70.0%成功率，比ResNet-18提升26.0个百分点

- OAT + SigLIP (L)为58.4%，仅比ResNet-18提升10.4个百分点

- 编码器质量梯度：DP从36.4%（ResNet）→63.8%（DINOv2），OAT在44.2%-57.4%之间波动无明显趋势

- 码本实验：\|V\|=1920时，ResNet下降到42.6%，接近DP的ResNet性能（36.4%），显示瓶颈缓解后编码器质量开始显现