Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

一眼看懂封面预览

研究目标：通过改进视觉token化方案，解决VLA（视觉-语言-动作）模型训练计算成本过高的问题

Card 01 研究单位

研究单位

Card 02 论文概述

研究目标：通过改进视觉token化方案，解决VLA（视觉-语言-动作）模型训练计算成本过高的问题
核心问题：当前VLA将图像划分为数百个patch进行处理，导致视觉token数量过多（224×224图像产生256个token），成为训练的主要瓶颈
解决方案：提出Oat-VLA（Object-Agent-centric Tokenization），通过对象中心化和智能体中心的token化，将视觉token从256个减少到仅16个，减少93.75%
实验验证：在LIBERO基准和真实世界抓取放置任务上，Oat-VLA收敛速度比OpenVLA快2倍以上，性能相当或更优

Card 03 核心贡献

对象中心化tokens：使用FT-Dinosaur无监督对象发现模型，将场景中的对象信息压缩到7个tokens中
智能体中心化tokens：通过轻量级ResNet Faster R-CNN gripper检测器，在机械臂末端周围提取3×3=9个高分辨率tokens，确保精细操作精度
极致的token缩减：将视觉token从256个减少到16个（93.75%减少），同时保持或提升性能
2倍收敛加速：在LIBERO基准上，Oat-VLA达到相同或更高性能所需训练时间减少50%以上
真实世界泛化能力：在真实机器人抓取放置任务中，Oat-VLA成功率达59%，显著优于OpenVLA的41%

Card 04 方法描述

对象中心化方法：使用FT-Dinosaur模型进行语义分割获取对象masks，对每个对象mask内的视觉tokens进行平均池化，生成对象中心化tokens
智能体中心化方法：训练gripper检测器识别图像中机械臂末端位置，提取末端周围3×3区域的9个patches作为智能体tokens
池化策略：采用平均池化压缩对象信息（消融实验证明优于注意力池化）
模型架构：基于OpenVLA架构，使用Llama 2作为LLM backbone，通过MLP projector连接视觉tokens
预训练策略：从OpenVLA checkpoint初始化，在Open X-Embodiment子集（Bridge+FMB+Fractal）上预训练

Card 05 数据集与资源

Card 06 评估与结果

LIBERO全参数微调：Oat-VLA收敛速度提升2倍以上，batch size更大（512 vs 256），成功率达到更高水平
LIBERO LoRA微调：Oat-VLA平均成功率78.6%，OpenVLA 76.5%，Octo 75.1%，Diffusion Policy 72.4%

- Spatial：Oat-VLA 87.3% vs OpenVLA 84.7%

- Object：Oat-VLA 89.1% vs OpenVLA 88.4%

- Goal：Oat-VLA 82.1% vs OpenVLA 79.2%

- 10：Oat-VLA 55.9% vs OpenVLA 53.7%

- 分布内任务：Oat-VLA 72% vs OpenVLA 52%

- 分布外任务：Oat-VLA 46% vs OpenVLA 29%

- 总体成功率：Oat-VLA 59% vs OpenVLA 41%