返回列表 VLA / Vision-Language-Action 每日论文卡
Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models
研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题

论文详情

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

2025-09-28 · 原文 · 翻译 · 2509.23655

研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题 核心问题:当前VLA将图像划分为数百个patch进行处理,导致视觉token数量过多(224×224图像产生256个token),成为训练的主要瓶颈 解决方案:提出Oat-VLA(Object-Agent-centric Tokenization),通过对象中心化和智能体中心的token化,将视觉token从256个减…

8 分钟读完 6 张阅读卡 Rokas Bendikas - Centre for Artificial Intelligence…
一眼看懂 封面预览

研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题

  • 研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题
  • 核心问题:当前VLA将图像划分为数百个patch进行处理,导致视觉token数量过多(224×224图像产生256个token),成为训练的主…
  • 解决方案:提出Oat-VLA(Object-Agent-centric Tokenization),通过对象中心化和智能体中心的token化…
Card 01 研究单位

研究单位

  • Rokas Bendikas - Centre for Artificial Intelligence, UCL
  • Daniel Dijkman - Qualcomm AI Research(同等贡献)
  • Markus Peschl - Qualcomm AI Research
  • Sanjay Haresh - Qualcomm AI Research
  • Pietro Mazzaglia - Qualcomm AI Research
Card 02 论文概述

论文概述

  • 研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题
  • 核心问题:当前VLA将图像划分为数百个patch进行处理,导致视觉token数量过多(224×224图像产生256个token),成为训练的主要瓶颈
  • 解决方案:提出Oat-VLA(Object-Agent-centric Tokenization),通过对象中心化和智能体中心的token化,将视觉token从256个减少到仅16个,减少93.75%
  • 实验验证:在LIBERO基准和真实世界抓取放置任务上,Oat-VLA收敛速度比OpenVLA快2倍以上,性能相当或更优
Card 03 核心贡献

核心贡献

  • 对象中心化tokens:使用FT-Dinosaur无监督对象发现模型,将场景中的对象信息压缩到7个tokens中
  • 智能体中心化tokens:通过轻量级ResNet Faster R-CNN gripper检测器,在机械臂末端周围提取3×3=9个高分辨率tokens,确保精细操作精度
  • 极致的token缩减:将视觉token从256个减少到16个(93.75%减少),同时保持或提升性能
  • 2倍收敛加速:在LIBERO基准上,Oat-VLA达到相同或更高性能所需训练时间减少50%以上
  • 真实世界泛化能力:在真实机器人抓取放置任务中,Oat-VLA成功率达59%,显著优于OpenVLA的41%
Card 04 方法描述

方法描述

  • 对象中心化方法:使用FT-Dinosaur模型进行语义分割获取对象masks,对每个对象mask内的视觉tokens进行平均池化,生成对象中心化tokens
  • 智能体中心化方法:训练gripper检测器识别图像中机械臂末端位置,提取末端周围3×3区域的9个patches作为智能体tokens
  • 池化策略:采用平均池化压缩对象信息(消融实验证明优于注意力池化)
  • 模型架构:基于OpenVLA架构,使用Llama 2作为LLM backbone,通过MLP projector连接视觉tokens
  • 预训练策略:从OpenVLA checkpoint初始化,在Open X-Embodiment子集(Bridge+FMB+Fractal)上预训练
Card 05 数据集与资源

数据集与资源

  • 预训练数据:Open X-Embodiment数据集子集(Bridge、FMB、Fractal)
  • 评估基准:LIBERO(4个任务套件:Spatial、Object、Goal、10)
  • 真实世界数据:UFACTORY xArm 6机器人收集的320条轨迹
  • 模型基础:OpenVLA-7B(DINOv2 ViT-L/14 + SigLIP ViT-So400M/14,224×224分辨率)
  • Token数量:OpenVLA 256个 → Oat-VLA仅16个(7对象+9智能体)
  • 训练硬件:8×H100 GPU节点
  • 全参数微调batch size:8×64=512(Oat-VLA)vs 8×32=256(OpenVLA)
  • 训练吞吐量:Oat-VLA 320 samples/s,OpenVLA 157 samples/s
Card 06 评估与结果

评估与结果

  • LIBERO全参数微调:Oat-VLA收敛速度提升2倍以上,batch size更大(512 vs 256),成功率达到更高水平
  • LIBERO LoRA微调:Oat-VLA平均成功率78.6%,OpenVLA 76.5%,Octo 75.1%,Diffusion Policy 72.4%

- Spatial:Oat-VLA 87.3% vs OpenVLA 84.7%

- Object:Oat-VLA 89.1% vs OpenVLA 88.4%

- Goal:Oat-VLA 82.1% vs OpenVLA 79.2%

- 10:Oat-VLA 55.9% vs OpenVLA 53.7%

  • 真实世界任务

- 分布内任务:Oat-VLA 72% vs OpenVLA 52%

- 分布外任务:Oat-VLA 46% vs OpenVLA 29%

- 总体成功率:Oat-VLA 59% vs OpenVLA 41%

  • 消融实验:对象中心化tokens比单图像token效果更好;智能体tokens对性能至关重要;平均池化优于注意力池化
  • 推理速度:在RTX A5000上,Oat-VLA推理时间268ms vs OpenVLA 284ms(减少6%)