一眼看懂
封面预览
研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题
- 研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题
- 核心问题:当前VLA将图像划分为数百个patch进行处理,导致视觉token数量过多(224×224图像产生256个token),成为训练的主…
- 解决方案:提出Oat-VLA(Object-Agent-centric Tokenization),通过对象中心化和智能体中心的token化…
Card 01
研究单位
研究单位
- Rokas Bendikas - Centre for Artificial Intelligence, UCL
- Daniel Dijkman - Qualcomm AI Research(同等贡献)
- Markus Peschl - Qualcomm AI Research
- Sanjay Haresh - Qualcomm AI Research
- Pietro Mazzaglia - Qualcomm AI Research
Card 02
论文概述
论文概述
- 研究目标:通过改进视觉token化方案,解决VLA(视觉-语言-动作)模型训练计算成本过高的问题
- 核心问题:当前VLA将图像划分为数百个patch进行处理,导致视觉token数量过多(224×224图像产生256个token),成为训练的主要瓶颈
- 解决方案:提出Oat-VLA(Object-Agent-centric Tokenization),通过对象中心化和智能体中心的token化,将视觉token从256个减少到仅16个,减少93.75%
- 实验验证:在LIBERO基准和真实世界抓取放置任务上,Oat-VLA收敛速度比OpenVLA快2倍以上,性能相当或更优
Card 03
核心贡献
核心贡献
- 对象中心化tokens:使用FT-Dinosaur无监督对象发现模型,将场景中的对象信息压缩到7个tokens中
- 智能体中心化tokens:通过轻量级ResNet Faster R-CNN gripper检测器,在机械臂末端周围提取3×3=9个高分辨率tokens,确保精细操作精度
- 极致的token缩减:将视觉token从256个减少到16个(93.75%减少),同时保持或提升性能
- 2倍收敛加速:在LIBERO基准上,Oat-VLA达到相同或更高性能所需训练时间减少50%以上
- 真实世界泛化能力:在真实机器人抓取放置任务中,Oat-VLA成功率达59%,显著优于OpenVLA的41%
Card 04
方法描述
方法描述
- 对象中心化方法:使用FT-Dinosaur模型进行语义分割获取对象masks,对每个对象mask内的视觉tokens进行平均池化,生成对象中心化tokens
- 智能体中心化方法:训练gripper检测器识别图像中机械臂末端位置,提取末端周围3×3区域的9个patches作为智能体tokens
- 池化策略:采用平均池化压缩对象信息(消融实验证明优于注意力池化)
- 模型架构:基于OpenVLA架构,使用Llama 2作为LLM backbone,通过MLP projector连接视觉tokens
- 预训练策略:从OpenVLA checkpoint初始化,在Open X-Embodiment子集(Bridge+FMB+Fractal)上预训练
Card 05
数据集与资源
数据集与资源
- 预训练数据:Open X-Embodiment数据集子集(Bridge、FMB、Fractal)
- 评估基准:LIBERO(4个任务套件:Spatial、Object、Goal、10)
- 真实世界数据:UFACTORY xArm 6机器人收集的320条轨迹
- 模型基础:OpenVLA-7B(DINOv2 ViT-L/14 + SigLIP ViT-So400M/14,224×224分辨率)
- Token数量:OpenVLA 256个 → Oat-VLA仅16个(7对象+9智能体)
- 训练硬件:8×H100 GPU节点
- 全参数微调batch size:8×64=512(Oat-VLA)vs 8×32=256(OpenVLA)
- 训练吞吐量:Oat-VLA 320 samples/s,OpenVLA 157 samples/s
Card 06
评估与结果
评估与结果
- LIBERO全参数微调:Oat-VLA收敛速度提升2倍以上,batch size更大(512 vs 256),成功率达到更高水平
- LIBERO LoRA微调:Oat-VLA平均成功率78.6%,OpenVLA 76.5%,Octo 75.1%,Diffusion Policy 72.4%
- Spatial:Oat-VLA 87.3% vs OpenVLA 84.7%
- Object:Oat-VLA 89.1% vs OpenVLA 88.4%
- Goal:Oat-VLA 82.1% vs OpenVLA 79.2%
- 10:Oat-VLA 55.9% vs OpenVLA 53.7%
- 真实世界任务:
- 分布内任务:Oat-VLA 72% vs OpenVLA 52%
- 分布外任务:Oat-VLA 46% vs OpenVLA 29%
- 总体成功率:Oat-VLA 59% vs OpenVLA 41%
- 消融实验:对象中心化tokens比单图像token效果更好;智能体tokens对性能至关重要;平均池化优于注意力池化
- 推理速度:在RTX A5000上,Oat-VLA推理时间268ms vs OpenVLA 284ms(减少6%)