返回列表 VLA / Vision-Language-Action 每日论文卡

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

论文详情

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

2025-07-02 · 原文 · 翻译 · 2507.01925

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action Tokenization) 的新视角出发,对现有研究进行了系统性梳理。 论文旨在解决当前VLA研究领域缺乏统一理解框架的问题,认为如何形式化动作标记是区分不同VLA模型的核心设计选择。

4 分钟读完 6 张阅读卡 北京大学人工智能研究院 (Institute for AI, Peking University)
一眼看懂 封面预览

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action To…

  • 这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action To…
  • 论文旨在解决当前VLA研究领域缺乏统一理解框架的问题,认为如何形式化动作标记是区分不同VLA模型的核心设计选择。
  • 提出了一个VLA统一框架,将现有模型抽象为:视觉和语言输入经过一系列VLA模块处理,最终生成可执行动作的动作标记链。
Card 01 研究单位

研究单位

  • 北京大学人工智能研究院 (Institute for AI, Peking University)
  • 北京大学-思必驰机器人联合实验室 (PKU-PsiBot Joint Lab)
  • 北京大学计算机学院 (School of Computer Science, Peking University)
Card 02 论文概述

论文概述

  • 这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action Tokenization) 的新视角出发,对现有研究进行了系统性梳理。
  • 论文旨在解决当前VLA研究领域缺乏统一理解框架的问题,认为如何形式化动作标记是区分不同VLA模型的核心设计选择。
Card 03 核心贡献

核心贡献

  • 提出了一个VLA统一框架,将现有模型抽象为:视觉和语言输入经过一系列VLA模块处理,最终生成可执行动作的动作标记链
  • 首次提出了基于动作标记的分类法,将现有方法归纳为八种主要类型:语言描述、代码、可操作性、轨迹、目标状态、潜在表示、原始动作和推理。
  • 对每种动作标记类型的动机、代表性方法、优劣势及未来方向进行了系统、深入的梳理和分析。
  • 总结了可扩展的数据源,并基于现有趋势,为未来VLA模型向通用智能体发展提供了广阔的讨论和前瞻性研究方向。
Card 04 方法描述

方法描述

  • 本文是一篇系统性综述 (Survey),而非提出新模型。其核心方法是基于动作标记的分类与分析方法
  • 关键创新在于引入了动作标记这一核心概念,将其定义为VLA模型中模块输出的、编码可执行信息的中间生成物(类似于LLM中的语言标记)。
  • 技术路径是通过该视角对数百篇相关文献进行重新审视、归类、比较和趋势分析。
Card 05 数据集与资源

数据集与资源

  • 本文作为综述,未引入新模型,因此不涉及具体模型参数量或训练资源。
  • 论文详细讨论了VLA模型训练所依赖的三层可扩展数据源:底层的网页数据与人类视频、中层的合成与仿真数据,以及顶层的真实机器人数据。
Card 06 评估与结果

评估与结果

  • 综述本身未进行新的实验评估,但总结了各类型动作标记在现有代表性工作中的关键实验结果
  • 报告了每种动作标记在特定任务上的代表性成就(如表1所示),例如:π_{0.5} 的铺床任务、Hi Robot 的制作三明治任务、RT-Trajectory 的桌面清洁任务等。
  • 通过系统分析得出结论:未来的VLA模型不在于单一动作标记占主导,而在于这些动作标记的战略性整合,并提出了分层的架构发展趋势。