A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

论文详情

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

2025-07-02 · 原文 · 翻译 · 2507.01925

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文，从动作标记化 (Action Tokenization) 的新视角出发，对现有研究进行了系统性梳理。论文旨在解决当前VLA研究领域缺乏统一理解框架的问题，认为如何形式化动作标记是区分不同VLA模型的核心设计选择。

4 分钟读完 6 张阅读卡北京大学人工智能研究院 (Institute for AI, Peking University)

一眼看懂封面预览

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文，从动作标记化 (Action To…

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文，从动作标记化 (Action To…
论文旨在解决当前VLA研究领域缺乏统一理解框架的问题，认为如何形式化动作标记是区分不同VLA模型的核心设计选择。
提出了一个VLA统一框架，将现有模型抽象为：视觉和语言输入经过一系列VLA模块处理，最终生成可执行动作的动作标记链。

Card 01 研究单位

研究单位

北京大学人工智能研究院 (Institute for AI, Peking University)
北京大学-思必驰机器人联合实验室 (PKU-PsiBot Joint Lab)
北京大学计算机学院 (School of Computer Science, Peking University)

Card 02 论文概述

论文概述

这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文，从动作标记化 (Action Tokenization) 的新视角出发，对现有研究进行了系统性梳理。
论文旨在解决当前VLA研究领域缺乏统一理解框架的问题，认为如何形式化动作标记是区分不同VLA模型的核心设计选择。

Card 03 核心贡献

核心贡献

提出了一个VLA统一框架，将现有模型抽象为：视觉和语言输入经过一系列VLA模块处理，最终生成可执行动作的动作标记链。
首次提出了基于动作标记的分类法，将现有方法归纳为八种主要类型：语言描述、代码、可操作性、轨迹、目标状态、潜在表示、原始动作和推理。
对每种动作标记类型的动机、代表性方法、优劣势及未来方向进行了系统、深入的梳理和分析。
总结了可扩展的数据源，并基于现有趋势，为未来VLA模型向通用智能体发展提供了广阔的讨论和前瞻性研究方向。

Card 04 方法描述

方法描述

本文是一篇系统性综述 (Survey)，而非提出新模型。其核心方法是基于动作标记的分类与分析方法。
关键创新在于引入了动作标记这一核心概念，将其定义为VLA模型中模块输出的、编码可执行信息的中间生成物（类似于LLM中的语言标记）。
技术路径是通过该视角对数百篇相关文献进行重新审视、归类、比较和趋势分析。

Card 05 数据集与资源

数据集与资源

本文作为综述，未引入新模型，因此不涉及具体模型参数量或训练资源。
论文详细讨论了VLA模型训练所依赖的三层可扩展数据源：底层的网页数据与人类视频、中层的合成与仿真数据，以及顶层的真实机器人数据。

Card 06 评估与结果

评估与结果

综述本身未进行新的实验评估，但总结了各类型动作标记在现有代表性工作中的关键实验结果。
报告了每种动作标记在特定任务上的代表性成就（如表1所示），例如：π_{0.5} 的铺床任务、Hi Robot 的制作三明治任务、RT-Trajectory 的桌面清洁任务等。
通过系统分析得出结论：未来的VLA模型不在于单一动作标记占主导，而在于这些动作标记的战略性整合，并提出了分层的架构发展趋势。