一眼看懂
封面预览
这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action To…
- 这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action To…
- 论文旨在解决当前VLA研究领域缺乏统一理解框架的问题,认为如何形式化动作标记是区分不同VLA模型的核心设计选择。
- 提出了一个VLA统一框架,将现有模型抽象为:视觉和语言输入经过一系列VLA模块处理,最终生成可执行动作的动作标记链。
Card 01
研究单位
研究单位
- 北京大学人工智能研究院 (Institute for AI, Peking University)
- 北京大学-思必驰机器人联合实验室 (PKU-PsiBot Joint Lab)
- 北京大学计算机学院 (School of Computer Science, Peking University)
Card 02
论文概述
论文概述
- 这是一篇关于视觉-语言-动作 (Vision-Language-Action, VLA) 模型的综述性论文,从动作标记化 (Action Tokenization) 的新视角出发,对现有研究进行了系统性梳理。
- 论文旨在解决当前VLA研究领域缺乏统一理解框架的问题,认为如何形式化动作标记是区分不同VLA模型的核心设计选择。
Card 03
核心贡献
核心贡献
- 提出了一个VLA统一框架,将现有模型抽象为:视觉和语言输入经过一系列VLA模块处理,最终生成可执行动作的动作标记链。
- 首次提出了基于动作标记的分类法,将现有方法归纳为八种主要类型:语言描述、代码、可操作性、轨迹、目标状态、潜在表示、原始动作和推理。
- 对每种动作标记类型的动机、代表性方法、优劣势及未来方向进行了系统、深入的梳理和分析。
- 总结了可扩展的数据源,并基于现有趋势,为未来VLA模型向通用智能体发展提供了广阔的讨论和前瞻性研究方向。
Card 04
方法描述
方法描述
- 本文是一篇系统性综述 (Survey),而非提出新模型。其核心方法是基于动作标记的分类与分析方法。
- 关键创新在于引入了动作标记这一核心概念,将其定义为VLA模型中模块输出的、编码可执行信息的中间生成物(类似于LLM中的语言标记)。
- 技术路径是通过该视角对数百篇相关文献进行重新审视、归类、比较和趋势分析。
Card 05
数据集与资源
数据集与资源
- 本文作为综述,未引入新模型,因此不涉及具体模型参数量或训练资源。
- 论文详细讨论了VLA模型训练所依赖的三层可扩展数据源:底层的网页数据与人类视频、中层的合成与仿真数据,以及顶层的真实机器人数据。
Card 06
评估与结果
评估与结果
- 综述本身未进行新的实验评估,但总结了各类型动作标记在现有代表性工作中的关键实验结果。
- 报告了每种动作标记在特定任务上的代表性成就(如表1所示),例如:π_{0.5} 的铺床任务、Hi Robot 的制作三明治任务、RT-Trajectory 的桌面清洁任务等。
- 通过系统分析得出结论:未来的VLA模型不在于单一动作标记占主导,而在于这些动作标记的战略性整合,并提出了分层的架构发展趋势。