论文系统地审计了多个广泛使用的 Vision-Language-Action（VLA）数据集，旨在表征这些数据集包含的指令类型及其语言多样性程度

论文详情

Limited Linguistic Diversity in Embodied AI Datasets

2026-01-06 · 原文 · 翻译 · 2601.03136

论文系统地审计了多个广泛使用的 Vision-Language-Action（VLA）数据集，旨在表征这些数据集包含的指令类型及其语言多样性程度研究发现当前 VLA 数据集依赖高度重复的模板化命令，结构变化有限，导致指令形式分布狭窄——不到 2% 的指令是独特的论文将发现定位为对当前 VLA 训练和评估数据中语言信号的描述性文档，旨在支持更详细的数据集报告、更原则性的数据集选择，以及扩大语言覆盖的针对性策划或增…

6 分钟读完 6 张阅读卡 Los Alamos National Laboratory（美国洛杉矶阿拉莫斯国家实验室）- Sel…

一眼看懂封面预览

论文系统地审计了多个广泛使用的 Vision-Language-Action（VLA）数据集，旨在表征这些数据集包含的指令类型及其语言多样性程度

论文系统地审计了多个广泛使用的 Vision-Language-Action（VLA）数据集，旨在表征这些数据集包含的指令类型及其语言多样性程度
研究发现当前 VLA 数据集依赖高度重复的模板化命令，结构变化有限，导致指令形式分布狭窄——不到 2% 的指令是独特的
论文将发现定位为对当前 VLA 训练和评估数据中语言信号的描述性文档，旨在支持更详细的数据集报告、更原则性的数据集选择，以及扩大语言覆盖的针对…

Card 01 研究单位

研究单位

Los Alamos National Laboratory（美国洛杉矶阿拉莫斯国家实验室）- Selma Wanna、Ryan Barron、Juston Moore
University of Tartu（爱沙尼亚塔尔图大学计算机科学研究所）- Agnes Luhtaru
The University of Texas at Austin（德克萨斯大学奥斯汀分校机械工程系）- Jonathan Salfity、Mitch Pryor
University of Maryland, Baltimore County（马里兰大学巴尔的摩县分校）- Cynthia Matuszek

Card 02 论文概述

论文概述

论文系统地审计了多个广泛使用的 Vision-Language-Action（VLA）数据集，旨在表征这些数据集包含的指令类型及其语言多样性程度
研究发现当前 VLA 数据集依赖高度重复的模板化命令，结构变化有限，导致指令形式分布狭窄——不到 2% 的指令是独特的
论文将发现定位为对当前 VLA 训练和评估数据中语言信号的描述性文档，旨在支持更详细的数据集报告、更原则性的数据集选择，以及扩大语言覆盖的针对性策划或增强策略

Card 03 核心贡献

核心贡献

首次对 VLA 数据集的语言多样性进行系统性分析
从三个维度量化指令语言：词汇冗余与多样性、语义多样性和结构多样性
发现 VLA 数据集词汇多样性极低（如 RT-1 仅包含 49 个独特词汇）
发现缺乏复杂的语言结构——否定语和条件句均不到 1%，多步指令占主导但句法模式高度重复
提供全面的多维度评估指标，包括 BLEU、ROUGE-L、压缩比、BERTscore、POS 模式、树核相似度等

Card 04 方法描述

方法描述

分析了 Open X-Embodiment（OXE） 集合中的主流 VLA 数据集，并与其他机器人和指令调优数据集进行比较
三个分析维度：

- A.1 词汇多样性：独特命令数量、句子长度、词汇重叠度、BLEU、ROUGE-L、压缩比、Jaccard、Levenshtein 距离

- A.2 语义多样性：使用多种编码器（USE、SBERT、CLIP、SONAR）的句子嵌入，通过 BERTScore 和 PCA 内在维度分析测量

- A.3 结构多样性：POS 模式分布、句法树核相似度、否定/条件句/多步指令/循环结构的频率分析

Card 05 数据集与资源

数据集与资源

VLA 数据集：RT-1、BRIDGE、TacoPlay、Language Table、LIBERO（来自 OXE）
语言导向机器人数据集：ALFRED、SCOUT
NLU 和指令调优数据集：GLUE、OASST2、Alpaca、LLaVA-Instruct
数据规模：RT-1 约 370 万条指令，Language Table 约 700 万条指令

Card 06 评估与结果

评估与结果

VLA 数据集中不到 2% 的指令是独特的，而指令调优数据集通常超过 70%
RT-1 仅包含 49 个独特词汇，是所有数据集中最低的
否定语在不到 1% 的指令中出现，条件句同样罕见
压缩比指标显示 VLA 数据集重复度极高（RT-1 为 118.195）
多步指令在机器人数据集中最为常见，但缺乏逻辑结构（否定、条件、循环）
POS 模式分析显示高度重复：RT-1 最频繁的句型占 11%，TacoPlay 占 24%
跨数据集词汇重叠低，仅有四个词（move、close、open、pick）在所有数据集中出现