提出 X-VLA，一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型，旨在解决跨本体机器人数据异构性问题

论文详情

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

2025-10-11 · 原文 · 翻译 · 2510.10274

提出 X-VLA，一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型，旨在解决跨本体机器人数据异构性问题通过为每个数据源引入可学习的嵌入（soft prompts）作为本体特定提示，使 VLA 模型能够有效利用不同的跨本体特征在 6 个模拟基准（包括自动驾驶基准）和 3 个真实世界机器人平台上同时实现 SOTA 性能

5 分钟读完 6 张阅读卡清华大学智能产业研究院 (AIR)

一眼看懂封面预览

提出 X-VLA，一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型，旨在解决跨本体机器人数据异构性问题

提出 X-VLA，一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型，旨在解决跨本体机器人数据异构性问题
通过为每个数据源引入可学习的嵌入（soft prompts）作为本体特定提示，使 VLA 模型能够有效利用不同的跨本体特征
在 6 个模拟基准（包括自动驾驶基准）和 3 个真实世界机器人平台上同时实现 SOTA 性能

Card 01 研究单位

研究单位

清华大学 智能产业研究院 (AIR)
上海人工智能实验室 (Shanghai AI Lab)
北京大学

Card 02 论文概述

论文概述

提出 X-VLA，一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型，旨在解决跨本体机器人数据异构性问题
通过为每个数据源引入可学习的嵌入（soft prompts）作为本体特定提示，使 VLA 模型能够有效利用不同的跨本体特征
在 6 个模拟基准（包括自动驾驶基准）和 3 个真实世界机器人平台上同时实现 SOTA 性能

Card 03 核心贡献

核心贡献

异构软提示学习：引入可学习的 soft prompts 来吸收跨数据源的异构性，无需人工标注即可编码硬件配置
简洁架构设计：基于流匹配（flow-matching）的 VLA 框架，仅使用标准 Transformer 编码器，具有良好的可扩展性
两阶段训练范式：Phase I 预训练学习本体无关策略，Phase II 领域适配通过新 soft prompts 实现快速部署
高效参数微调：使用 LoRA 仅调优 1% 参数（9M）即可达到与全参数微调相当的性能
高质量数据集：构建 Soft-Fold 衣物折叠数据集，包含 1,200 条轨迹

Card 04 方法描述

方法描述

Soft Prompt 机制：为每个数据源分配独立的可学习嵌入，注入到模型早期阶段引导本体感知学习
编码管道：使用 Florence-Large 作为 VLM 编码器处理主视觉-语言流，腕部视图使用共享视觉骨干
流匹配策略：通过学习速度场将噪声样本传输到目标动作块，使用 OT 路径对齐
动作对齐：将动作标准化为末端执行器（EEF）位姿表示（位置 + Rotate6D 旋转 + 夹爪状态）
意图抽象：通过时间下采样构建 30 个锚点总结未来 4 秒的意图轨迹

Card 05 数据集与资源

数据集与资源

预训练数据：Droid、Robomind、Agibot，跨 7 个平台、5 种机械臂（单臂到双臂）
训练数据量：290K episodes
模型规模：X-VLA-0.9B（0.9B 参数，隐藏层 1024，24 个 Transformer 块）
适配数据：仅需 1,200 条演示即可完成衣物折叠任务

Card 06 评估与结果

评估与结果

模拟基准：Libero、Simpler-WidowX、VLABench、RoboTwin-2.0、Calvin、NAVSIM
关键结果：

- Simpler-WidowX: 95.8% 成功率

- LIBERO: 98.1% 平均成功率

- Calvin 第一阶段: 97.6% 成功率

- NAVSIM (自动驾驶): 87.3% PDMS

真实世界实验：BridgeData-v2 基准上优于所有基线
PEFT 实验：仅调优 9M 参数（1%），在 Libero 达到 93%，Simpler-WidowX 达到 54%，与 π₀（3B 参数）相当