返回列表 VLA / Vision-Language-Action 每日论文卡
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
提出 X-VLA,一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型,旨在解决跨本体机器人数据异构性问题

论文详情

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

2025-10-11 · 原文 · 翻译 · 2510.10274

提出 X-VLA,一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型,旨在解决跨本体机器人数据异构性问题 通过为每个数据源引入可学习的嵌入(soft prompts)作为本体特定提示,使 VLA 模型能够有效利用不同的跨本体特征 在 6 个模拟基准(包括自动驾驶基准)和 3 个真实世界机器人平台上同时实现 SOTA 性能

5 分钟读完 6 张阅读卡 清华大学 智能产业研究院 (AIR)
一眼看懂 封面预览

提出 X-VLA,一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型,旨在解决跨本体机器人数据异构性问题

  • 提出 X-VLA,一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型,旨在解决跨本体机器人数据异构性问题
  • 通过为每个数据源引入可学习的嵌入(soft prompts)作为本体特定提示,使 VLA 模型能够有效利用不同的跨本体特征
  • 在 6 个模拟基准(包括自动驾驶基准)和 3 个真实世界机器人平台上同时实现 SOTA 性能
Card 01 研究单位

研究单位

  • 清华大学 智能产业研究院 (AIR)
  • 上海人工智能实验室 (Shanghai AI Lab)
  • 北京大学
Card 02 论文概述

论文概述

  • 提出 X-VLA,一种基于 Soft Prompt 的可扩展跨本体视觉-语言-动作模型,旨在解决跨本体机器人数据异构性问题
  • 通过为每个数据源引入可学习的嵌入(soft prompts)作为本体特定提示,使 VLA 模型能够有效利用不同的跨本体特征
  • 6 个模拟基准(包括自动驾驶基准)和 3 个真实世界机器人平台上同时实现 SOTA 性能
Card 03 核心贡献

核心贡献

  • 异构软提示学习:引入可学习的 soft prompts 来吸收跨数据源的异构性,无需人工标注即可编码硬件配置
  • 简洁架构设计:基于流匹配(flow-matching)的 VLA 框架,仅使用标准 Transformer 编码器,具有良好的可扩展性
  • 两阶段训练范式:Phase I 预训练学习本体无关策略,Phase II 领域适配通过新 soft prompts 实现快速部署
  • 高效参数微调:使用 LoRA 仅调优 1% 参数(9M)即可达到与全参数微调相当的性能
  • 高质量数据集:构建 Soft-Fold 衣物折叠数据集,包含 1,200 条轨迹
Card 04 方法描述

方法描述

  • Soft Prompt 机制:为每个数据源分配独立的可学习嵌入,注入到模型早期阶段引导本体感知学习
  • 编码管道:使用 Florence-Large 作为 VLM 编码器处理主视觉-语言流,腕部视图使用共享视觉骨干
  • 流匹配策略:通过学习速度场将噪声样本传输到目标动作块,使用 OT 路径对齐
  • 动作对齐:将动作标准化为末端执行器(EEF)位姿表示(位置 + Rotate6D 旋转 + 夹爪状态)
  • 意图抽象:通过时间下采样构建 30 个锚点总结未来 4 秒的意图轨迹
Card 05 数据集与资源

数据集与资源

  • 预训练数据:Droid、Robomind、Agibot,跨 7 个平台、5 种机械臂(单臂到双臂)
  • 训练数据量:290K episodes
  • 模型规模X-VLA-0.9B(0.9B 参数,隐藏层 1024,24 个 Transformer 块)
  • 适配数据:仅需 1,200 条演示即可完成衣物折叠任务
Card 06 评估与结果

评估与结果

  • 模拟基准:Libero、Simpler-WidowX、VLABench、RoboTwin-2.0、Calvin、NAVSIM
  • 关键结果

- Simpler-WidowX: 95.8% 成功率

- LIBERO: 98.1% 平均成功率

- Calvin 第一阶段: 97.6% 成功率

- NAVSIM (自动驾驶): 87.3% PDMS

  • 真实世界实验:BridgeData-v2 基准上优于所有基线
  • PEFT 实验:仅调优 9M 参数(1%),在 Libero 达到 93%,Simpler-WidowX 达到 54%,与 π₀(3B 参数)相当