返回列表 VLA / Vision-Language-Action 每日论文卡
Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
论文提出 Evo-1,一个轻量级的视觉-语言-动作 (VLA) 模型,旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…

论文详情

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

2025-11-06 · 原文 · 翻译 · 2511.04555

论文提出 Evo-1,一个轻量级的视觉-语言-动作 (VLA) 模型,旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和实时部署难的问题。 该模型通过保留预训练视觉-语言模型的语义对齐能力,在无需机器人数据预训练的情况下,实现了低成本训练和高效实时推理。 核心目标是构建一个参数量小(0.77B)、性能强、泛化能力好的高效VLA模型。

5 分钟读完 6 张阅读卡 上海交通大学人工智能学院
一眼看懂 封面预览

论文提出 Evo-1,一个轻量级的视觉-语言-动作 (VLA) 模型,旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…

  • 论文提出 Evo-1,一个轻量级的视觉-语言-动作 (VLA) 模型,旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…
  • 该模型通过保留预训练视觉-语言模型的语义对齐能力,在无需机器人数据预训练的情况下,实现了低成本训练和高效实时推理。
  • 核心目标是构建一个参数量小(0.77B)、性能强、泛化能力好的高效VLA模型。
Card 01 研究单位

研究单位

  • 上海交通大学人工智能学院
  • EvoMind Tech
  • IAAR-Shanghai
  • 卡内基梅隆大学
  • 剑桥大学
  • 南洋理工大学
Card 02 论文概述

论文概述

  • 论文提出 Evo-1,一个轻量级的视觉-语言-动作 (VLA) 模型,旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和实时部署难的问题。
  • 该模型通过保留预训练视觉-语言模型的语义对齐能力,在无需机器人数据预训练的情况下,实现了低成本训练和高效实时推理。
  • 核心目标是构建一个参数量小(0.77B)、性能强、泛化能力好的高效VLA模型。
Card 03 核心贡献

核心贡献

  • 提出了 Evo-1,一个仅有0.77B参数的轻量级VLA架构,显著降低了训练成本并提升了在消费级GPU上的推理速度。
  • 引入了一种两阶段训练范式,在将模型适应于动作生成的同时,有效保留了视觉-语言骨干网络固有的多模态理解能力,从而提升了泛化性能。
  • 通过大量实验证明,Evo-1 在无需大规模机器人数据预训练的前提下,于仿真和真实世界任务中均取得了最先进 (SOTA) 性能,大幅降低了对昂贵数据收集的需求。
Card 04 方法描述

方法描述

  • 架构:模型由三部分组成:基于InternVL3-1B视觉-语言骨干网络、一个新颖的交叉调制扩散变换器 作为动作专家,以及一个优化的集成模块
  • 创新点:骨干网络采用原生多模态训练范式,视觉编码器使用轻量化的InternViT-300M,语言模型使用Qwen2.5-0.5B。动作专家采用纯交叉注意力层的扩散变换器,用于生成连续动作轨迹。集成模块通过拼接视觉-语言特征与机器人状态来保留完整信息。
  • 训练策略:提出两阶段训练流程。第一阶段冻结VLM骨干,仅训练动作专家和集成模块以对齐特征空间;第二阶段解冻VLM进行全参数微调,实现深度融合与任务适应。该策略有效保留了VLM的语义空间。
Card 05 数据集与资源

数据集与资源

  • 使用了Meta-WorldLIBERORoboTwin 三个仿真基准,以及自采的真实世界机器人操作任务数据。
  • 模型总参数量为 0.77B
  • 训练使用 8块 NVIDIA A100 GPU
Card 06 评估与结果

评估与结果

  • 仿真实验:在Meta-World基准上达到 80.6% 的平均成功率,超越之前最佳模型 12.4%;在RoboTwin基准上达到 37.8%,超越之前最佳 6.9%;在LIBERO基准上达到 94.8% 的竞争力结果。
  • 真实世界实验:在四个代表性机器人任务上取得 78% 的总体成功率,高于所有基线模型。
  • 效率评估:在RTX 4090d GPU上,模型显存占用仅 2.3 GB,推理频率达 16.4 Hz,在效率与性能上取得了最佳平衡。泛化实验表明,模型在面对未见干扰物、背景变化、目标位置和高度变化时,表现均优于基线模型。