论文提出 Evo-1，一个轻量级的视觉-语言-动作 (VLA) 模型，旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…

论文详情

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

2025-11-06 · 原文 · 翻译 · 2511.04555

论文提出 Evo-1，一个轻量级的视觉-语言-动作 (VLA) 模型，旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和实时部署难的问题。该模型通过保留预训练视觉-语言模型的语义对齐能力，在无需机器人数据预训练的情况下，实现了低成本训练和高效实时推理。核心目标是构建一个参数量小（0.77B）、性能强、泛化能力好的高效VLA模型。

5 分钟读完 6 张阅读卡上海交通大学人工智能学院

一眼看懂封面预览

论文提出 Evo-1，一个轻量级的视觉-语言-动作 (VLA) 模型，旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…

论文提出 Evo-1，一个轻量级的视觉-语言-动作 (VLA) 模型，旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和…
该模型通过保留预训练视觉-语言模型的语义对齐能力，在无需机器人数据预训练的情况下，实现了低成本训练和高效实时推理。
核心目标是构建一个参数量小（0.77B）、性能强、泛化能力好的高效VLA模型。

Card 01 研究单位

研究单位

上海交通大学人工智能学院
EvoMind Tech
IAAR-Shanghai
卡内基梅隆大学
剑桥大学
南洋理工大学

Card 02 论文概述

论文概述

论文提出 Evo-1，一个轻量级的视觉-语言-动作 (VLA) 模型，旨在解决现有VLA模型参数庞大、依赖大规模机器人数据预训练、计算成本高和实时部署难的问题。
该模型通过保留预训练视觉-语言模型的语义对齐能力，在无需机器人数据预训练的情况下，实现了低成本训练和高效实时推理。
核心目标是构建一个参数量小（0.77B）、性能强、泛化能力好的高效VLA模型。

Card 03 核心贡献

核心贡献

提出了 Evo-1，一个仅有0.77B参数的轻量级VLA架构，显著降低了训练成本并提升了在消费级GPU上的推理速度。
引入了一种两阶段训练范式，在将模型适应于动作生成的同时，有效保留了视觉-语言骨干网络固有的多模态理解能力，从而提升了泛化性能。
通过大量实验证明，Evo-1 在无需大规模机器人数据预训练的前提下，于仿真和真实世界任务中均取得了最先进 (SOTA) 性能，大幅降低了对昂贵数据收集的需求。

Card 04 方法描述

方法描述

架构：模型由三部分组成：基于InternVL3-1B的视觉-语言骨干网络、一个新颖的交叉调制扩散变换器 作为动作专家，以及一个优化的集成模块。
创新点：骨干网络采用原生多模态训练范式，视觉编码器使用轻量化的InternViT-300M，语言模型使用Qwen2.5-0.5B。动作专家采用纯交叉注意力层的扩散变换器，用于生成连续动作轨迹。集成模块通过拼接视觉-语言特征与机器人状态来保留完整信息。
训练策略：提出两阶段训练流程。第一阶段冻结VLM骨干，仅训练动作专家和集成模块以对齐特征空间；第二阶段解冻VLM进行全参数微调，实现深度融合与任务适应。该策略有效保留了VLM的语义空间。

Card 05 数据集与资源

数据集与资源

使用了Meta-World、LIBERO、RoboTwin 三个仿真基准，以及自采的真实世界机器人操作任务数据。
模型总参数量为 0.77B。
训练使用 8块 NVIDIA A100 GPU。

Card 06 评估与结果

评估与结果

仿真实验：在Meta-World基准上达到 80.6% 的平均成功率，超越之前最佳模型 12.4%；在RoboTwin基准上达到 37.8%，超越之前最佳 6.9%；在LIBERO基准上达到 94.8% 的竞争力结果。
真实世界实验：在四个代表性机器人任务上取得 78% 的总体成功率，高于所有基线模型。
效率评估：在RTX 4090d GPU上，模型显存占用仅 2.3 GB，推理频率达 16.4 Hz，在效率与性能上取得了最佳平衡。泛化实验表明，模型在面对未见干扰物、背景变化、目标位置和高度变化时，表现均优于基线模型。