论文提出了Libra-VLA，一种基于异步从粗到细双系统的视觉-语言-动作（VLA）模型架构，旨在解决机器人操作任务中的学习均衡问题。

论文详情

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

2026-04-27 · 原文 · 翻译 · 2604.24921

论文提出了Libra-VLA，一种基于异步从粗到细双系统的视觉-语言-动作（VLA）模型架构，旨在解决机器人操作任务中的学习均衡问题。核心目标是弥合现有单体VLA模型中，高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距。通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修，降低了单一模型的表示负担，并实现了高效、鲁棒的异步执行。

4 分钟读完 6 张阅读卡北京航空航天大学（Beihang University）

一眼看懂封面预览

论文提出了Libra-VLA，一种基于异步从粗到细双系统的视觉-语言-动作（VLA）模型架构，旨在解决机器人操作任务中的学习均衡问题。

论文提出了Libra-VLA，一种基于异步从粗到细双系统的视觉-语言-动作（VLA）模型架构，旨在解决机器人操作任务中的学习均衡问题。
核心目标是弥合现有单体VLA模型中，高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距。
通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修，降低了单一模型的表示负担，并实现了高效、鲁棒的异步执行。

Card 01 研究单位

研究单位

北京航空航天大学（Beihang University）
智元机器人（AgiBot）

Card 02 论文概述

论文概述

论文提出了Libra-VLA，一种基于异步从粗到细双系统的视觉-语言-动作（VLA）模型架构，旨在解决机器人操作任务中的学习均衡问题。
核心目标是弥合现有单体VLA模型中，高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距。
通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修，降低了单一模型的表示负担，并实现了高效、鲁棒的异步执行。

Card 03 核心贡献

核心贡献

提出了基于混合动作空间的从粗到细VLA新范式，并发现了学习复杂度均分原则，证明了模型性能随动作分解粒度呈倒U型曲线，峰值出现在两个子系统学习难度平衡时。
设计并实现了一个解耦的异步双系统架构，其中Semantic Planner低频运行以提供稳定的离散规划，Action Refiner高频运行以实现实时的连续控制。
开发了Libra-VLA模型，在仿真基准和真实世界实验中，相较于现有方法取得了更高的任务成功率与更低的推理延迟。

Card 04 方法描述

方法描述

将动作生成建模于混合动作空间，分解为离散的语义宏观意图和连续的几何微观对齐。
System 2 (Semantic Planner)：基于VLM主干网络，配合并行粗动作头，预测离散的宏观方向意图，作为几何锚点。
System 1 (Action Refiner)：采用扩散Transformer，配备独立的视觉编码器，以粗意图为条件生成高精度连续动作。
引入异步执行策略，通过意图缓冲区连接两个系统，允许规划器一次推理生成多步粗意图，供执行器迭代使用，实现频率解耦。

Card 05 数据集与资源

数据集与资源

主要仿真基准：LIBERO（标准能力评估）和LIBERO-Plus（深入鲁棒性分析）。
进行了真实世界机器人操作实验。
模型初始化基于InternVL2.5-2B，所有实验均未使用大规模机器人数据预训练。
训练资源等信息在附录中详述。

Card 06 评估与结果

评估与结果

评估环境包括LIBERO基准的四个任务套件和LIBERO-Plus的七种扰动维度。
主要评估指标为任务成功率。
关键结果：

- 在LIBERO基准上，Libra-VLA达到97.2%的平均成功率，创下新记录，并在精度关键和长时序任务上表现优异。

- 在LIBERO-Plus零样本迁移设置下达到79.5%平均成功率，在监督微调设置下达到82.3%，均达到最佳性能。

- 消融实验验证了各组件有效性、最佳粗动作粒度（N=10）以及动态课程训练策略的优越性。