返回列表 VLA / Vision-Language-Action 每日论文卡
Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System
论文提出了Libra-VLA,一种基于异步从粗到细双系统的视觉-语言-动作(VLA)模型架构,旨在解决机器人操作任务中的学习均衡问题。

论文详情

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

2026-04-27 · 原文 · 翻译 · 2604.24921

论文提出了Libra-VLA,一种基于异步从粗到细双系统的视觉-语言-动作(VLA)模型架构,旨在解决机器人操作任务中的学习均衡问题。 核心目标是弥合现有单体VLA模型中,高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距。 通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修,降低了单一模型的表示负担,并实现了高效、鲁棒的异步执行。

4 分钟读完 6 张阅读卡 北京航空航天大学(Beihang University)
一眼看懂 封面预览

论文提出了Libra-VLA,一种基于异步从粗到细双系统的视觉-语言-动作(VLA)模型架构,旨在解决机器人操作任务中的学习均衡问题。

  • 论文提出了Libra-VLA,一种基于异步从粗到细双系统的视觉-语言-动作(VLA)模型架构,旨在解决机器人操作任务中的学习均衡问题。
  • 核心目标是弥合现有单体VLA模型中,高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距。
  • 通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修,降低了单一模型的表示负担,并实现了高效、鲁棒的异步执行。
Card 01 研究单位

研究单位

  • 北京航空航天大学(Beihang University)
  • 智元机器人(AgiBot)
Card 02 论文概述

论文概述

  • 论文提出了Libra-VLA,一种基于异步从粗到细双系统的视觉-语言-动作(VLA)模型架构,旨在解决机器人操作任务中的学习均衡问题。
  • 核心目标是弥合现有单体VLA模型中,高级语义指令直接映射至低级高频运动命令所产生的语义-执行差距
  • 通过将动作生成解耦为离散的宏观方向规划与连续的微观姿态精修,降低了单一模型的表示负担,并实现了高效、鲁棒的异步执行。
Card 03 核心贡献

核心贡献

  • 提出了基于混合动作空间的从粗到细VLA新范式,并发现了学习复杂度均分原则,证明了模型性能随动作分解粒度呈倒U型曲线,峰值出现在两个子系统学习难度平衡时。
  • 设计并实现了一个解耦的异步双系统架构,其中Semantic Planner低频运行以提供稳定的离散规划,Action Refiner高频运行以实现实时的连续控制。
  • 开发了Libra-VLA模型,在仿真基准和真实世界实验中,相较于现有方法取得了更高的任务成功率与更低的推理延迟。
Card 04 方法描述

方法描述

  • 将动作生成建模于混合动作空间,分解为离散的语义宏观意图和连续的几何微观对齐。
  • System 2 (Semantic Planner):基于VLM主干网络,配合并行粗动作头,预测离散的宏观方向意图,作为几何锚点。
  • System 1 (Action Refiner):采用扩散Transformer,配备独立的视觉编码器,以粗意图为条件生成高精度连续动作。
  • 引入异步执行策略,通过意图缓冲区连接两个系统,允许规划器一次推理生成多步粗意图,供执行器迭代使用,实现频率解耦。
Card 05 数据集与资源

数据集与资源

  • 主要仿真基准:LIBERO(标准能力评估)和LIBERO-Plus(深入鲁棒性分析)。
  • 进行了真实世界机器人操作实验。
  • 模型初始化基于InternVL2.5-2B,所有实验均未使用大规模机器人数据预训练。
  • 训练资源等信息在附录中详述。
Card 06 评估与结果

评估与结果

  • 评估环境包括LIBERO基准的四个任务套件和LIBERO-Plus的七种扰动维度。
  • 主要评估指标为任务成功率
  • 关键结果:

- 在LIBERO基准上,Libra-VLA达到97.2%的平均成功率,创下新记录,并在精度关键和长时序任务上表现优异。

- 在LIBERO-Plus零样本迁移设置下达到79.5%平均成功率,在监督微调设置下达到82.3%,均达到最佳性能。

- 消融实验验证了各组件有效性、最佳粗动作粒度(N=10)以及动态课程训练策略的优越性。