返回列表 VLA / Vision-Language-Action 每日论文卡
A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
论文提出一个名为 A₁ 的完全开源、透明、自适应且高效的截断视觉-语言-动作模型,旨在解决现有VLA模型部署成本高、推理延迟大,难以在普通硬件…

论文详情

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

2026-04-07 · 原文 · 翻译 · 2604.05672

论文提出一个名为 A₁ 的完全开源、透明、自适应且高效的截断视觉-语言-动作模型,旨在解决现有VLA模型部署成本高、推理延迟大,难以在普通硬件上实现实时控制的问题。 核心设计理念是“预算感知自适应推理”,通过联合加速 VLM主干 和 动作头,在不牺牲操作成功率的前提下,实现低成本、高吞吐量的推理。 论文释放了完整的训练栈(代码、数据处理管道、中间检查点、评估脚本),以确保端到端的可复现性,并承诺将模型权重与所有相关…

5 分钟读完 6 张阅读卡 SYSU (中山大学)
一眼看懂 封面预览

论文提出一个名为 A₁ 的完全开源、透明、自适应且高效的截断视觉-语言-动作模型,旨在解决现有VLA模型部署成本高、推理延迟大,难以在普通硬件…

  • 论文提出一个名为 A₁ 的完全开源、透明、自适应且高效的截断视觉-语言-动作模型,旨在解决现有VLA模型部署成本高、推理延迟大,难以在普通硬件…
  • 核心设计理念是“预算感知自适应推理”,通过联合加速 VLM主干 和 动作头,在不牺牲操作成功率的前提下,实现低成本、高吞吐量的推理。
  • 论文释放了完整的训练栈(代码、数据处理管道、中间检查点、评估脚本),以确保端到端的可复现性,并承诺将模型权重与所有相关组件开源。
Card 01 研究单位

研究单位

  • SYSU (中山大学)
  • MBZUAI (穆罕默德·本·扎耶德人工智能大学)
  • Spatialtemporal AI
Card 02 论文概述

论文概述

  • 论文提出一个名为 A₁ 的完全开源、透明、自适应且高效的截断视觉-语言-动作模型,旨在解决现有VLA模型部署成本高、推理延迟大,难以在普通硬件上实现实时控制的问题。
  • 核心设计理念是“预算感知自适应推理”,通过联合加速 VLM主干动作头,在不牺牲操作成功率的前提下,实现低成本、高吞吐量的推理。
  • 论文释放了完整的训练栈(代码、数据处理管道、中间检查点、评估脚本),以确保端到端的可复现性,并承诺将模型权重与所有相关组件开源。
Card 03 核心贡献

核心贡献

  • 提出一种联合加速方案:通过 动作一致性阈值 触发的早期终止来减少VLM冗余计算,并通过 跨层截断流匹配 进行热启动去噪,大幅降低端到端推理延迟。
  • 进行了可扩展的多机器人预训练:利用开源机器人数据集及自收集的 15,951 条轨迹,在多种机器人平台上进行训练,以支持鲁棒的跨平台泛化。
  • 取得了强大的实证结果:在 RoboChallenge 上达到平均 29.00% 的成功率,优于多个开源基线模型;并承诺完全开源模型权重、代码与评估协议。
Card 04 方法描述

方法描述

  • 模型架构包含一个基于 Molmo 的VLM主干和一个动作头,动作头可实例化为 流匹配(FM) 头或 MLP 头。
  • 创新点在于自适应推理加速:在推理过程中,计算各中间VLM层的动作并进行 动作一致性测试,若满足阈值则提前终止,避免完整深度的主干计算。
  • 为避免加速主干时导致FM动作头成为新瓶颈,提出 跨层截断流匹配:每层仅执行少量去噪步骤(如δ=2),并将当前层的输出作为下一层的初始条件,实现去噪过程的“热启动”。
Card 05 数据集与资源

数据集与资源

  • 预训练数据集包括开源数据集:DROIDAgiBotRoboCOINRoboMindGM-100RoboChallenge
  • 额外收集了 15,951 条真实世界轨迹,涵盖 ARXFrankaUR5Agibot 等多种机器人平台。
  • 模型主干采用 Molmo-7B VLM(约11.07 TFLOPs),动作头采用 Qwen3-400M 参数量的流匹配专家或轻量MLP头。
  • 训练资源未在文中详细说明,但提供了计算成本分析(如FLOPs和推理时间)。
Card 06 评估与结果

评估与结果

  • 评估环境包括模拟基准:LIBEROVLABench;以及真实机器人平台:FrankaAgiBotWuJie-ArmDobot-ArmRoboChallenge
  • 主要评估指标为操作任务的 成功率
  • 关键结果:在 LIBERO 上平均成功率达 96.6%,在 VLABench 上达 53.5%;在真实世界多机器人实验中平均成功率为 56.7%,显著优于基线;在 RoboChallenge 上平均成功率为 29.00%,排名第六并超越了 π₀X-VLA 等开源基线。