返回列表 VLA / Vision-Language-Action 每日论文卡
StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
论文提出了StarVLA,一个用于视觉-语言-动作(VLA)模型开发的模块化开源代码库

论文详情

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

2026-04-06 · 原文 · 翻译 · 2604.05014

论文提出了StarVLA,一个用于视觉-语言-动作(VLA)模型开发的模块化开源代码库 旨在解决现有VLA研究在架构、代码库和评估协议方面存在的碎片化问题 目标是提供一个统一的研究平台,支持系统性比较和快速原型开发

3 分钟读完 6 张阅读卡 StarVLA社区
一眼看懂 封面预览

论文提出了StarVLA,一个用于视觉-语言-动作(VLA)模型开发的模块化开源代码库

  • 论文提出了StarVLA,一个用于视觉-语言-动作(VLA)模型开发的模块化开源代码库
  • 旨在解决现有VLA研究在架构、代码库和评估协议方面存在的碎片化问题
  • 目标是提供一个统一的研究平台,支持系统性比较和快速原型开发
Card 01 研究单位

研究单位

  • StarVLA社区
  • Von Neumann Institute, HKUST
Card 02 论文概述

论文概述

  • 论文提出了StarVLA,一个用于视觉-语言-动作(VLA)模型开发的模块化开源代码库
  • 旨在解决现有VLA研究在架构、代码库和评估协议方面存在的碎片化问题
  • 目标是提供一个统一的研究平台,支持系统性比较和快速原型开发
Card 03 核心贡献

核心贡献

  • 提供了模块化的骨干-动作头架构,支持VLM骨干和世界模型骨干的自由组合
  • 实现了四种代表性VLA范式:StarVLA-FASTStarVLA-OFTStarVLA-πStarVLA-GR00T
  • 提供了可复用的训练策略,包括多目标协同训练和跨具身协同训练
  • 集成了五个主流基准:LIBEROSimplerEnvRoboTwin 2.0RoboCasa-GR1BEHAVIOR-1K
  • 在多个基准上实现了接近或超越现有方法的性能,提供了易于复现的基线
Card 04 方法描述

方法描述

  • 采用骨干-动作头分解设计,将VLA系统解耦为视觉-语言骨干和可插拔的动作头
  • 定义了统一的I/O接口,使训练输入与部署时的原始观测保持一致
  • 支持四种动作解码范式:自回归离散化、并行回归、流匹配去噪和双系统推理
  • 提供了统一的服务器-客户端评估接口,支持仿真和真实机器人部署
Card 05 数据集与资源

数据集与资源

  • 使用了多个标准基准数据集,包括LIBEROSimplerEnvRoboTwin 2.0
  • 支持Qwen3-VL-4BCosmos-Predict2-2B等多种视觉-语言骨干模型
  • 训练使用A100 GPU,分布式训练配置为8或16卡
Card 06 评估与结果

评估与结果

  • LIBERO基准上,使用Qwen3-VL-4B骨干的StarVLA-OFT达到96.6%平均成功率
  • SimplerEnv WidowX基准上,StarVLA达到65.3%的平均成功率,超越多个基线方法
  • 实验表明不同骨干模型(VLM和世界模型)在相同训练配置下可获得相当的性能
  • 提供了单基准和多基准协同训练的完整示例和可复现脚本