VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

一眼看懂封面预览

论文提出了 VLA Foundry，一个开源的统一框架，旨在将大语言模型（LLM）、视觉语言模型（VLM）和视觉语言动作模型（VLA）的训练整…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了 VLA Foundry，一个开源的统一框架，旨在将大语言模型（LLM）、视觉语言模型（VLM）和视觉语言动作模型（VLA）的训练整合在同一个代码库中。
该框架为用户提供端到端的控制能力，覆盖从语言预训练到动作专家微调的整个训练管道。
论文解决了当前开源VLA训练框架主要专注于动作训练阶段、而上游预训练流程往往被割裂或不兼容的问题，旨在为研究人员提供一个可探索数据、骨干网络和训练配方之间交互关系的完整、可控的实验系统。

Card 03 核心贡献

发布了一个统一、开源的训练框架 VLA Foundry，共享数据加载、训练循环和配置系统，支持LLM、VLM、VLA全流程训练，并可无缝接入Hugging Face的预训练模型骨干。
基于该框架训练并开源了两类模型：完全从头训练的 Foundry-VLA-1.7B，以及基于预训练 Qwen3-VL 骨干构建的 Foundry-Qwen3VLA-2.1B-MT，并发布了中间检查点供社区使用。
为开源模拟器 LBM Eval 和分析工具 STEP 提供了易用性改进，并内置了一个统计严谨的评估仪表盘，便于社区进行模型对比和决策。
通过实验证明，框架能够有效支持从头训练和预训练骨干微调两条路径，且更强的VLM骨干能显著提升VLA策略的性能。

Card 04 方法描述

框架采用基于YAML的模块化配置系统（Draccus），通过注册表机制实现模型和数据管道的灵活组装与替换，保持训练循环的模型无关性。
训练栈支持FSDP2分布式训练、混合精度、梯度累积和检查点同步，专为中等规模算力设计，并在多达128个GPU上进行了吞吐量基准测试。
机器人数据处理模块包含专门的 RoboticsNormalizer，支持全局和分时步的归一化方案，使用t-digest进行百分位估计与合并；动作表示支持绝对和相对坐标，并可配置动作块的时间窗口。
模型架构采用流匹配作为动作头，VLA输入序列包含图像、任务描述文本和一个新增的观察token，其隐藏状态用于条件化一个流Transformer以去噪动作序列。

Card 05 数据集与资源

Card 06 评估与结果

- 在标准评估设置下，完全从头训练的 Foundry-VLA-1.7B 模型性能与先前的闭源 LBM-MT 模型相当。

- 基于 Qwen3-VL 骨干的 Foundry-Qwen3VLA-2.1B-MT 模型性能显著优于其他模型，平均领先超过20个百分点。

- 多任务训练与微调实验表明，更强的VLM骨干能带来更好的策略泛化与性能提升，验证了框架在探索骨干网络与策略性能关联方面的有效性。