NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

一眼看懂封面预览

提出了 NORA-1.5，一种基于预训练 NORA 模型构建的视觉-语言-动作（VLA）模型，通过集成流匹配（flow-matching）ba…

Card 01 研究单位

研究单位

南洋理工大学 (Nanyang Technological University, NTU) - 作者：Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Ziwei Wang, Soujanya Poria
Lambda Labs - 作者：Amir Zadeh, Chuan Li
新加坡科技设计大学 (Singapore University of Technology and Design, SUTD) - 作者：Dorien Herremans

Card 02 论文概述

提出了 NORA-1.5，一种基于预训练 NORA 模型构建的视觉-语言-动作（VLA）模型，通过集成流匹配（flow-matching）based 动作专家来提升性能
解决了现有 VLA 模型在可靠性、泛化能力以及跨不同实施方式和真实环境部署方面的不足
开发了一套基于世界模型（World Model）和动作的偏好奖励机制，用于 VLA 策略的后训练（post-training），通过直接偏好优化（DPO）来提升模型鲁棒性和任务成功率

Card 03 核心贡献

引入 NORA-1.5：在预训练自回归 VLA 模型（NORA）基础上集成流匹配动作专家，在 SimplerEnv 和 LIBERO 模拟基准测试中取得最先进性能，并能迁移到真实机器人（Galaxea A1）
多策略动作奖励机制：提出（i）基于世界模型的目标奖励（V-JEPA2-AC）、（ii）基于真实动作的距离奖励（GTA）、（iii）子目标评分等互补信号，为 VLA 动作排序提供鲁棒且可扩展的标准
全面架构分析：详细研究流匹配专家与自回归 VLA 主干耦合的效果，发现两者存在强协同效益
推进 VLA 可扩展后训练：证明简单奖励模型结合 DPO 偏好优化在模拟和真实机器人环境中均能带来一致的性能提升

Card 04 方法描述

模型架构：使用 NORA（基于 Qwen-2.5-VL-3B，3B 参数）作为 VLA 主干，通过分层自注意力耦合流匹配动作专家 A，直接回归动作序列 a_{t:t+N}（N=5）
流匹配动作专家：参数化为堆叠 Transformer 网络，使用流匹配损失函数训练，将噪声动作序列映射到真实动作速度
奖励模型设计：

- WM 目标奖励（公式6）：使用 V-JEPA2-AC（1.3B 参数）预测动作执行后的未来帧嵌入，与目标帧嵌入比较

- GTA 动作奖励（公式7）：测量采样动作与真实动作的 L1 距离

- 总奖励（公式8）：两者加权组合（R_g + 0.5R_a）

Card 05 数据集与资源

Card 06 评估与结果

- NORA-1.5 (fine-tuned) 达到 77.9% 平均成功率（Visual Matching）和 70.7%（Variant Aggregation）

- NORA-1.5 (DPO) 进一步提升至 82.8%（Visual Matching），比 SFT 基线提高 4.9%

- NORA-1.5 达到 94.5% 平均成功率，超越 π₀ 等先进模型

- NORA-1.5 (DPO) 达到 95.0%，尤其在 Long 子集提升至 90.5%

- NORA-1.5 平均成功率达到 71.11%，比 π₀（25.55%）和 NORA（58.88%）分别提升 46% 和 13%

- 在含干扰物的未见任务中表现尤为突出，显示强鲁棒性