返回列表 VLA / Vision-Language-Action 每日论文卡
Benchmarking the Generality of Vision-Language-Action Models
提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的…

论文详情

Benchmarking the Generality of Vision-Language-Action Models

2025-12-12 · 原文 · 翻译 · 2512.11315

提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的通用性 评估发现当前最先进的模型(GPT-5、π₀、Magma)均存在严重的跨领域泛化失败,包括模态错位、输出格式不稳定和灾难性知识退化

4 分钟读完 6 张阅读卡 Manifold Research
一眼看懂 封面预览

提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的…

  • 提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的…
  • 评估发现当前最先进的模型(GPT-5、π₀、Magma)均存在严重的跨领域泛化失败,包括模态错位、输出格式不稳定和灾难性知识退化
  • 开源模型适配代码,支持多种架构在异构任务域上的一致评估
Card 01 研究单位

研究单位

  • Manifold Research
  • Metarch AI
  • Georgia Tech
  • Tufts University
  • Northeastern University
  • Birla Institute of Technology and Science, Pilani
  • Institute for Research and Innovation in Intelligent Systems (IRIIS)
Card 02 论文概述

论文概述

  • 提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的通用性
  • 评估发现当前最先进的模型(GPT-5π₀Magma)均存在严重的跨领域泛化失败,包括模态错位、输出格式不稳定和灾难性知识退化
Card 03 核心贡献

核心贡献

  • 开源模型适配代码,支持多种架构在异构任务域上的一致评估
  • 标准化提交流程,确保可复现的基准测试和跨模型可比性
  • 全面评估了当前最先进的视觉-语言和视觉-语言-动作模型在感知、推理和控制任务上的通用性
  • 开源SDK,简化跨领域、跨注释格式的数据集下载、处理和转换
Card 04 方法描述

方法描述

  • 采用零样本评估设置,通过任务特定的提示和严格的输出来解析进行测试
  • 针对π₀模型开发了权重注入方法,恢复其语言生成能力以评估视觉-语言表示
  • GPT-5设计了动态提示策略,将文本生成与离散/连续动作输出对齐
  • Magma进行文本生成适配,绕过其专用动作头以支持异构动作空间
Card 05 数据集与资源

数据集与资源

  • Open-X Embodiment:机器人操作数据集,包含68个任务、7种机器人构型、约10,000小时数据
  • Overcooked:多智能体协作游戏环境,评估离散联合动作预测
  • PIQA:物理常识推理基准
  • SQA3D:3D空间问答数据集
  • ODINW:野外目标检测基准
  • BFCL:多轮函数调用评估基准
  • RoboVQA:机器人视频问答数据集
Card 06 评估与结果

评估与结果

  • 评估指标:EMR(精确匹配率)、F1BNAMAE/BNAMSE(基线归一化平均绝对/平方误差)、语义相似度、Brier MAE
  • GPT-5在视觉-语言任务上表现最佳,但在动作执行任务中仍显不足
  • π₀在视觉-语言任务上完全崩溃(EMR接近0),出现重复"increa" token的灾难性失败;在Overcooked上出现动作空间坍缩,集中于动作25和26
  • Magma存在输出模态混淆,频繁输出坐标字符串而非所需标签,在12自由度四足机器人控制上误差极高