提出 MultiNet v1.0，一个统一的基准测试框架，用于评估视觉-语言模型（VLMs）和视觉-语言-动作模型（VLAs）在跨领域任务上的…

论文详情

Benchmarking the Generality of Vision-Language-Action Models

2025-12-12 · 原文 · 翻译 · 2512.11315

提出 MultiNet v1.0，一个统一的基准测试框架，用于评估视觉-语言模型（VLMs）和视觉-语言-动作模型（VLAs）在跨领域任务上的通用性评估发现当前最先进的模型（GPT-5、π₀、Magma）均存在严重的跨领域泛化失败，包括模态错位、输出格式不稳定和灾难性知识退化

4 分钟读完 6 张阅读卡 Manifold Research

一眼看懂封面预览

提出 MultiNet v1.0，一个统一的基准测试框架，用于评估视觉-语言模型（VLMs）和视觉-语言-动作模型（VLAs）在跨领域任务上的…

提出 MultiNet v1.0，一个统一的基准测试框架，用于评估视觉-语言模型（VLMs）和视觉-语言-动作模型（VLAs）在跨领域任务上的…
评估发现当前最先进的模型（GPT-5、π₀、Magma）均存在严重的跨领域泛化失败，包括模态错位、输出格式不稳定和灾难性知识退化
开源模型适配代码，支持多种架构在异构任务域上的一致评估

Card 01 研究单位

研究单位

Manifold Research
Metarch AI
Georgia Tech
Tufts University
Northeastern University
Birla Institute of Technology and Science, Pilani
Institute for Research and Innovation in Intelligent Systems (IRIIS)

Card 02 论文概述

论文概述

提出 MultiNet v1.0，一个统一的基准测试框架，用于评估视觉-语言模型（VLMs）和视觉-语言-动作模型（VLAs）在跨领域任务上的通用性
评估发现当前最先进的模型（GPT-5、π₀、Magma）均存在严重的跨领域泛化失败，包括模态错位、输出格式不稳定和灾难性知识退化

Card 03 核心贡献

核心贡献

开源模型适配代码，支持多种架构在异构任务域上的一致评估
标准化提交流程，确保可复现的基准测试和跨模型可比性
全面评估了当前最先进的视觉-语言和视觉-语言-动作模型在感知、推理和控制任务上的通用性
开源SDK，简化跨领域、跨注释格式的数据集下载、处理和转换

Card 04 方法描述

方法描述

采用零样本评估设置，通过任务特定的提示和严格的输出来解析进行测试
针对π₀模型开发了权重注入方法，恢复其语言生成能力以评估视觉-语言表示
为GPT-5设计了动态提示策略，将文本生成与离散/连续动作输出对齐
对Magma进行文本生成适配，绕过其专用动作头以支持异构动作空间

Card 05 数据集与资源

数据集与资源

Open-X Embodiment：机器人操作数据集，包含68个任务、7种机器人构型、约10,000小时数据
Overcooked：多智能体协作游戏环境，评估离散联合动作预测
PIQA：物理常识推理基准
SQA3D：3D空间问答数据集
ODINW：野外目标检测基准
BFCL：多轮函数调用评估基准
RoboVQA：机器人视频问答数据集

Card 06 评估与结果

评估与结果

评估指标：EMR（精确匹配率）、F1、BNAMAE/BNAMSE（基线归一化平均绝对/平方误差）、语义相似度、Brier MAE
GPT-5在视觉-语言任务上表现最佳，但在动作执行任务中仍显不足
π₀在视觉-语言任务上完全崩溃（EMR接近0），出现重复"increa" token的灾难性失败；在Overcooked上出现动作空间坍缩，集中于动作25和26
Magma存在输出模态混淆，频繁输出坐标字符串而非所需标签，在12自由度四足机器人控制上误差极高