一眼看懂
封面预览
提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的…
- 提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的…
- 评估发现当前最先进的模型(GPT-5、π₀、Magma)均存在严重的跨领域泛化失败,包括模态错位、输出格式不稳定和灾难性知识退化
- 开源模型适配代码,支持多种架构在异构任务域上的一致评估
Card 01
研究单位
研究单位
- Manifold Research
- Metarch AI
- Georgia Tech
- Tufts University
- Northeastern University
- Birla Institute of Technology and Science, Pilani
- Institute for Research and Innovation in Intelligent Systems (IRIIS)
Card 02
论文概述
论文概述
- 提出 MultiNet v1.0,一个统一的基准测试框架,用于评估视觉-语言模型(VLMs)和视觉-语言-动作模型(VLAs)在跨领域任务上的通用性
- 评估发现当前最先进的模型(GPT-5、π₀、Magma)均存在严重的跨领域泛化失败,包括模态错位、输出格式不稳定和灾难性知识退化
Card 03
核心贡献
核心贡献
- 开源模型适配代码,支持多种架构在异构任务域上的一致评估
- 标准化提交流程,确保可复现的基准测试和跨模型可比性
- 全面评估了当前最先进的视觉-语言和视觉-语言-动作模型在感知、推理和控制任务上的通用性
- 开源SDK,简化跨领域、跨注释格式的数据集下载、处理和转换
Card 04
方法描述
方法描述
- 采用零样本评估设置,通过任务特定的提示和严格的输出来解析进行测试
- 针对π₀模型开发了权重注入方法,恢复其语言生成能力以评估视觉-语言表示
- 为GPT-5设计了动态提示策略,将文本生成与离散/连续动作输出对齐
- 对Magma进行文本生成适配,绕过其专用动作头以支持异构动作空间
Card 05
数据集与资源
数据集与资源
- Open-X Embodiment:机器人操作数据集,包含68个任务、7种机器人构型、约10,000小时数据
- Overcooked:多智能体协作游戏环境,评估离散联合动作预测
- PIQA:物理常识推理基准
- SQA3D:3D空间问答数据集
- ODINW:野外目标检测基准
- BFCL:多轮函数调用评估基准
- RoboVQA:机器人视频问答数据集
Card 06
评估与结果
评估与结果
- 评估指标:EMR(精确匹配率)、F1、BNAMAE/BNAMSE(基线归一化平均绝对/平方误差)、语义相似度、Brier MAE
- GPT-5在视觉-语言任务上表现最佳,但在动作执行任务中仍显不足
- π₀在视觉-语言任务上完全崩溃(EMR接近0),出现重复"increa" token的灾难性失败;在Overcooked上出现动作空间坍缩,集中于动作25和26
- Magma存在输出模态混淆,频繁输出坐标字符串而非所需标签,在12自由度四足机器人控制上误差极高