返回列表 VLA / Vision-Language-Action 每日论文卡

MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments

论文详情

MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments

2025-06-02 · 原文 · 翻译 · 2506.01616

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。 旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。 核心目标是建立 MLA-Trust 基准,以促进 MLAs 在现实应用中的可靠部署。

4 分钟读完 6 张阅读卡 清华大学 计算机科学与技术系、人工智能研究院、BNRist中心、THBI实验室、清华-博世机器学习联合…
一眼看懂 封面预览

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。

  • 论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。
  • 旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
  • 核心目标是建立 MLA-Trust 基准,以促进 MLAs 在现实应用中的可靠部署。
Card 01 研究单位

研究单位

  • 清华大学 计算机科学与技术系、人工智能研究院、BNRist中心、THBI实验室、清华-博世机器学习联合中心
  • 华东师范大学 多维信息处理上海市重点实验室
Card 02 论文概述

论文概述

  • 论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。
  • 旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
  • 核心目标是建立 MLA-Trust 基准,以促进 MLAs 在现实应用中的可靠部署。
Card 03 核心贡献

核心贡献

  • 提出了 MLA-Trust,这是首个用于评估 GUI 环境下多模态 LLM 智能体可信度的统一基准框架。
  • 建立了一个原则性的 四维信任框架,涵盖真实性、可控性、安全性和隐私。
  • 构建了包含 34 个高风险交互任务 的评估数据集,覆盖网站和移动应用环境。
  • 揭示了 GUI 交互式 MLAs 比静态 MLLMs 存在更严重的可信度风险,以及多步交互中存在的潜在非线性风险累积现象。
  • 开源了一个可扩展的工具箱,用于在不同交互环境中持续评估 MLA 的可信度。
Card 04 方法描述

方法描述

  • 从内部和外部双重视角评估可信度:内部维度包括 真实性可控性,外部维度包括 安全性隐私
  • 使用现实世界的网站和移动应用程序作为测试平台,设计了预定过程和上下文推理两类任务。
  • 实施了自动化的日志记录、GUI 检测和信任度量计算流程,支持大规模实验。
  • 13 个最先进的智能体 进行了广泛的比较研究,分析了不同维度下的信任失败模式。
Card 05 数据集与资源

数据集与资源

  • 数据集规模包含 3.3k 条评估数据,涵盖医疗、金融、云协作和电子商务等领域。
  • 设计了 34 个高风险交互任务,涉及 Amazon, Arxiv, Twitter, GitHub 等真实平台。
  • 评估模型包括 11 个多模态大语言模型,其中 5 个为 proprietary 模型
  • 提供了公开的代码和资源,访问地址为 mla-trust.github.io
Card 06 评估与结果

评估与结果

  • 评估环境基于真实的 网站移动应用 GUI 交互场景。
  • 主要评估指标包括准确率、攻击成功率 (ASR)、拒绝执行率 和毒性评分。
  • 关键结果显示:GUI 交互式 MLAs 在高风险领域比静态 MLLMs 面临更严峻的可信度风险。
  • 实验发现多步动态交互显著放大了可信度漏洞,智能体可能执行独立 MLLM 通常会拒绝的有害内容。
  • 揭示了迭代自主性会导致潜在的非线性风险累积,从而绕过现有的安全防护措施。