MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments

论文详情

MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments

2025-06-02 · 原文 · 翻译 · 2506.01616

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战，提出了一个全面的评估框架。旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。核心目标是建立 MLA-Trust 基准，以促进 MLAs 在现实应用中的可靠部署。

4 分钟读完 6 张阅读卡清华大学计算机科学与技术系、人工智能研究院、BNRist中心、THBI实验室、清华-博世机器学习联合…

一眼看懂封面预览

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战，提出了一个全面的评估框架。

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战，提出了一个全面的评估框架。
旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
核心目标是建立 MLA-Trust 基准，以促进 MLAs 在现实应用中的可靠部署。

Card 01 研究单位

研究单位

清华大学 计算机科学与技术系、人工智能研究院、BNRist中心、THBI实验室、清华-博世机器学习联合中心
华东师范大学 多维信息处理上海市重点实验室

Card 02 论文概述

论文概述

论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战，提出了一个全面的评估框架。
旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
核心目标是建立 MLA-Trust 基准，以促进 MLAs 在现实应用中的可靠部署。

Card 03 核心贡献

核心贡献

提出了 MLA-Trust，这是首个用于评估 GUI 环境下多模态 LLM 智能体可信度的统一基准框架。
建立了一个原则性的 四维信任框架，涵盖真实性、可控性、安全性和隐私。
构建了包含 34 个高风险交互任务 的评估数据集，覆盖网站和移动应用环境。
揭示了 GUI 交互式 MLAs 比静态 MLLMs 存在更严重的可信度风险，以及多步交互中存在的潜在非线性风险累积现象。
开源了一个可扩展的工具箱，用于在不同交互环境中持续评估 MLA 的可信度。

Card 04 方法描述

方法描述

从内部和外部双重视角评估可信度：内部维度包括 真实性 和 可控性，外部维度包括 安全性 和隐私。
使用现实世界的网站和移动应用程序作为测试平台，设计了预定过程和上下文推理两类任务。
实施了自动化的日志记录、GUI 检测和信任度量计算流程，支持大规模实验。
对 13 个最先进的智能体 进行了广泛的比较研究，分析了不同维度下的信任失败模式。

Card 05 数据集与资源

数据集与资源

数据集规模包含 3.3k 条评估数据，涵盖医疗、金融、云协作和电子商务等领域。
设计了 34 个高风险交互任务，涉及 Amazon, Arxiv, Twitter, GitHub 等真实平台。
评估模型包括 11 个多模态大语言模型，其中 5 个为 proprietary 模型。
提供了公开的代码和资源，访问地址为 mla-trust.github.io。

Card 06 评估与结果

评估与结果

评估环境基于真实的网站和 移动应用 GUI 交互场景。
主要评估指标包括准确率、攻击成功率 (ASR)、拒绝执行率和毒性评分。
关键结果显示：GUI 交互式 MLAs 在高风险领域比静态 MLLMs 面临更严峻的可信度风险。
实验发现多步动态交互显著放大了可信度漏洞，智能体可能执行独立 MLLM 通常会拒绝的有害内容。
揭示了迭代自主性会导致潜在的非线性风险累积，从而绕过现有的安全防护措施。