一眼看懂
封面预览
论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。
- 论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。
- 旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
- 核心目标是建立 MLA-Trust 基准,以促进 MLAs 在现实应用中的可靠部署。
Card 01
研究单位
研究单位
- 清华大学 计算机科学与技术系、人工智能研究院、BNRist中心、THBI实验室、清华-博世机器学习联合中心
- 华东师范大学 多维信息处理上海市重点实验室
Card 02
论文概述
论文概述
- 论文针对多模态大语言模型智能体在 GUI 环境中的交互能力带来的关键信任挑战,提出了一个全面的评估框架。
- 旨在解决现有基准测试无法应对 MLAs 可操作输出、长期不确定性和多模态攻击向量等独特风险的问题。
- 核心目标是建立 MLA-Trust 基准,以促进 MLAs 在现实应用中的可靠部署。
Card 03
核心贡献
核心贡献
- 提出了 MLA-Trust,这是首个用于评估 GUI 环境下多模态 LLM 智能体可信度的统一基准框架。
- 建立了一个原则性的 四维信任框架,涵盖真实性、可控性、安全性和隐私。
- 构建了包含 34 个高风险交互任务 的评估数据集,覆盖网站和移动应用环境。
- 揭示了 GUI 交互式 MLAs 比静态 MLLMs 存在更严重的可信度风险,以及多步交互中存在的潜在非线性风险累积现象。
- 开源了一个可扩展的工具箱,用于在不同交互环境中持续评估 MLA 的可信度。
Card 04
方法描述
方法描述
- 从内部和外部双重视角评估可信度:内部维度包括 真实性 和 可控性,外部维度包括 安全性 和 隐私。
- 使用现实世界的网站和移动应用程序作为测试平台,设计了预定过程和上下文推理两类任务。
- 实施了自动化的日志记录、GUI 检测和信任度量计算流程,支持大规模实验。
- 对 13 个最先进的智能体 进行了广泛的比较研究,分析了不同维度下的信任失败模式。
Card 05
数据集与资源
数据集与资源
- 数据集规模包含 3.3k 条评估数据,涵盖医疗、金融、云协作和电子商务等领域。
- 设计了 34 个高风险交互任务,涉及 Amazon, Arxiv, Twitter, GitHub 等真实平台。
- 评估模型包括 11 个多模态大语言模型,其中 5 个为 proprietary 模型。
- 提供了公开的代码和资源,访问地址为 mla-trust.github.io。
Card 06
评估与结果
评估与结果
- 评估环境基于真实的 网站 和 移动应用 GUI 交互场景。
- 主要评估指标包括准确率、攻击成功率 (ASR)、拒绝执行率 和毒性评分。
- 关键结果显示:GUI 交互式 MLAs 在高风险领域比静态 MLLMs 面临更严峻的可信度风险。
- 实验发现多步动态交互显著放大了可信度漏洞,智能体可能执行独立 MLLM 通常会拒绝的有害内容。
- 揭示了迭代自主性会导致潜在的非线性风险累积,从而绕过现有的安全防护措施。