Image Quality Assessment for Embodied AI

论文详情

Image Quality Assessment for Embodied AI

2025-05-22 · 原文 · 翻译 · 2505.16815

论文首次提出了面向具身智能的图像质量评估任务，旨在评估图像在具身任务中的可用性，而非传统的人类视觉偏好。研究指出人类视觉系统（HVS）、机器视觉系统（MVS）和机器人视觉系统（RVS）之间存在显著差异，RVS 包含独特的决策和执行步骤，导致传统 IQA 方法无法直接应用。论文通过构建新的数据库和评估基准，解决了具身智能在真实世界复杂失真环境下应用受限的问题，为未来具身场景提供了准确的质量指标。

5 分钟读完 6 张阅读卡 Shanghai Jiao Tong University

一眼看懂封面预览

论文首次提出了面向具身智能的图像质量评估任务，旨在评估图像在具身任务中的可用性，而非传统的人类视觉偏好。

论文首次提出了面向具身智能的图像质量评估任务，旨在评估图像在具身任务中的可用性，而非传统的人类视觉偏好。
研究指出人类视觉系统（HVS）、机器视觉系统（MVS）和机器人视觉系统（RVS）之间存在显著差异，RVS 包含独特的决策和执行步骤，导致传统…
论文通过构建新的数据库和评估基准，解决了具身智能在真实世界复杂失真环境下应用受限的问题，为未来具身场景提供了准确的质量指标。

Card 01 研究单位

研究单位

Shanghai Jiao Tong University
Shanghai AI Lab
Nanyang Technological University

Card 02 论文概述

论文概述

论文首次提出了面向具身智能的图像质量评估任务，旨在评估图像在具身任务中的可用性，而非传统的人类视觉偏好。
研究指出人类视觉系统（HVS）、机器视觉系统（MVS）和机器人视觉系统（RVS）之间存在显著差异，RVS 包含独特的决策和执行步骤，导致传统 IQA 方法无法直接应用。
论文通过构建新的数据库和评估基准，解决了具身智能在真实世界复杂失真环境下应用受限的问题，为未来具身场景提供了准确的质量指标。

Card 03 核心贡献

核心贡献

理论创新：基于 Mertonian Law 构建了 Perception-Cognition-Decision-Execution 流水线，定义了具身感知的任务及各步骤的主观评分收集流程。
数据构建：建立了 Embodied-IQA 数据库，包含超过 36,900 张失真图像对和超过 500 万条由 VLM/VLA/真实机器人提供的细粒度标注。
实验验证：验证了 15 种主流 IQA 方法在具身智能任务上的表现，并首次在 IQA 领域进行了真实世界实验（1.5k 任务），揭示了现有方法的局限性。

Card 04 方法描述

方法描述

构建了包含感知、认知、决策和执行四个阶段的评估流水线。
在认知阶段，利用 15 个主流 Vision Language Models (VLMs) 对图像对进行推理，计算文本相似度作为认知得分。
在决策阶段，利用 15 个 Vision Language Action-models (VLAs) 输出 7 自由度姿态，计算位置、旋转和状态的差异作为决策得分。
在执行阶段，使用真实机械臂执行任务，根据任务成功率和姿态误差计算执行得分。

Card 05 数据集与资源

数据集与资源

使用的数据集为自建的 Embodied-IQA 数据集，包含 1,230 张参考图像和 36,900 张失真图像（涵盖 30 种失真类型）。
模型规模涉及 15 个 VLM 和 15 个 VLA（参数量均控制在 8B 以下以保证实时性）。
训练与推理资源包括 16 张 NVIDIA A800 SXM4 80GB GPUs，以及 UR5 机械臂、Robotiq 2F-140 夹爪和 Intel RealSense D455 深度相机。

Card 06 评估与结果

评估与结果

评估环境基于 Embodied-IQA 数据库，对比了 15 种先进 IQA 方法（包括 Zero-shot、FR 和 NR 指标）。
主要评估指标包括 SRCC、KRCC 和 PLCC，用于衡量客观评分与主观决策得分的一致性。
实验结果显示，现有的 FR 和 NR 方法的 SRCC 分别低于 0.65 和 0.6，远低于其在人类偏好数据集上的表现；其中 TOPIQ-FR 表现最佳（SRCC 约 0.75），证明了开发面向具身 AI 的专用质量评估指标的必要性。