一眼看懂
封面预览
论文首次提出了面向具身智能的图像质量评估任务,旨在评估图像在具身任务中的可用性,而非传统的人类视觉偏好。
- 论文首次提出了面向具身智能的图像质量评估任务,旨在评估图像在具身任务中的可用性,而非传统的人类视觉偏好。
- 研究指出人类视觉系统(HVS)、机器视觉系统(MVS)和机器人视觉系统(RVS)之间存在显著差异,RVS 包含独特的决策和执行步骤,导致传统…
- 论文通过构建新的数据库和评估基准,解决了具身智能在真实世界复杂失真环境下应用受限的问题,为未来具身场景提供了准确的质量指标。
Card 01
研究单位
研究单位
- Shanghai Jiao Tong University
- Shanghai AI Lab
- Nanyang Technological University
Card 02
论文概述
论文概述
- 论文首次提出了面向具身智能的图像质量评估任务,旨在评估图像在具身任务中的可用性,而非传统的人类视觉偏好。
- 研究指出人类视觉系统(HVS)、机器视觉系统(MVS)和机器人视觉系统(RVS)之间存在显著差异,RVS 包含独特的决策和执行步骤,导致传统 IQA 方法无法直接应用。
- 论文通过构建新的数据库和评估基准,解决了具身智能在真实世界复杂失真环境下应用受限的问题,为未来具身场景提供了准确的质量指标。
Card 03
核心贡献
核心贡献
- 理论创新:基于 Mertonian Law 构建了 Perception-Cognition-Decision-Execution 流水线,定义了具身感知的任务及各步骤的主观评分收集流程。
- 数据构建:建立了 Embodied-IQA 数据库,包含超过 36,900 张失真图像对和超过 500 万条由 VLM/VLA/真实机器人提供的细粒度标注。
- 实验验证:验证了 15 种主流 IQA 方法在具身智能任务上的表现,并首次在 IQA 领域进行了真实世界实验(1.5k 任务),揭示了现有方法的局限性。
Card 04
方法描述
方法描述
- 构建了包含感知、认知、决策和执行四个阶段的评估流水线。
- 在认知阶段,利用 15 个主流 Vision Language Models (VLMs) 对图像对进行推理,计算文本相似度作为认知得分。
- 在决策阶段,利用 15 个 Vision Language Action-models (VLAs) 输出 7 自由度姿态,计算位置、旋转和状态的差异作为决策得分。
- 在执行阶段,使用真实机械臂执行任务,根据任务成功率和姿态误差计算执行得分。
Card 05
数据集与资源
数据集与资源
- 使用的数据集为自建的 Embodied-IQA 数据集,包含 1,230 张参考图像和 36,900 张失真图像(涵盖 30 种失真类型)。
- 模型规模涉及 15 个 VLM 和 15 个 VLA(参数量均控制在 8B 以下以保证实时性)。
- 训练与推理资源包括 16 张 NVIDIA A800 SXM4 80GB GPUs,以及 UR5 机械臂、Robotiq 2F-140 夹爪和 Intel RealSense D455 深度相机。
Card 06
评估与结果
评估与结果
- 评估环境基于 Embodied-IQA 数据库,对比了 15 种先进 IQA 方法(包括 Zero-shot、FR 和 NR 指标)。
- 主要评估指标包括 SRCC、KRCC 和 PLCC,用于衡量客观评分与主观决策得分的一致性。
- 实验结果显示,现有的 FR 和 NR 方法的 SRCC 分别低于 0.65 和 0.6,远低于其在人类偏好数据集上的表现;其中 TOPIQ-FR 表现最佳(SRCC 约 0.75),证明了开发面向具身 AI 的专用质量评估指标的必要性。