提出了一种可解释且对抗鲁棒的视觉-语言-动作模型，用于智能农业场景中的机器人操作任务。

论文详情

Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation

2025-12-05 · 原文 · 翻译 · 2512.11865

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型，用于智能农业场景中的机器人操作任务。旨在解决智能农业系统中，RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动（对抗性攻击）时容易失效的问题。通过在现有VLA模型中集成一个对抗攻击检测与解释模块，提升模型的鲁棒性与可解释性。

5 分钟读完 6 张阅读卡 Department of Computer Science and Engineering, Gye…

一眼看懂封面预览

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型，用于智能农业场景中的机器人操作任务。

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型，用于智能农业场景中的机器人操作任务。
旨在解决智能农业系统中，RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动（对抗性攻击）时容易失效的问题。
通过在现有VLA模型中集成一个对抗攻击检测与解释模块，提升模型的鲁棒性与可解释性。

Card 01 研究单位

研究单位

Department of Computer Science and Engineering, Gyeongsang National University
Department of AI Convergence Engineering, Gyeongsang National University

Card 02 论文概述

论文概述

提出了一种可解释且对抗鲁棒的视觉-语言-动作模型，用于智能农业场景中的机器人操作任务。
旨在解决智能农业系统中，RGB摄像头和机器人机械臂在面对色调、光照和噪声等光度扰动（对抗性攻击）时容易失效的问题。
通过在现有VLA模型中集成一个对抗攻击检测与解释模块，提升模型的鲁棒性与可解释性。

Card 03 核心贡献

核心贡献

提出了一个基于OpenVLA-OFT框架的可解释对抗鲁棒视觉-语言-动作模型。
设计并集成了一个名为 Evidence-3 的模块，用于检测光度扰动并以自然语言解释其成因和影响。
提出了一种联合训练策略，同时优化动作预测损失和可解释性损失，使模型在对抗条件下更准确、更可解释。
在模拟环境中生成了包含随机光度变换的对抗性数据集，用于模型训练和评估。
实验表明，该模型在对抗条件下显著提升了动作预测精度，并实现了极高的解释准确性。

Card 04 方法描述

方法描述

该方法在 OpenVLA-OFT 框架基础上进行扩展。Evidence-3模块 使用三种统计度量（HSV马氏距离、高频能量比、局部熵标准差）来检测图像中的异常。
检测到的统计线索被嵌入到用户指令中，作为额外输入提供给基于 Llama2 的主干模型。
模型包含两个输出头：一个用于预测当前和后续机器人动作（最小化L1损失），另一个用于生成描述对抗攻击的XAI令牌（最小化交叉熵损失）。
关键创新在于将对抗检测统计量与语言指令融合，并通过多任务损失函数联合训练，同时优化动作预测和解释生成。

Card 05 数据集与资源

数据集与资源

使用 Franka Emika Panda 机械臂和RGB相机在 Isaac Sim 仿真环境中收集数据。
通过应用随机光度变换（色调偏移、光照调整、噪声注入）生成对抗性变体，构建训练数据集。
模型基于 OpenVLA-OFT 和 Llama2 主干。论文未明确提及模型的具体参数量和训练所使用的硬件资源。

Card 06 评估与结果

评估与结果

评估基准：与基线模型（Default）和仅使用数据增强的对抗训练模型（Augmented）进行比较。
主要评估指标：XAI令牌准确率、当前动作L1损失、后续动作L1损失（均越低越好）。
关键实验结果：所提出的模型在XAI令牌准确率上达到 99.77%。与基线模型相比，当前动作L1损失降低了21.7%（从0.0826降至0.0647），后续动作L1损失降低了18.4%（从0.0788降至0.0643），同时性能也优于仅使用数据增强的模型。