ICR-Drive: Instruction Counterfactual Robustness for End-to-End Language-Driven Autonomous Driving

一眼看懂封面预览

提出 ICR-Drive 框架，用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

ICR-Drive 框架和协议：配对、路线控制的评估协议，通过重放相同的 CARLA 路线和模拟器种子，将性能变化归因于指令语言
反事实指令分类法：涵盖四个扰动家族的扰动套件 — Paraphrase（释义）、Ambiguity（歧义）、Noise（噪声）和 Misleading（误导）
指令脆弱性的实证证据：对 LMDrive 和 BEVDriver 的系统研究表明，轻微的指令变化可能导致 substantial 性能下降
失败模式分析：通过路线偏差（RD）和超时/卡住（TO）终止签名揭示不同的失败模式

Card 04 方法描述

- Paraphrase：保留目标的释义改写，同义词替换和句法重排序

- Ambiguity：通过删除方向性、时间或距离限定符产生欠规范指令

- Noise：表面级损坏，包括大小写变化、标点编辑和字符级拼写错误

- Misleading：权威框架指令，明确与基线意图矛盾

Card 05 数据集与资源

- LMDrive：使用 Q-Former 集成视觉编码与自然语言指令，Vicuna-7B 主干

- BEVDriver：将多视图 RGB 图像和 3D LiDAR 点云编码为统一 BEV 特征图，Llama-7B 主干

Card 06 评估与结果

- LMDrive：Paraphrase/Ambiguity/Noise 性能下降（ΔDS ≈ -14 至 -15），Misleading 最严重（ΔDS = -33.64）

- BEVDriver：目标保留扰动影响较小，Noise 几乎无影响（ΔDS = -0.53），但 Misleading 仍然造成严重损害（ΔDS = -32.50）

- LMDrive：Paraphrase 和 Noise 反而提升性能（ΔDS +5.11 和 +9.44），Ambiguity 持续降低性能（ΔDS = -7.10）

- BEVDriver：所有家族都降低 DS，Ambiguity 最具破坏性（ΔDS = -17.65，ΔRC = -27.73）