提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性
- 提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性
- 当前语言条件驾驶评估假设指令是精确和规范的,但实际部署中指令在措辞、特异性上存在变化,甚至可能包含误导性内容
- 研究问题:语言条件驾驶代理对语义等价但语言变体的敏感程度如何?
研究单位
- Texas Tech University - Kaiser Hamid, Nade Liang
- Bosch Center for Artificial Intelligence (BCAI) - Can Cui
论文概述
- 提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性
- 当前语言条件驾驶评估假设指令是精确和规范的,但实际部署中指令在措辞、特异性上存在变化,甚至可能包含误导性内容
- 研究问题:语言条件驾驶代理对语义等价但语言变体的敏感程度如何?
- 在保持 CARLA 路线和模拟器配置一致的情况下,系统地改变指令措辞来隔离语言变化的影响
核心贡献
- ICR-Drive 框架和协议:配对、路线控制的评估协议,通过重放相同的 CARLA 路线和模拟器种子,将性能变化归因于指令语言
- 反事实指令分类法:涵盖四个扰动家族的扰动套件 — Paraphrase(释义)、Ambiguity(歧义)、Noise(噪声)和 Misleading(误导)
- 指令脆弱性的实证证据:对 LMDrive 和 BEVDriver 的系统研究表明,轻微的指令变化可能导致 substantial 性能下降
- 失败模式分析:通过路线偏差(RD)和超时/卡住(TO)终止签名揭示不同的失败模式
方法描述
- 使用基于规则模板的离线生成方法创建反事实指令变体
- 四种指令扰动家族:
- Paraphrase:保留目标的释义改写,同义词替换和句法重排序
- Ambiguity:通过删除方向性、时间或距离限定符产生欠规范指令
- Noise:表面级损坏,包括大小写变化、标点编辑和字符级拼写错误
- Misleading:权威框架指令,明确与基线意图矛盾
- 配对评估设计:固定地图、天气、交通密度和随机种子,隔离指令语言影响
- 使用 CARLA Leaderboard 指标(Driving Score、Route Completion、Infraction Score)进行评估
数据集与资源
- 数据集:LangAuto-Tiny、LangAuto(完整)、CARLA v0.9.10.1
- 评估代理:
- LMDrive:使用 Q-Former 集成视觉编码与自然语言指令,Vicuna-7B 主干
- BEVDriver:将多视图 RGB 图像和 3D LiDAR 点云编码为统一 BEV 特征图,Llama-7B 主干
- 训练资源:单张 NVIDIA RTX 4090 GPU
- 每条路线变体数量:每个扰动家族 K=8,共 32 个反事实指令
评估与结果
- LangAuto-Tiny 结果:
- LMDrive:Paraphrase/Ambiguity/Noise 性能下降(ΔDS ≈ -14 至 -15),Misleading 最严重(ΔDS = -33.64)
- BEVDriver:目标保留扰动影响较小,Noise 几乎无影响(ΔDS = -0.53),但 Misleading 仍然造成严重损害(ΔDS = -32.50)
- LangAuto(完整)结果:
- LMDrive:Paraphrase 和 Noise 反而提升性能(ΔDS +5.11 和 +9.44),Ambiguity 持续降低性能(ΔDS = -7.10)
- BEVDriver:所有家族都降低 DS,Ambiguity 最具破坏性(ΔDS = -17.65,ΔRC = -27.73)
- 关键发现:指令反事实不能可靠地保持策略行为;即使目标保留变体也可能产生非单调效应