返回列表 VLA / Vision-Language-Action 每日论文卡
ICR-Drive: Instruction Counterfactual Robustness for End-to-End Language-Driven Autonomous Driving
提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性

论文详情

ICR-Drive: Instruction Counterfactual Robustness for End-to-End Language-Driven Autonomous Driving

2026-04-07 · 原文 · 翻译 · 2604.05378

提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性 当前语言条件驾驶评估假设指令是精确和规范的,但实际部署中指令在措辞、特异性上存在变化,甚至可能包含误导性内容 研究问题:语言条件驾驶代理对语义等价但语言变体的敏感程度如何? 在保持 CARLA 路线和模拟器配置一致的情况下,系统地改变指令措辞来隔离语言变化的影响

6 分钟读完 6 张阅读卡 Texas Tech University - Kaiser Hamid, Nade Liang
一眼看懂 封面预览

提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性

  • 提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性
  • 当前语言条件驾驶评估假设指令是精确和规范的,但实际部署中指令在措辞、特异性上存在变化,甚至可能包含误导性内容
  • 研究问题:语言条件驾驶代理对语义等价但语言变体的敏感程度如何?
Card 01 研究单位

研究单位

  • Texas Tech University - Kaiser Hamid, Nade Liang
  • Bosch Center for Artificial Intelligence (BCAI) - Can Cui
Card 02 论文概述

论文概述

  • 提出 ICR-Drive 框架,用于评估端到端语言驱动自动驾驶系统的指令反事实鲁棒性
  • 当前语言条件驾驶评估假设指令是精确和规范的,但实际部署中指令在措辞、特异性上存在变化,甚至可能包含误导性内容
  • 研究问题:语言条件驾驶代理对语义等价但语言变体的敏感程度如何?
  • 在保持 CARLA 路线和模拟器配置一致的情况下,系统地改变指令措辞来隔离语言变化的影响
Card 03 核心贡献

核心贡献

  • ICR-Drive 框架和协议:配对、路线控制的评估协议,通过重放相同的 CARLA 路线和模拟器种子,将性能变化归因于指令语言
  • 反事实指令分类法:涵盖四个扰动家族的扰动套件 — Paraphrase(释义)、Ambiguity(歧义)、Noise(噪声)和 Misleading(误导)
  • 指令脆弱性的实证证据:对 LMDrive 和 BEVDriver 的系统研究表明,轻微的指令变化可能导致 substantial 性能下降
  • 失败模式分析:通过路线偏差(RD)和超时/卡住(TO)终止签名揭示不同的失败模式
Card 04 方法描述

方法描述

  • 使用基于规则模板的离线生成方法创建反事实指令变体
  • 四种指令扰动家族

- Paraphrase:保留目标的释义改写,同义词替换和句法重排序

- Ambiguity:通过删除方向性、时间或距离限定符产生欠规范指令

- Noise:表面级损坏,包括大小写变化、标点编辑和字符级拼写错误

- Misleading:权威框架指令,明确与基线意图矛盾

  • 配对评估设计:固定地图、天气、交通密度和随机种子,隔离指令语言影响
  • 使用 CARLA Leaderboard 指标(Driving Score、Route Completion、Infraction Score)进行评估
Card 05 数据集与资源

数据集与资源

  • 数据集:LangAuto-Tiny、LangAuto(完整)、CARLA v0.9.10.1
  • 评估代理

- LMDrive:使用 Q-Former 集成视觉编码与自然语言指令,Vicuna-7B 主干

- BEVDriver:将多视图 RGB 图像和 3D LiDAR 点云编码为统一 BEV 特征图,Llama-7B 主干

  • 训练资源:单张 NVIDIA RTX 4090 GPU
  • 每条路线变体数量:每个扰动家族 K=8,共 32 个反事实指令
Card 06 评估与结果

评估与结果

  • LangAuto-Tiny 结果

- LMDrive:Paraphrase/Ambiguity/Noise 性能下降(ΔDS ≈ -14 至 -15),Misleading 最严重(ΔDS = -33.64)

- BEVDriver:目标保留扰动影响较小,Noise 几乎无影响(ΔDS = -0.53),但 Misleading 仍然造成严重损害(ΔDS = -32.50)

  • LangAuto(完整)结果

- LMDrive:Paraphrase 和 Noise 反而提升性能(ΔDS +5.11 和 +9.44),Ambiguity 持续降低性能(ΔDS = -7.10)

- BEVDriver:所有家族都降低 DS,Ambiguity 最具破坏性(ΔDS = -17.65,ΔRC = -27.73)

  • 关键发现:指令反事实不能可靠地保持策略行为;即使目标保留变体也可能产生非单调效应