Enhancing End-to-End Autonomous Driving with Risk Semantic Distillaion from VLM

一眼看懂封面预览

论文旨在解决端到端自动驾驶系统在长尾、未知场景下泛化能力不足的核心问题。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

提出Risk Semantic Distillation框架，整体流程分为VLM增强的风险语义标注和风险语义蒸馏两个阶段。
在标注阶段，利用 OV-DINO 模型进行开放词汇的视觉定位，生成对象边界框和类别；然后结合 Qwen-2.5 等VLM模型，通过精心设计的提示和风险链式思维进行推理，输出风险对象评分。
在蒸馏阶段，引入RiskHead模块处理BEV特征。关键技术包括：

- BEV Rebatching Procedure：为提高内存和推理效率，仅处理每个相机视野内的BEV查询。

- Nearest Neighbor Matching：将BEV特征对应的3D参考点投影到2D视角，并通过最近邻匹配与图像上的风险语义区域对齐。

- Deformable Attention：以对齐后的2D点为参考，通过可变形注意力从多视角图像特征中聚合信息，生成风险预测。

Card 05 数据集与资源

Card 06 评估与结果

在 Bench2Drive 基准上进行评估，对比基线为 VAD 模型。
感知指标：VAD-RSD 在mAP上提升至0.5195，mASE从0.0854降至0.0544，NDS提升至0.6280，显示出显著的空间感知精度提升。
规划指标：VAD-RSD 在ADE（1s/2s）和碰撞率（Col_1s/2s/3s）上均显著低于基线，表明轨迹预测更准确、更安全。
闭环测试：在仅使用10%训练数据的设置下，VAD-Tiny-RSD 的Driving Score从36.306提升至46.662，Success Rate从0.167提升至0.278。
定性分析表明，RiskHead能够有效重建并高亮显示场景中的关键风险对象（如穿越车辆、被遮挡车辆），验证了其良好的可解释性。