一眼看懂
封面预览
论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题
- 论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题
- 数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹,支持上下文学习和少样本泛化
- 该基准测试不仅评估安全性和舒适性,还评估指令跟随和模型输出之间的语义一致性,并提供英语、西班牙语和中文的多语言推理轨迹
Card 01
研究单位
研究单位
- Karlsruhe Institute of Technology (KIT) - 德国卡尔斯鲁厄理工学院
- FZI Research Center for Information Technology - 德国信息技术研究中心
- University Charles III of Madrid - 西班牙马德里卡洛斯三世大学
- Technical University of Madrid - 马德里理工大学
- University of Toronto - 多伦多大学
- Delft University of Technology - 代尔夫特理工大学
Card 02
论文概述
论文概述
- 论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题
- 数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹,支持上下文学习和少样本泛化
- 该基准测试不仅评估安全性和舒适性,还评估指令跟随和模型输出之间的语义一致性,并提供英语、西班牙语和中文的多语言推理轨迹
Card 03
核心贡献
核心贡献
- 贡献点 1: 提出长尾驾驶场景数据集,包含多视角视频、高级指令和人类标注的多语言推理轨迹
- 贡献点 2: 提出语义一致性度量方法,量化推理轨迹中描述的驾驶动作与预测轨迹中动作的匹配程度
- 贡献点 3: 提出多机动分数(MMS),这是一个轻量级指标,覆盖多种可能的机动动作、驾驶舒适性和指令跟随
- 贡献点 4: 评估视觉语言模型(VLMs)的零样本和少样本规划能力,证明推理追踪对长尾场景规划的重要性
Card 04
方法描述
方法描述
- 数据收集涵盖城郊环境和高速公路,通过调整路线包含大量施工区域和交叉口,筛选罕见事件如恶劣天气、道路封闭和事故
- 提供六视角视频数据和帧级拼接的360度全景视图,支持ViTs处理的图像格式
- 由领域专家(自动驾驶研究人员)用母语或流利语言标注推理轨迹,包含五个问题涵盖场景描述和基于专家轨迹的驾驶动作解释
- 使用Rocchio分类和句子嵌入测量语义一致性,采用EmbeddingGemma 0.3B生成嵌入向量
- MMS指标通过计算规划轨迹与参考轨迹的相似度来排名,结合舒适度惩罚(基于加加速度和曲折度)和指令跟随评估
Card 05
数据集与资源
数据集与资源
- 数据集: KITScenes LongTail,包含1000个场景,分为训练集500个、测试集400个、验证集100个
- 场景类型: 夜间、恶劣天气(雪/冻雨)、大雨、施工区域、超车/变道、交叉口等
- 视频数据: 9秒长多视角视频,360度水平视场,6个视角,原始分辨率3200×2200,针孔模型3488×2272,拼接后5746×512,帧率5Hz
- 高级指令: 包括直行(45.16%)、右转(14.53%)、左转(6.17%)、使用右车道(7.75%)、使用左车道(6.54%)、超车命令(13.56%)
- 推理轨迹: 英语、中文、西班牙语三种语言,来自不同文化背景的领域专家
Card 06
评估与结果
评估与结果
- 评估指标: MMS(多机动分数)、L2误差、语义一致性、指令跟随、驾驶舒适性
- 主要发现:
- MMS与L2误差和闭环DrivingScores呈负相关,证明其作为评估指标的有效性
- 零样本规划在长尾场景中表现脆弱,少样本提示能改善规划能力
- 语义一致性较低表明模型推理与规划之间存在不一致
- 低语义一致性与CoT保真度低相关,提示需要领域 grounded 的推理