论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail，专注于长尾驾驶事件，旨在解决自动驾驶在罕见场景下的泛化问题

论文详情

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

2026-03-24 · 原文 · 翻译 · 2603.23607

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail，专注于长尾驾驶事件，旨在解决自动驾驶在罕见场景下的泛化问题数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹，支持上下文学习和少样本泛化该基准测试不仅评估安全性和舒适性，还评估指令跟随和模型输出之间的语义一致性，并提供英语、西班牙语和中文的多语言推理轨迹

5 分钟读完 6 张阅读卡 Karlsruhe Institute of Technology (KIT) - 德国卡尔斯鲁厄理工…

一眼看懂封面预览

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail，专注于长尾驾驶事件，旨在解决自动驾驶在罕见场景下的泛化问题

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail，专注于长尾驾驶事件，旨在解决自动驾驶在罕见场景下的泛化问题
数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹，支持上下文学习和少样本泛化
该基准测试不仅评估安全性和舒适性，还评估指令跟随和模型输出之间的语义一致性，并提供英语、西班牙语和中文的多语言推理轨迹

Card 01 研究单位

研究单位

Karlsruhe Institute of Technology (KIT) - 德国卡尔斯鲁厄理工学院
FZI Research Center for Information Technology - 德国信息技术研究中心
University Charles III of Madrid - 西班牙马德里卡洛斯三世大学
Technical University of Madrid - 马德里理工大学
University of Toronto - 多伦多大学
Delft University of Technology - 代尔夫特理工大学

Card 02 论文概述

论文概述

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail，专注于长尾驾驶事件，旨在解决自动驾驶在罕见场景下的泛化问题
数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹，支持上下文学习和少样本泛化
该基准测试不仅评估安全性和舒适性，还评估指令跟随和模型输出之间的语义一致性，并提供英语、西班牙语和中文的多语言推理轨迹

Card 03 核心贡献

核心贡献

贡献点 1: 提出长尾驾驶场景数据集，包含多视角视频、高级指令和人类标注的多语言推理轨迹
贡献点 2: 提出语义一致性度量方法，量化推理轨迹中描述的驾驶动作与预测轨迹中动作的匹配程度
贡献点 3: 提出多机动分数（MMS），这是一个轻量级指标，覆盖多种可能的机动动作、驾驶舒适性和指令跟随
贡献点 4: 评估视觉语言模型（VLMs）的零样本和少样本规划能力，证明推理追踪对长尾场景规划的重要性

Card 04 方法描述

方法描述

数据收集涵盖城郊环境和高速公路，通过调整路线包含大量施工区域和交叉口，筛选罕见事件如恶劣天气、道路封闭和事故
提供六视角视频数据和帧级拼接的360度全景视图，支持ViTs处理的图像格式
由领域专家（自动驾驶研究人员）用母语或流利语言标注推理轨迹，包含五个问题涵盖场景描述和基于专家轨迹的驾驶动作解释
使用Rocchio分类和句子嵌入测量语义一致性，采用EmbeddingGemma 0.3B生成嵌入向量
MMS指标通过计算规划轨迹与参考轨迹的相似度来排名，结合舒适度惩罚（基于加加速度和曲折度）和指令跟随评估

Card 05 数据集与资源

数据集与资源

数据集: KITScenes LongTail，包含1000个场景，分为训练集500个、测试集400个、验证集100个
场景类型: 夜间、恶劣天气（雪/冻雨）、大雨、施工区域、超车/变道、交叉口等
视频数据: 9秒长多视角视频，360度水平视场，6个视角，原始分辨率3200×2200，针孔模型3488×2272，拼接后5746×512，帧率5Hz
高级指令: 包括直行（45.16%）、右转（14.53%）、左转（6.17%）、使用右车道（7.75%）、使用左车道（6.54%）、超车命令（13.56%）
推理轨迹: 英语、中文、西班牙语三种语言，来自不同文化背景的领域专家

Card 06 评估与结果

评估与结果

评估指标: MMS（多机动分数）、L2误差、语义一致性、指令跟随、驾驶舒适性
主要发现:

- MMS与L2误差和闭环DrivingScores呈负相关，证明其作为评估指标的有效性

- 零样本规划在长尾场景中表现脆弱，少样本提示能改善规划能力

- 语义一致性较低表明模型推理与规划之间存在不一致

- 低语义一致性与CoT保真度低相关，提示需要领域 grounded 的推理