返回列表 VLA / Vision-Language-Action 每日论文卡
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题

论文详情

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

2026-03-24 · 原文 · 翻译 · 2603.23607

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题 数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹,支持上下文学习和少样本泛化 该基准测试不仅评估安全性和舒适性,还评估指令跟随和模型输出之间的语义一致性,并提供英语、西班牙语和中文的多语言推理轨迹

5 分钟读完 6 张阅读卡 Karlsruhe Institute of Technology (KIT) - 德国卡尔斯鲁厄理工…
一眼看懂 封面预览

论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题

  • 论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题
  • 数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹,支持上下文学习和少样本泛化
  • 该基准测试不仅评估安全性和舒适性,还评估指令跟随和模型输出之间的语义一致性,并提供英语、西班牙语和中文的多语言推理轨迹
Card 01 研究单位

研究单位

  • Karlsruhe Institute of Technology (KIT) - 德国卡尔斯鲁厄理工学院
  • FZI Research Center for Information Technology - 德国信息技术研究中心
  • University Charles III of Madrid - 西班牙马德里卡洛斯三世大学
  • Technical University of Madrid - 马德里理工大学
  • University of Toronto - 多伦多大学
  • Delft University of Technology - 代尔夫特理工大学
Card 02 论文概述

论文概述

  • 论文提出了一个用于端到端驾驶的新数据集 KITScenes LongTail,专注于长尾驾驶事件,旨在解决自动驾驶在罕见场景下的泛化问题
  • 数据集提供多视角视频数据、轨迹、高级指令和详细推理轨迹,支持上下文学习和少样本泛化
  • 该基准测试不仅评估安全性和舒适性,还评估指令跟随和模型输出之间的语义一致性,并提供英语、西班牙语和中文的多语言推理轨迹
Card 03 核心贡献

核心贡献

  • 贡献点 1: 提出长尾驾驶场景数据集,包含多视角视频、高级指令和人类标注的多语言推理轨迹
  • 贡献点 2: 提出语义一致性度量方法,量化推理轨迹中描述的驾驶动作与预测轨迹中动作的匹配程度
  • 贡献点 3: 提出多机动分数(MMS),这是一个轻量级指标,覆盖多种可能的机动动作、驾驶舒适性和指令跟随
  • 贡献点 4: 评估视觉语言模型(VLMs)的零样本和少样本规划能力,证明推理追踪对长尾场景规划的重要性
Card 04 方法描述

方法描述

  • 数据收集涵盖城郊环境和高速公路,通过调整路线包含大量施工区域和交叉口,筛选罕见事件如恶劣天气、道路封闭和事故
  • 提供六视角视频数据和帧级拼接的360度全景视图,支持ViTs处理的图像格式
  • 由领域专家(自动驾驶研究人员)用母语或流利语言标注推理轨迹,包含五个问题涵盖场景描述和基于专家轨迹的驾驶动作解释
  • 使用Rocchio分类和句子嵌入测量语义一致性,采用EmbeddingGemma 0.3B生成嵌入向量
  • MMS指标通过计算规划轨迹与参考轨迹的相似度来排名,结合舒适度惩罚(基于加加速度和曲折度)和指令跟随评估
Card 05 数据集与资源

数据集与资源

  • 数据集: KITScenes LongTail,包含1000个场景,分为训练集500个、测试集400个、验证集100个
  • 场景类型: 夜间、恶劣天气(雪/冻雨)、大雨、施工区域、超车/变道、交叉口等
  • 视频数据: 9秒长多视角视频,360度水平视场,6个视角,原始分辨率3200×2200,针孔模型3488×2272,拼接后5746×512,帧率5Hz
  • 高级指令: 包括直行(45.16%)、右转(14.53%)、左转(6.17%)、使用右车道(7.75%)、使用左车道(6.54%)、超车命令(13.56%)
  • 推理轨迹: 英语、中文、西班牙语三种语言,来自不同文化背景的领域专家
Card 06 评估与结果

评估与结果

  • 评估指标: MMS(多机动分数)、L2误差、语义一致性、指令跟随、驾驶舒适性
  • 主要发现:

- MMS与L2误差和闭环DrivingScores呈负相关,证明其作为评估指标的有效性

- 零样本规划在长尾场景中表现脆弱,少样本提示能改善规划能力

- 语义一致性较低表明模型推理与规划之间存在不一致

- 低语义一致性与CoT保真度低相关,提示需要领域 grounded 的推理