返回列表 VLA / Vision-Language-Action 每日论文卡
CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine
针对自动驾驶系统在长尾场景(long-tail scenarios)中性能不足的问题,提出了一种持续学习的端到端自动驾驶框架

论文详情

CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine

2025-09-19 · 原文 · 翻译 · 2509.15968

针对自动驾驶系统在长尾场景(long-tail scenarios)中性能不足的问题,提出了一种持续学习的端到端自动驾驶框架 通过Collect-and-Refine双阶段流程,结合视觉-语言-动作(VLA)模型和人在回路(HITL)测试,提升模型在安全关键场景下的决策能力 解决的核心问题:长尾场景高质量QA数据稀缺、稀疏数据下微调效率低下

5 分钟读完 6 张阅读卡 同济大学 交通运输学院(S. Fang 所属单位)
一眼看懂 封面预览

针对自动驾驶系统在长尾场景(long-tail scenarios)中性能不足的问题,提出了一种持续学习的端到端自动驾驶框架

  • 针对自动驾驶系统在长尾场景(long-tail scenarios)中性能不足的问题,提出了一种持续学习的端到端自动驾驶框架
  • 通过Collect-and-Refine双阶段流程,结合视觉-语言-动作(VLA)模型和人在回路(HITL)测试,提升模型在安全关键场景下的决…
  • 解决的核心问题:长尾场景高质量QA数据稀缺、稀疏数据下微调效率低下
Card 01 研究单位

研究单位

  • 同济大学 交通运输学院(S. Fang 所属单位)
Card 02 论文概述

论文概述

  • 针对自动驾驶系统在长尾场景(long-tail scenarios)中性能不足的问题,提出了一种持续学习的端到端自动驾驶框架
  • 通过Collect-and-Refine双阶段流程,结合视觉-语言-动作(VLA)模型和人在回路(HITL)测试,提升模型在安全关键场景下的决策能力
  • 解决的核心问题:长尾场景高质量QA数据稀缺、稀疏数据下微调效率低下
Card 03 核心贡献

核心贡献

  • 构建了CAVE仿真平台,实现沉浸式人在回路测试,收集视觉 grounded 的接管数据
  • 引入DPO(Direct Preference Optimization)方法,从稀疏接管数据中高效精炼行为,避免奖励黑客问题
  • Bench2Drive基准上取得SOTA性能,Driving Score达72.18,Success Rate达50%
  • 验证了模型通过持续学习避免重复失败、实现跨场景泛化的能力
  • 建立了从HITL数据收集到行为精炼的完整技术 pipeline
Card 04 方法描述

方法描述

  • 基于Qwen2.5-VL-7B模型,采用LoRA进行参数高效微调
  • Pre-Stage 1:整合LingoQA、BDD、HAD等开源数据集进行SFT,构建70GB领域特定数据集
  • Stage 1:在CAVE平台部署模型,通过VR头显让安全驾驶员在长尾失败场景中进行接管,收集偏好数据
  • Stage 2:利用DPO对比模型生成的次优行为与人类接管行为,直接学习人类偏好,配合KL正则化防止策略漂移
  • 采用Chain-of-Thought格式组织QA数据,增强可解释性和行为合理性
Card 05 数据集与资源

数据集与资源

  • 数据集:LingoQA、BDD、HAD(整合为70GB QA数据集);CAVE平台采集的接管数据
  • 基础模型Qwen2.5-VL-7B(70亿参数视觉-语言模型)
  • 微调方法:LoRA(应用于vision projector和LLM backbone)
  • 仿真平台:自研CAVE(Cave Automatic Virtual Environment)沉浸式仿真环境
Card 06 评估与结果

评估与结果

  • 开环评估:在LingoQA、BDD、HAD三个数据集上进行QA任务,使用BLEU、ROUGE-1、ROUGE-L指标,CoReVLA全面超越Qwen2.5-VL-7B、Llava-7B、LlavaNext-7B、Impromptu等基线
  • 闭环评估:在Bench2Drive基准上进行,包含多样化长尾安全关键场景
  • 关键指标:Driving Score(DS)、Success Rate(SR)、Efficiency、Comfortness
  • 核心结果:DS 72.18(+7.96 vs SOTA),SR 50%(+15% vs SOTA);精炼后相比精炼前提升DS 18.92、SR 30%
  • 案例研究:验证了从CAVE采集的接管经验可有效泛化到Bench2Drive的相似场景