论文提出了 Drive My Way (DMW)，一个个性化的视觉-语言-动作（VLA）驾驶框架，旨在解决现有自动驾驶系统无法适应个体驾驶偏好…

论文详情

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

2026-03-26 · 原文 · 翻译 · 2603.25740

论文提出了 Drive My Way (DMW)，一个个性化的视觉-语言-动作（VLA）驾驶框架，旨在解决现有自动驾驶系统无法适应个体驾驶偏好或理解自然语言意图的问题。 DMW 通过学习用户嵌入来对齐长期驾驶习惯，并利用强化微调技术使策略能够适应实时的自然语言指令。核心目标是实现既能反映驾驶员个人长期风格，又能响应其短期意图的个性化自动驾驶。

4 分钟读完 6 张阅读卡 University of California, Riverside

一眼看懂封面预览

论文提出了 Drive My Way (DMW)，一个个性化的视觉-语言-动作（VLA）驾驶框架，旨在解决现有自动驾驶系统无法适应个体驾驶偏好…

论文提出了 Drive My Way (DMW)，一个个性化的视觉-语言-动作（VLA）驾驶框架，旨在解决现有自动驾驶系统无法适应个体驾驶偏好…
DMW 通过学习用户嵌入来对齐长期驾驶习惯，并利用强化微调技术使策略能够适应实时的自然语言指令。
核心目标是实现既能反映驾驶员个人长期风格，又能响应其短期意图的个性化自动驾驶。

Card 01 研究单位

研究单位

University of California, Riverside
University of Michigan

Card 02 论文概述

论文概述

论文提出了 Drive My Way (DMW)，一个个性化的视觉-语言-动作（VLA）驾驶框架，旨在解决现有自动驾驶系统无法适应个体驾驶偏好或理解自然语言意图的问题。
DMW 通过学习用户嵌入来对齐长期驾驶习惯，并利用强化微调技术使策略能够适应实时的自然语言指令。
核心目标是实现既能反映驾驶员个人长期风格，又能响应其短期意图的个性化自动驾驶。

Card 03 核心贡献

核心贡献

提出了 DMW 框架，通过集成上下文用户嵌入和基于自然语言指令的强化微调，实现了端到端的个性化驾驶。
构建了首个多模态 个性化驾驶数据集 (PDD)，包含30名真实驾驶员在CARLA模拟器中20种多样化场景下的驾驶数据。
在 Bench2Drive 基准上进行了广泛的闭环评估与用户研究，证明了DMW在保持安全、高效与舒适平衡的同时，能有效适应个人驾驶偏好。

Card 04 方法描述

方法描述

采用 SimLingo 作为VLA主干网络，并引入一个残差解码器来生成个性化的驾驶动作调整。
使用对比学习机制（InfoNCE损失）训练一个长期偏好编码器，从驾驶员档案和历史轨迹中学习用户嵌入，用于对齐长期驾驶风格。
应用 Group Relative Policy Optimization (GRPO) 进行强化微调，并结合风格感知奖励函数，使模型能根据语言指令动态调整安全、效率与舒适度之间的权衡。

Card 05 数据集与资源

数据集与资源

使用自建的 个性化驾驶数据集 (PDD)，包含30名驾驶员、20种驾驶场景的数据。
模型基于 InternVL2-1B 和 Qwen2-0.5B 构建。
训练在8块 NVIDIA RTX A6000 GPU上进行，每GPU批量大小为8。

Card 06 评估与结果

评估与结果

在 Bench2Drive 基准上进行闭环驾驶性能评估。
主要评估指标包括驾驶得分 (DS)、成功率 (SR)、效率、舒适度等，并引入对齐分数 (AS) 进行个性化评估。
实验结果表明，DMW能有效适应不同的风格指令（激进、保守），其生成的驾驶行为可被用户识别为具有个人风格，并在个性化对齐上优于基线模型。