返回列表 VLA / Vision-Language-Action 每日论文卡
HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving
论文提出了 HiST-VLA,一种用于端到端自动驾驶的层次化时空视觉-语言-动作模型。

论文详情

HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving

2026-02-11 · 原文 · 翻译 · 2602.13329

论文提出了 HiST-VLA,一种用于端到端自动驾驶的层次化时空视觉-语言-动作模型。 旨在解决现有 VLA 模型在精确数值推理、3D 空间感知能力弱以及对上下文高度敏感等方面的局限性。 通过集成几何感知、细粒度驾驶命令和历史状态提示,生成安全可靠的轨迹。

4 分钟读完 6 张阅读卡 Bosch Corporate Research, Bosch (China) Investment…
一眼看懂 封面预览

论文提出了 HiST-VLA,一种用于端到端自动驾驶的层次化时空视觉-语言-动作模型。

  • 论文提出了 HiST-VLA,一种用于端到端自动驾驶的层次化时空视觉-语言-动作模型。
  • 旨在解决现有 VLA 模型在精确数值推理、3D 空间感知能力弱以及对上下文高度敏感等方面的局限性。
  • 通过集成几何感知、细粒度驾驶命令和历史状态提示,生成安全可靠的轨迹。
Card 01 研究单位

研究单位

  • Bosch Corporate Research, Bosch (China) Investment Ltd.
  • School of Communication and Information Engineering, Shanghai University
Card 02 论文概述

论文概述

  • 论文提出了 HiST-VLA,一种用于端到端自动驾驶的层次化时空视觉-语言-动作模型。
  • 旨在解决现有 VLA 模型在精确数值推理、3D 空间感知能力弱以及对上下文高度敏感等方面的局限性。
  • 通过集成几何感知、细粒度驾驶命令和历史状态提示,生成安全可靠的轨迹。
Card 03 核心贡献

核心贡献

  • 提出了 HiST-VLA 架构,集成了空间定位和时间一致性,通过多阶段轨迹细化提升驾驶舒适性和安全性。
  • 设计了带有动态 Token 稀疏化机制的高效时空表征方法,利用自相似性引导的 Token 融合有效减少冗余。
  • 提出了语义对齐的层次化规划器,通过置信度感知正则化和多标准评分,将粗略轨迹细化为精细运动。
Card 04 方法描述

方法描述

  • 视觉编码采用 ViT-L/14 提取特征,结合单目深度估计实现 3D 空间感知视觉编码。
  • 引入 Dynamic Token Sparser 模块,基于自注意力分数进行自适应 Token 稀疏化,合并冗余 Token 以提高计算效率。
  • 通过时间状态建模,将历史导航信息和自车状态作为提示输入,增强时序连贯性。
  • 利用 Chain-of-Thought (CoT) 推理生成细粒度元动作命令和带有置信度分数的粗略轨迹。
  • 采用基于 Transformer 的层次化规划器,利用 VAE 和评分模块对粗略轨迹进行细化和优化。
Card 05 数据集与资源

数据集与资源

  • 使用 NAVSIM v2 数据集进行训练和评估(包含 Navtest 和 Navhard 基准)。
  • 基础模型为 LLaVA-v1.5-7B,包含 70 亿参数,视觉编码器为 ViT-L/14
  • 训练过程包含三个阶段:预训练稀疏模块、联合优化 VLA 模块、训练层次化规划器。
Card 06 评估与结果

评估与结果

  • NAVSIM v2 基准上进行评估,使用 EPDMS 作为主要评估指标。
  • Navtest 基准上取得了 88.6 的 EPDMS 分数,达到了最先进水平。
  • 在伪闭环 Navhard 基准上取得了 50.9 的 EPDMS 分数,展示了在复杂场景下的鲁棒性。