论文发现冻结的视觉-语言-动作模型内部存在少量“导航注意力头”，能够无需额外计算开销地实时检测路径偏差。

论文详情

Your Vision-Language-Action Model Already Has Attention Heads For Path Deviation Detection

2026-03-14 · 原文 · 翻译 · 2603.13782

论文发现冻结的视觉-语言-动作模型内部存在少量“导航注意力头”，能够无需额外计算开销地实时检测路径偏差。研究旨在解决VLA模型因视觉推理幻觉导致轨迹偏差的问题，避免传统方法中训练外部评论模块或复杂不确定性启发式方法的需求。提出了一个无需训练的异常检测框架，并集成了轻量级强化学习策略，用于在检测到偏差时执行安全的回滚操作。

4 分钟读完 6 张阅读卡 Korea University

一眼看懂封面预览

论文发现冻结的视觉-语言-动作模型内部存在少量“导航注意力头”，能够无需额外计算开销地实时检测路径偏差。

论文发现冻结的视觉-语言-动作模型内部存在少量“导航注意力头”，能够无需额外计算开销地实时检测路径偏差。
研究旨在解决VLA模型因视觉推理幻觉导致轨迹偏差的问题，避免传统方法中训练外部评论模块或复杂不确定性启发式方法的需求。
提出了一个无需训练的异常检测框架，并集成了轻量级强化学习策略，用于在检测到偏差时执行安全的回滚操作。

Card 01 研究单位

研究单位

Korea University
University of California, Los Angeles
NVIDIA

Card 02 论文概述

论文概述

论文发现冻结的视觉-语言-动作模型内部存在少量“导航注意力头”，能够无需额外计算开销地实时检测路径偏差。
研究旨在解决VLA模型因视觉推理幻觉导致轨迹偏差的问题，避免传统方法中训练外部评论模块或复杂不确定性启发式方法的需求。
提出了一个无需训练的异常检测框架，并集成了轻量级强化学习策略，用于在检测到偏差时执行安全的回滚操作。

Card 03 核心贡献

核心贡献

识别并定义了“导航注意力头”，它们能够捕获视觉序列与语言指令间的时空因果关系，并揭示模型内部的导航状态。
提出了一个无训练的路径偏差检测框架，仅通过监控三个注意力头的动态信号，即可实现实时异常检测。
开发并集成了一个轻量级强化学习策略，用于在检测到异常时执行防碰撞的最短路径回滚，实现了完整的“检测-恢复”流程。
在真实世界机器人平台上成功部署并验证了整个系统的有效性与鲁棒性。

Card 04 方法描述

方法描述

以 NaVILA 模型为骨干，分析了其内部注意力头的功能特化，并提出了时空对齐评分和认知异常敏感性来筛选关键的导航注意力头。
提出了一种基于注意力熵相对得分变化的实时异常检测方法，通过监控导航注意力头信号的突变来识别路径偏差。
设计了一个轻量级演员-评论家架构的强化学习策略，以LiDAR代价地图和子目标状态为输入，实现防碰撞导航和回滚。
整个系统通过ROS 2框架部署，集成了VLA模型（0.3 Hz）进行高层推理和RL策略（10 Hz）进行底层控制。

Card 05 数据集与资源

数据集与资源

主要使用 VLN-CE R2R 数据集进行实验和评估。
使用的VLA模型基于 VILA-8B 架构，RL策略具有轻量级网络结构。
实验训练使用 NVIDIA RTX 6000 Ada GPU，真实机器人部署使用 NVIDIA Jetson AGX Orin (64 GB) 作为计算平台。

Card 06 评估与结果

评估与结果

在VLN-CE虚拟环境和真实机器人平台上进行了全面评估，对比了基于规则的启发式方法。
主要评估指标包括剧集检测率、错误剧集率、步骤级的精确率、召回率和F1分数。
实验表明，仅使用 3个导航注意力头 的组合，即可在 Val-Unseen 分割上实现 44.6%的EDR 和 11.7%的低FER，步骤级F1分数达 76.4%。
真实世界部署验证了该系统在动态环境中可靠导航与恢复的实用性和鲁棒性。