论文旨在解决现有视觉-语言-动作 (VLA) 模型在动态环境中导航时，假设语义推理与实时控制时间对齐，但实际上推理存在延迟导致不匹配的核心问…

论文详情

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

2026-02-02 · 原文 · 翻译 · 2602.02459

论文旨在解决现有视觉-语言-动作 (VLA) 模型在动态环境中导航时，假设语义推理与实时控制时间对齐，但实际上推理存在延迟导致不匹配的核心问题。提出了 TIC-VLA 框架，这是一个延迟感知框架，显式地将推理延迟建模进动作生成过程，以实现稳健的实时控制。引入了 DynaNav 模拟套件，用于在逼真的动态环境中评估语言引导导航，并展示了TIC-VLA在仿真和真实机器人上的优越性能。

5 分钟读完 6 张阅读卡论文作者隶属于 UCLA (University of California, Los Angeles…

一眼看懂封面预览

论文旨在解决现有视觉-语言-动作 (VLA) 模型在动态环境中导航时，假设语义推理与实时控制时间对齐，但实际上推理存在延迟导致不匹配的核心问…

论文旨在解决现有视觉-语言-动作 (VLA) 模型在动态环境中导航时，假设语义推理与实时控制时间对齐，但实际上推理存在延迟导致不匹配的核心问…
提出了 TIC-VLA 框架，这是一个延迟感知框架，显式地将推理延迟建模进动作生成过程，以实现稳健的实时控制。
引入了 DynaNav 模拟套件，用于在逼真的动态环境中评估语言引导导航，并展示了TIC-VLA在仿真和真实机器人上的优越性能。

Card 01 研究单位

研究单位

论文作者隶属于 UCLA (University of California, Los Angeles)。
项目主页为 https://ucla-mobility.github.io/TIC-VLA/

Card 02 论文概述

论文概述

论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时，假设语义推理与实时控制时间对齐，但实际上推理存在延迟导致不匹配的核心问题。
提出了 TIC-VLA 框架，这是一个延迟感知框架，显式地将推理延迟建模进动作生成过程，以实现稳健的实时控制。
引入了 DynaNav 模拟套件，用于在逼真的动态环境中评估语言引导导航，并展示了TIC-VLA在仿真和真实机器人上的优越性能。

Card 03 核心贡献

核心贡献

提出了 延迟语义-控制接口，将延迟的视觉-语言语义状态和显式的延迟元数据作为动作生成的条件，使策略能够补偿异步推理。
设计了 延迟一致训练管道，在模仿学习和在线强化学习中注入推理延迟，使训练与异步部署保持一致，提升了策略的鲁棒性。
开发了 DynaNav，一个物理精确、照片级逼真的动态环境语言导航模拟套件和基准，支持可复现评估。
实验证明，TIC-VLA在仿真和真实世界中均持续优于先前的VLA模型，并能保持稳健的实时控制。

Card 04 方法描述

方法描述

采用双系统架构，将慢速的VLM语义推理与快速的反应式动作策略解耦。
使用 InternVL3-1B 作为VLM骨干进行语义推理，动作策略是一个基于Transformer的专家网络。
关键创新在于 延迟语义-控制接口，它将延迟的VLM KV缓存特征和延迟元数据（包括延迟时间和自运动偏移）传递给动作策略。
提出 延迟一致训练管道，包含三个阶段：VLM监督微调、基于延迟语义输入的模仿学习、以及带异步引导的在线强化学习，其中显式注入了随机推理延迟。

Card 05 数据集与资源

数据集与资源

训练数据集包括 SCAND（8.7小时社交导航数据）、GND（11小时校园导航数据）和自采集的 DynaNav模拟数据集（5.1小时）。
模型基于 InternVL3-1B VLM（包含InternViT-300M视觉编码器和Qwen2.5-0.5B语言模型）和6层交叉注意力Transformer的动作专家。
训练使用8张 NVIDIA L40S GPU，采用分布式数据并行和AdamW优化器。

Card 06 评估与结果

评估与结果

评估基准为论文提出的 DynaNav，包含85个测试用例，涵盖不同人群密度、导航距离和四种场景（仓库、医院、办公室、户外人行道）。
评估指标包括：导航误差(NE)、成功率(SR)、路径长度加权成功率和碰撞率(CR)。
在DynaNav基准上，TIC-VLA 取得了最高的成功率(55.29%)和最低的碰撞率(28.24%)，显著优于Uni-NaVid、NaVILA、DualVLN等基线方法。
真实世界测试在四足机器人 Unitree Go2 上进行，TIC-VLA在NVIDIA Jetson Orin NX边缘设备上实现了75%的成功率，证明了其在多秒推理延迟下维持实时控制的能力。