返回列表 VLA / Vision-Language-Action 每日论文卡
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时,假设语义推理与实时控制时间对齐,但实际上推理存在延迟导致不匹配的核心问…

论文详情

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

2026-02-02 · 原文 · 翻译 · 2602.02459

论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时,假设语义推理与实时控制时间对齐,但实际上推理存在延迟导致不匹配的核心问题。 提出了 TIC-VLA 框架,这是一个延迟感知框架,显式地将推理延迟建模进动作生成过程,以实现稳健的实时控制。 引入了 DynaNav 模拟套件,用于在逼真的动态环境中评估语言引导导航,并展示了TIC-VLA在仿真和真实机器人上的优越性能。

5 分钟读完 6 张阅读卡 论文作者隶属于 UCLA (University of California, Los Angeles…
一眼看懂 封面预览

论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时,假设语义推理与实时控制时间对齐,但实际上推理存在延迟导致不匹配的核心问…

  • 论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时,假设语义推理与实时控制时间对齐,但实际上推理存在延迟导致不匹配的核心问…
  • 提出了 TIC-VLA 框架,这是一个延迟感知框架,显式地将推理延迟建模进动作生成过程,以实现稳健的实时控制。
  • 引入了 DynaNav 模拟套件,用于在逼真的动态环境中评估语言引导导航,并展示了TIC-VLA在仿真和真实机器人上的优越性能。
Card 01 研究单位

研究单位

  • 论文作者隶属于 UCLA (University of California, Los Angeles)
  • 项目主页为 https://ucla-mobility.github.io/TIC-VLA/
Card 02 论文概述

论文概述

  • 论文旨在解决现有 视觉-语言-动作 (VLA) 模型在动态环境中导航时,假设语义推理与实时控制时间对齐,但实际上推理存在延迟导致不匹配的核心问题。
  • 提出了 TIC-VLA 框架,这是一个延迟感知框架,显式地将推理延迟建模进动作生成过程,以实现稳健的实时控制。
  • 引入了 DynaNav 模拟套件,用于在逼真的动态环境中评估语言引导导航,并展示了TIC-VLA在仿真和真实机器人上的优越性能。
Card 03 核心贡献

核心贡献

  • 提出了 延迟语义-控制接口,将延迟的视觉-语言语义状态和显式的延迟元数据作为动作生成的条件,使策略能够补偿异步推理。
  • 设计了 延迟一致训练管道,在模仿学习和在线强化学习中注入推理延迟,使训练与异步部署保持一致,提升了策略的鲁棒性。
  • 开发了 DynaNav,一个物理精确、照片级逼真的动态环境语言导航模拟套件和基准,支持可复现评估。
  • 实验证明,TIC-VLA在仿真和真实世界中均持续优于先前的VLA模型,并能保持稳健的实时控制。
Card 04 方法描述

方法描述

  • 采用双系统架构,将慢速的VLM语义推理与快速的反应式动作策略解耦。
  • 使用 InternVL3-1B 作为VLM骨干进行语义推理,动作策略是一个基于Transformer的专家网络。
  • 关键创新在于 延迟语义-控制接口,它将延迟的VLM KV缓存特征和延迟元数据(包括延迟时间和自运动偏移)传递给动作策略。
  • 提出 延迟一致训练管道,包含三个阶段:VLM监督微调、基于延迟语义输入的模仿学习、以及带异步引导的在线强化学习,其中显式注入了随机推理延迟。
Card 05 数据集与资源

数据集与资源

  • 训练数据集包括 SCAND(8.7小时社交导航数据)、GND(11小时校园导航数据)和自采集的 DynaNav模拟数据集(5.1小时)。
  • 模型基于 InternVL3-1B VLM(包含InternViT-300M视觉编码器和Qwen2.5-0.5B语言模型)和6层交叉注意力Transformer的动作专家。
  • 训练使用8张 NVIDIA L40S GPU,采用分布式数据并行和AdamW优化器。
Card 06 评估与结果

评估与结果

  • 评估基准为论文提出的 DynaNav,包含85个测试用例,涵盖不同人群密度、导航距离和四种场景(仓库、医院、办公室、户外人行道)。
  • 评估指标包括:导航误差(NE)、成功率(SR)、路径长度加权成功率和碰撞率(CR)。
  • 在DynaNav基准上,TIC-VLA 取得了最高的成功率(55.29%)和最低的碰撞率(28.24%),显著优于Uni-NaVid、NaVILA、DualVLN等基线方法。
  • 真实世界测试在四足机器人 Unitree Go2 上进行,TIC-VLA在NVIDIA Jetson Orin NX边缘设备上实现了75%的成功率,证明了其在多秒推理延迟下维持实时控制的能力。