返回列表 VLA / Vision-Language-Action 每日论文卡
CATNAV: Cached Vision-Language Traversability for Efficient Zero-Shot Robot Navigation
论文提出了 CATNAV,这是一个基于缓存视觉-语言的可通行性导航框架,旨在解决机器人在非结构化环境中的零样本导航问题。

论文详情

CATNAV: Cached Vision-Language Traversability for Efficient Zero-Shot Robot Navigation

2026-03-24 · 原文 · 翻译 · 2603.22800

论文提出了 CATNAV,这是一个基于缓存视觉-语言的可通行性导航框架,旨在解决机器人在非结构化环境中的零样本导航问题。 该框架利用多模态大语言模型(VLM)进行语义后果推理,无需针对特定任务进行训练即可生成感知机器人形态的代价地图。 论文主要解决了现有 VLM 导航方法中在线查询延迟高、计算成本大以及缺乏行为约束推理的问题。

4 分钟读完 6 张阅读卡 Field Robotics Engineering and Science Hub (FRESH)…
一眼看懂 封面预览

论文提出了 CATNAV,这是一个基于缓存视觉-语言的可通行性导航框架,旨在解决机器人在非结构化环境中的零样本导航问题。

  • 论文提出了 CATNAV,这是一个基于缓存视觉-语言的可通行性导航框架,旨在解决机器人在非结构化环境中的零样本导航问题。
  • 该框架利用多模态大语言模型(VLM)进行语义后果推理,无需针对特定任务进行训练即可生成感知机器人形态的代价地图。
  • 论文主要解决了现有 VLM 导航方法中在线查询延迟高、计算成本大以及缺乏行为约束推理的问题。
Card 01 研究单位

研究单位

  • Field Robotics Engineering and Science Hub (FRESH), Illinois Autonomous Farm, University of Illinois at Urbana-Champaign (UIUC)
Card 02 论文概述

论文概述

  • 论文提出了 CATNAV,这是一个基于缓存视觉-语言的可通行性导航框架,旨在解决机器人在非结构化环境中的零样本导航问题。
  • 该框架利用多模态大语言模型(VLM)进行语义后果推理,无需针对特定任务进行训练即可生成感知机器人形态的代价地图。
  • 论文主要解决了现有 VLM 导航方法中在线查询延迟高、计算成本大以及缺乏行为约束推理的问题。
Card 03 核心贡献

核心贡献

  • 提出了一个零样本、感知形态的代价地图生成框架,利用 VLM 的常识推理能力推断物体的通行风险。
  • 设计了一种视觉语义缓存机制,通过检测场景新颖性来复用缓存的风险评估,将在线 VLM 查询减少了 85.7%
  • 引入了一个基于 VLM 的轨迹推理模块,能够根据行为约束在多个路径提案中选择最安全的轨迹。
Card 04 方法描述

方法描述

  • 利用 Gemini 3.0 Flash 多模态大模型分析 RGB 图像,根据机器人物理形态和语义内容生成风险评分表。
  • 使用 CLIP 图像编码器将帧嵌入向量空间,通过 K 近邻检索判断场景是否新颖;若场景相似则复用缓存,否则查询 VLM。
  • 采用 CLIPSeg 进行开放词汇分割,将风险评分投影到图像域并生成 2D 代价地图。
  • 使用 TRRT (Transition-based RRT) 路径规划器生成多条候选轨迹(左、中、右、风险路径)。
  • 通过 VLM 视觉评估覆盖在 RGB 图像上的路径提案,结合自然语言行为约束选择最优轨迹。
Card 05 数据集与资源

数据集与资源

  • 硬件平台:Unitree Go1 四足机器人,配备 NVIDIA Jetson Orin 计算单元和 Stereolabs ZED 2i 相机。
  • 模型资源:使用 Gemini 3.0 Flash 作为核心推理模型,CLIP 用于图像嵌入,CLIPSeg 用于分割。
  • 测试环境:包含室内和室外环境的 5 个导航任务(人行道、障碍物、动态行人、室内纸张避障)。
Card 06 评估与结果

评估与结果

  • 评估基准:与最先进的视觉-语言-动作模型 OmniVLA 进行对比。
  • 评估指标:目标到达率、距目标距离、碰撞率、行为约束违规率。
  • 关键结果:在五项导航任务中,CATNAV 的平均目标到达率比基线高出 10 个百分点,行为约束违规率减少了 33%
  • 效率提升:视觉语义缓存机制将 VLM 场景查询延迟降低,缓存利用率提高了 86.5%