返回列表 VLA / Vision-Language-Action 每日论文卡
IROS: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation
提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾

论文详情

IROS: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation

2026-01-29 · 原文 · 翻译 · 2601.21506

提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾 核心问题:视觉语言模型(VLM)虽然提供丰富的上下文推理能力,但推理延迟高,难以满足实时性要求;传统 SLAM 方法虽能准确定位,但缺乏对人类目标线索(如标志、房间号)的语义理解能力 研究目标:结合 VLM 的语义推理能力与轻量级感知模块的效率,实现低延迟、高准确率的室内导航

5 分钟读完 6 张阅读卡 延世大学 (Yonsei University),韩国首尔
一眼看懂 封面预览

提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾

  • 提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
  • 核心问题:视觉语言模型(VLM)虽然提供丰富的上下文推理能力,但推理延迟高,难以满足实时性要求;传统 SLAM 方法虽能准确定位,但缺乏对人类…
  • 研究目标:结合 VLM 的语义推理能力与轻量级感知模块的效率,实现低延迟、高准确率的室内导航
Card 01 研究单位

研究单位

  • 延世大学 (Yonsei University),韩国首尔
Card 02 论文概述

论文概述

  • 提出 IROS 框架,用于解决室内移动机器人导航中实时响应性语义理解之间的矛盾
  • 核心问题:视觉语言模型(VLM)虽然提供丰富的上下文推理能力,但推理延迟高,难以满足实时性要求;传统 SLAM 方法虽能准确定位,但缺乏对人类目标线索(如标志、房间号)的语义理解能力
  • 研究目标:结合 VLM 的语义推理能力与轻量级感知模块的效率,实现低延迟、高准确率的室内导航
Card 03 核心贡献

核心贡献

  • 双过程导航架构:受双过程理论启发,提出 System One(快速感知)和 System Two(审慎推理)分离的架构,System One 处理即时、低歧义决策,System Two 仅在需要高级推理时调用 VLM
  • 条件推理机制:设计 Key Frame Compare(关键帧比较)和 Vision-Condition Matching(视觉条件匹配)模块,仅在环境发生显著变化时触发 VLM 推理,大幅降低延迟
  • 空间与文本信息增强:通过分割(SegFormer-b0)、OCR(docTR)和消失点检测为紧凑型 VLM 提供显式的空间描述和文本线索,提升决策准确率
  • 端到端实现与真实环境评估:在五栋真实建筑中部署验证,证明系统可在低成本嵌入式硬件上实现类人决策能力
Card 04 方法描述

方法描述

  • 双过程架构:System One 采用轻量级视觉编码器(SigLIP)、分割模块(SegFormer-b0)和 OCR(docTR)进行快速感知;System Two 使用 VLM(Gemma3-4B)进行复杂场景的审慎推理
  • 关键帧比较(KFC):基于 patch 级嵌入比较当前帧与上一决策帧的视觉差异,仅在结构变化超过阈值时触发后续处理
  • 条件匹配:将空间和文本场景描述与预生成的 Condition-to-Action 表进行余弦相似度匹配,若匹配到唯一动作则直接执行,否则升级至 System Two
  • 空间信息增强:通过消失点检测推断场景的 3D 布局,将场景划分为"前方""左侧""右侧"等导航区域
  • 执行模块:基于消失点跟踪和 PID 控制实现机器人的精确转向和移动
Card 05 数据集与资源

数据集与资源

  • 测试环境:5 个真实室内场景(3 所大学建筑、1 个办公楼、1 个住宅楼)
  • 数据规模:120 个回合,共 2,455 米视频素材
  • 硬件平台:NVIDIA Jetson Orin NX(16GB 内存),完全本地运行
  • VLM 模型:Gemma3-4B(4B 参数),模型无关设计兼容其他 VLM
  • 辅助模型:SegFormer-b0(分割)、docTR(OCR)、SigLIP(视觉编码器)
Card 06 评估与结果

评估与结果

  • 延迟改进:相比连续 VLM 导航,平均延迟降低 66%
  • 决策准确率:IROS 端到端成功率 67.5%,是 VLM 仅 baseline(5.83%)的 11.5 倍
  • System One 性能:处理 53.6% 的导航决策,延迟仅 0.7-0.9 秒
  • 信息增强效果:空间与文本增强将 VLM 决策准确率从 48.2% 提升至 64.3%
  • 消融实验:关键帧比较阈值 45% 时系统表现最稳定;4B 级模型是支持可靠推理的最小参数量