提出 IROS 框架，用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾

论文详情

IROS: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation

2026-01-29 · 原文 · 翻译 · 2601.21506

提出 IROS 框架，用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾核心问题：视觉语言模型（VLM）虽然提供丰富的上下文推理能力，但推理延迟高，难以满足实时性要求；传统 SLAM 方法虽能准确定位，但缺乏对人类目标线索（如标志、房间号）的语义理解能力研究目标：结合 VLM 的语义推理能力与轻量级感知模块的效率，实现低延迟、高准确率的室内导航

5 分钟读完 6 张阅读卡延世大学 (Yonsei University)，韩国首尔

一眼看懂封面预览

提出 IROS 框架，用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾

提出 IROS 框架，用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
核心问题：视觉语言模型（VLM）虽然提供丰富的上下文推理能力，但推理延迟高，难以满足实时性要求；传统 SLAM 方法虽能准确定位，但缺乏对人类…
研究目标：结合 VLM 的语义推理能力与轻量级感知模块的效率，实现低延迟、高准确率的室内导航

Card 01 研究单位

研究单位

延世大学 (Yonsei University)，韩国首尔

Card 02 论文概述

论文概述

提出 IROS 框架，用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
核心问题：视觉语言模型（VLM）虽然提供丰富的上下文推理能力，但推理延迟高，难以满足实时性要求；传统 SLAM 方法虽能准确定位，但缺乏对人类目标线索（如标志、房间号）的语义理解能力
研究目标：结合 VLM 的语义推理能力与轻量级感知模块的效率，实现低延迟、高准确率的室内导航

Card 03 核心贡献

核心贡献

双过程导航架构：受双过程理论启发，提出 System One（快速感知）和 System Two（审慎推理）分离的架构，System One 处理即时、低歧义决策，System Two 仅在需要高级推理时调用 VLM
条件推理机制：设计 Key Frame Compare（关键帧比较）和 Vision-Condition Matching（视觉条件匹配）模块，仅在环境发生显著变化时触发 VLM 推理，大幅降低延迟
空间与文本信息增强：通过分割（SegFormer-b0）、OCR（docTR）和消失点检测为紧凑型 VLM 提供显式的空间描述和文本线索，提升决策准确率
端到端实现与真实环境评估：在五栋真实建筑中部署验证，证明系统可在低成本嵌入式硬件上实现类人决策能力

Card 04 方法描述

方法描述

双过程架构：System One 采用轻量级视觉编码器（SigLIP）、分割模块（SegFormer-b0）和 OCR（docTR）进行快速感知；System Two 使用 VLM（Gemma3-4B）进行复杂场景的审慎推理
关键帧比较（KFC）：基于 patch 级嵌入比较当前帧与上一决策帧的视觉差异，仅在结构变化超过阈值时触发后续处理
条件匹配：将空间和文本场景描述与预生成的 Condition-to-Action 表进行余弦相似度匹配，若匹配到唯一动作则直接执行，否则升级至 System Two
空间信息增强：通过消失点检测推断场景的 3D 布局，将场景划分为"前方""左侧""右侧"等导航区域
执行模块：基于消失点跟踪和 PID 控制实现机器人的精确转向和移动

Card 05 数据集与资源

数据集与资源

测试环境：5 个真实室内场景（3 所大学建筑、1 个办公楼、1 个住宅楼）
数据规模：120 个回合，共 2,455 米视频素材
硬件平台：NVIDIA Jetson Orin NX（16GB 内存），完全本地运行
VLM 模型：Gemma3-4B（4B 参数），模型无关设计兼容其他 VLM
辅助模型：SegFormer-b0（分割）、docTR（OCR）、SigLIP（视觉编码器）

Card 06 评估与结果

评估与结果

延迟改进：相比连续 VLM 导航，平均延迟降低 66%
决策准确率：IROS 端到端成功率 67.5%，是 VLM 仅 baseline（5.83%）的 11.5 倍
System One 性能：处理 53.6% 的导航决策，延迟仅 0.7-0.9 秒
信息增强效果：空间与文本增强将 VLM 决策准确率从 48.2% 提升至 64.3%
消融实验：关键帧比较阈值 45% 时系统表现最稳定；4B 级模型是支持可靠推理的最小参数量