一眼看懂
封面预览
提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
- 提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
- 核心问题:视觉语言模型(VLM)虽然提供丰富的上下文推理能力,但推理延迟高,难以满足实时性要求;传统 SLAM 方法虽能准确定位,但缺乏对人类…
- 研究目标:结合 VLM 的语义推理能力与轻量级感知模块的效率,实现低延迟、高准确率的室内导航
Card 01
研究单位
研究单位
- 延世大学 (Yonsei University),韩国首尔
Card 02
论文概述
论文概述
- 提出 IROS 框架,用于解决室内移动机器人导航中实时响应性与语义理解之间的矛盾
- 核心问题:视觉语言模型(VLM)虽然提供丰富的上下文推理能力,但推理延迟高,难以满足实时性要求;传统 SLAM 方法虽能准确定位,但缺乏对人类目标线索(如标志、房间号)的语义理解能力
- 研究目标:结合 VLM 的语义推理能力与轻量级感知模块的效率,实现低延迟、高准确率的室内导航
Card 03
核心贡献
核心贡献
- 双过程导航架构:受双过程理论启发,提出 System One(快速感知)和 System Two(审慎推理)分离的架构,System One 处理即时、低歧义决策,System Two 仅在需要高级推理时调用 VLM
- 条件推理机制:设计 Key Frame Compare(关键帧比较)和 Vision-Condition Matching(视觉条件匹配)模块,仅在环境发生显著变化时触发 VLM 推理,大幅降低延迟
- 空间与文本信息增强:通过分割(SegFormer-b0)、OCR(docTR)和消失点检测为紧凑型 VLM 提供显式的空间描述和文本线索,提升决策准确率
- 端到端实现与真实环境评估:在五栋真实建筑中部署验证,证明系统可在低成本嵌入式硬件上实现类人决策能力
Card 04
方法描述
方法描述
- 双过程架构:System One 采用轻量级视觉编码器(SigLIP)、分割模块(SegFormer-b0)和 OCR(docTR)进行快速感知;System Two 使用 VLM(Gemma3-4B)进行复杂场景的审慎推理
- 关键帧比较(KFC):基于 patch 级嵌入比较当前帧与上一决策帧的视觉差异,仅在结构变化超过阈值时触发后续处理
- 条件匹配:将空间和文本场景描述与预生成的 Condition-to-Action 表进行余弦相似度匹配,若匹配到唯一动作则直接执行,否则升级至 System Two
- 空间信息增强:通过消失点检测推断场景的 3D 布局,将场景划分为"前方""左侧""右侧"等导航区域
- 执行模块:基于消失点跟踪和 PID 控制实现机器人的精确转向和移动
Card 05
数据集与资源
数据集与资源
- 测试环境:5 个真实室内场景(3 所大学建筑、1 个办公楼、1 个住宅楼)
- 数据规模:120 个回合,共 2,455 米视频素材
- 硬件平台:NVIDIA Jetson Orin NX(16GB 内存),完全本地运行
- VLM 模型:Gemma3-4B(4B 参数),模型无关设计兼容其他 VLM
- 辅助模型:SegFormer-b0(分割)、docTR(OCR)、SigLIP(视觉编码器)
Card 06
评估与结果
评估与结果
- 延迟改进:相比连续 VLM 导航,平均延迟降低 66%
- 决策准确率:IROS 端到端成功率 67.5%,是 VLM 仅 baseline(5.83%)的 11.5 倍
- System One 性能:处理 53.6% 的导航决策,延迟仅 0.7-0.9 秒
- 信息增强效果:空间与文本增强将 VLM 决策准确率从 48.2% 提升至 64.3%
- 消融实验:关键帧比较阈值 45% 时系统表现最稳定;4B 级模型是支持可靠推理的最小参数量