Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

一眼看懂封面预览

论文提出了 Walk with Me 框架，旨在解决开放世界户外环境中，从高层次自然语言指令出发的、无地图的长视距社交导航问题。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出了 无地图、长视距户外社交导航 的问题设定，要求机器人具备意图理解、路线推理和社交合规控制能力，且不依赖预建 HD 地图。
设计了 Walk with Me 分层框架，结合高层视觉语言模型（VLM）进行意图定位和安全推理，以及底层视觉语言动作模型（VLA）进行局部社交导航。
引入了一种 观察感知的路由机制，能够自适应地判断当前场景是常规导航还是复杂情况，从而决定是交由底层 VLA 执行还是触发高层安全推理和“停止等待”行为。
在真实的轮式机器人上部署并验证了系统，成功完成了从抽象指令出发的公里级户外导航任务，证明了其实用性。

Card 04 方法描述

高层语义规划：利用 VLM 解析用户的抽象指令，结合 GPS 上下文和从公开地图 API（如百度/谷歌地图）查询的 POI 候选点，选定具体目的地并生成粗略的路径点序列。
自适应双策略导航：

- 构建包含 RGB 图像、位姿、轨迹历史和下一个路径点的环境观测。

- 高层 VLM 执行联合决策，判断当前路段是“常规”还是“复杂”，并决定是“继续”还是“停止等待”。

- 若为“继续”，则将任务分发给 底层 VLA，预测短视距的社会合规轨迹。

Card 05 数据集与资源

使用公开地图服务 API（如百度地图、谷歌地图）获取 POI 数据和步行路线，未使用预构建 HD 地图。
实验平台为 Athena 2.0 Pro AGV 轮式机器人，配备 Intel RealSense D455 深度相机、GPS 接收器和机载 SLAM 模块。
推理服务部署在配备 NVIDIA H20 GPU 的远程服务器上，支持高层 VLM（如 Claude, Gemini, GPT-5, MiMo-Embodied）和底层 VLA（如 SocialNav, CityWalker）的运行。

Card 06 评估与结果

在真实户外环境中进行了 20 次 试验，涵盖“最后一公里配送”（送奶茶、送包裹）和“盲人导航”（散步、购物）两类任务。
主要评估指标为 成功率。
整体实验结果显示，系统平均成功率为 60%（12/20）。
在“最后一公里配送”任务中，平均成功率为 70%，其中送奶茶成功率最高（80%），送包裹为 60%。
在“盲人导航”任务中，平均成功率为 50%，“散步”场景为 60%，“购物”场景为 40%（主要受人群密集和近距离交互挑战影响）。
消融实验表明，高层模型中 MiMo-Embodied 和底层模型中 SocialNav 表现最佳，验证了高层推理与底层社交导航策略结合的重要性。