一眼看懂
封面预览
论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。
- 论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。
- 该框架主要用于以人为本的户外辅助应用(如“最后一公里”配送和盲人导航),能够将抽象的用户意图转化为具体的导航行为。
- 论文解决了现有方法依赖昂贵的预构建高清地图(HD Map)或局限于室内短视距场景的问题,利用轻量级公开地图服务实现语义目标定位和路线规划。
Card 01
研究单位
研究单位
- Tsinghua University
- Pengcheng Laboratory
- Xiaomi EV
- Fudan University
- Institute of Automation, Chinese Academy of Sciences
- Southeast University
- Wuhan University
- Hefei University of Technology
Card 02
论文概述
论文概述
- 论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。
- 该框架主要用于以人为本的户外辅助应用(如“最后一公里”配送和盲人导航),能够将抽象的用户意图转化为具体的导航行为。
- 论文解决了现有方法依赖昂贵的预构建高清地图(HD Map)或局限于室内短视距场景的问题,利用轻量级公开地图服务实现语义目标定位和路线规划。
Card 03
核心贡献
核心贡献
- 提出了 无地图、长视距户外社交导航 的问题设定,要求机器人具备意图理解、路线推理和社交合规控制能力,且不依赖预建 HD 地图。
- 设计了 Walk with Me 分层框架,结合高层视觉语言模型(VLM)进行意图定位和安全推理,以及底层视觉语言动作模型(VLA)进行局部社交导航。
- 引入了一种 观察感知的路由机制,能够自适应地判断当前场景是常规导航还是复杂情况,从而决定是交由底层 VLA 执行还是触发高层安全推理和“停止等待”行为。
- 在真实的轮式机器人上部署并验证了系统,成功完成了从抽象指令出发的公里级户外导航任务,证明了其实用性。
Card 04
方法描述
方法描述
- 高层语义规划:利用 VLM 解析用户的抽象指令,结合 GPS 上下文和从公开地图 API(如百度/谷歌地图)查询的 POI 候选点,选定具体目的地并生成粗略的路径点序列。
- 自适应双策略导航:
- 构建包含 RGB 图像、位姿、轨迹历史和下一个路径点的环境观测。
- 高层 VLM 执行联合决策,判断当前路段是“常规”还是“复杂”,并决定是“继续”还是“停止等待”。
- 若为“继续”,则将任务分发给 底层 VLA,预测短视距的社会合规轨迹。
- 闭环机器人执行:执行预测的动作或安全决策,更新状态并迭代循环,直至到达目的地。
Card 05
数据集与资源
数据集与资源
- 使用公开地图服务 API(如百度地图、谷歌地图)获取 POI 数据和步行路线,未使用预构建 HD 地图。
- 实验平台为 Athena 2.0 Pro AGV 轮式机器人,配备 Intel RealSense D455 深度相机、GPS 接收器和机载 SLAM 模块。
- 推理服务部署在配备 NVIDIA H20 GPU 的远程服务器上,支持高层 VLM(如 Claude, Gemini, GPT-5, MiMo-Embodied)和底层 VLA(如 SocialNav, CityWalker)的运行。
Card 06
评估与结果
评估与结果
- 在真实户外环境中进行了 20 次 试验,涵盖“最后一公里配送”(送奶茶、送包裹)和“盲人导航”(散步、购物)两类任务。
- 主要评估指标为 成功率。
- 整体实验结果显示,系统平均成功率为 60%(12/20)。
- 在“最后一公里配送”任务中,平均成功率为 70%,其中送奶茶成功率最高(80%),送包裹为 60%。
- 在“盲人导航”任务中,平均成功率为 50%,“散步”场景为 60%,“购物”场景为 40%(主要受人群密集和近距离交互挑战影响)。
- 消融实验表明,高层模型中 MiMo-Embodied 和底层模型中 SocialNav 表现最佳,验证了高层推理与底层社交导航策略结合的重要性。