返回列表 VLA / Vision-Language-Action 每日论文卡
Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance
论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。

论文详情

Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

2026-04-29 · 原文 · 翻译 · 2604.26839

论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。 该框架主要用于以人为本的户外辅助应用(如“最后一公里”配送和盲人导航),能够将抽象的用户意图转化为具体的导航行为。 论文解决了现有方法依赖昂贵的预构建高清地图(HD Map)或局限于室内短视距场景的问题,利用轻量级公开地图服务实现语义目标定位和路线规划。

6 分钟读完 6 张阅读卡 Tsinghua University
一眼看懂 封面预览

论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。

  • 论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。
  • 该框架主要用于以人为本的户外辅助应用(如“最后一公里”配送和盲人导航),能够将抽象的用户意图转化为具体的导航行为。
  • 论文解决了现有方法依赖昂贵的预构建高清地图(HD Map)或局限于室内短视距场景的问题,利用轻量级公开地图服务实现语义目标定位和路线规划。
Card 01 研究单位

研究单位

  • Tsinghua University
  • Pengcheng Laboratory
  • Xiaomi EV
  • Fudan University
  • Institute of Automation, Chinese Academy of Sciences
  • Southeast University
  • Wuhan University
  • Hefei University of Technology
Card 02 论文概述

论文概述

  • 论文提出了 Walk with Me 框架,旨在解决开放世界户外环境中,从高层次自然语言指令出发的、无地图的长视距社交导航问题。
  • 该框架主要用于以人为本的户外辅助应用(如“最后一公里”配送和盲人导航),能够将抽象的用户意图转化为具体的导航行为。
  • 论文解决了现有方法依赖昂贵的预构建高清地图(HD Map)或局限于室内短视距场景的问题,利用轻量级公开地图服务实现语义目标定位和路线规划。
Card 03 核心贡献

核心贡献

  • 提出了 无地图、长视距户外社交导航 的问题设定,要求机器人具备意图理解、路线推理和社交合规控制能力,且不依赖预建 HD 地图。
  • 设计了 Walk with Me 分层框架,结合高层视觉语言模型(VLM)进行意图定位和安全推理,以及底层视觉语言动作模型(VLA)进行局部社交导航。
  • 引入了一种 观察感知的路由机制,能够自适应地判断当前场景是常规导航还是复杂情况,从而决定是交由底层 VLA 执行还是触发高层安全推理和“停止等待”行为。
  • 在真实的轮式机器人上部署并验证了系统,成功完成了从抽象指令出发的公里级户外导航任务,证明了其实用性。
Card 04 方法描述

方法描述

  • 高层语义规划:利用 VLM 解析用户的抽象指令,结合 GPS 上下文和从公开地图 API(如百度/谷歌地图)查询的 POI 候选点,选定具体目的地并生成粗略的路径点序列。
  • 自适应双策略导航

- 构建包含 RGB 图像、位姿、轨迹历史和下一个路径点的环境观测。

- 高层 VLM 执行联合决策,判断当前路段是“常规”还是“复杂”,并决定是“继续”还是“停止等待”。

- 若为“继续”,则将任务分发给 底层 VLA,预测短视距的社会合规轨迹。

  • 闭环机器人执行:执行预测的动作或安全决策,更新状态并迭代循环,直至到达目的地。
Card 05 数据集与资源

数据集与资源

  • 使用公开地图服务 API(如百度地图、谷歌地图)获取 POI 数据和步行路线,未使用预构建 HD 地图。
  • 实验平台为 Athena 2.0 Pro AGV 轮式机器人,配备 Intel RealSense D455 深度相机、GPS 接收器和机载 SLAM 模块。
  • 推理服务部署在配备 NVIDIA H20 GPU 的远程服务器上,支持高层 VLM(如 Claude, Gemini, GPT-5, MiMo-Embodied)和底层 VLA(如 SocialNav, CityWalker)的运行。
Card 06 评估与结果

评估与结果

  • 在真实户外环境中进行了 20 次 试验,涵盖“最后一公里配送”(送奶茶、送包裹)和“盲人导航”(散步、购物)两类任务。
  • 主要评估指标为 成功率
  • 整体实验结果显示,系统平均成功率为 60%(12/20)。
  • 在“最后一公里配送”任务中,平均成功率为 70%,其中送奶茶成功率最高(80%),送包裹为 60%。
  • 在“盲人导航”任务中,平均成功率为 50%,“散步”场景为 60%,“购物”场景为 40%(主要受人群密集和近距离交互挑战影响)。
  • 消融实验表明,高层模型中 MiMo-Embodied 和底层模型中 SocialNav 表现最佳,验证了高层推理与底层社交导航策略结合的重要性。