返回列表 VLA / Vision-Language-Action 每日论文卡
Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action
提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映…

论文详情

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

2025-09-23 · 原文 · 翻译 · 2509.19571

提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映射为对象检索、空间推理和 affordance 级别的交互 核心目标是实现零样本开放词汇表的机器人操作能力,不依赖特定任务的微调数据 解决了现有 VLA(视觉-语言-动作)模型在复杂指令和新场景中表现受限的问题,同时克服了传统场景表示方法无法直接处理运动规划缺陷

6 分钟读完 6 张阅读卡 Université de Montréal(蒙特利尔大学)- 加拿大
一眼看懂 封面预览

提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映…

  • 提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映…
  • 核心目标是实现零样本开放词汇表的机器人操作能力,不依赖特定任务的微调数据
  • 解决了现有 VLA(视觉-语言-动作)模型在复杂指令和新场景中表现受限的问题,同时克服了传统场景表示方法无法直接处理运动规划缺陷
Card 01 研究单位

研究单位

  • Université de Montréal(蒙特利尔大学)- 加拿大
  • Mila - Quebec AI Institute(魁北克人工智能研究所)- 加拿大
  • Sapienza University of Rome(罗马Sapienza大学)- 意大利
Card 02 论文概述

论文概述

  • 提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映射为对象检索、空间推理和 affordance 级别的交互
  • 核心目标是实现零样本开放词汇表的机器人操作能力,不依赖特定任务的微调数据
  • 解决了现有 VLA(视觉-语言-动作)模型在复杂指令和新场景中表现受限的问题,同时克服了传统场景表示方法无法直接处理运动规划缺陷
Card 03 核心贡献

核心贡献

  • Agentic Scene Policies (ASP):一种语言条件下的操作策略,通过 LLM 智能体调用场景查询工具来执行语义、空间推理和 affordance 级别的任务
  • 与 VLA 的广泛实证比较:在 15 个桌面操作任务上与 π0-FAST 和 π0.5 两种 VLA 模型对比,证明模块化方法在零样本场景下的优越性
  • Mobile ASP:扩展到房间级查询,通过 affordance 引导的导航和扩展的场景表示实现移动操作
  • Affordance 检测流水线:利用 Gemini 2.5 和 SAM 2.1 实现细粒度的对象部分分割和技能选择
  • 开放词汇表目标检索:基于 CLIP 特征的场景地图,支持任意语言查询的对象定位
Card 04 方法描述

方法描述

  • ObjectMap 构建:使用 MobileSAM 进行类别无关分割,用 CLIP 提取语义特征,合并几何和视觉相似的对象,形成 3D 点云表示
  • LLM 智能体(LangChain + Gemini):通过工具调用与场景交互,工具包括 object_retrieval(开放词汇检索)、spatial(空间推理)、interact(交互)和 go_to(导航)
  • Affordance 检测:两阶段流水线——先用 Gemini 2.5 预测技能和部件,再通过 SAM 2.1 分割并提升到 3D
  • 技能库:基础技能(grasp、place、drop)和 affordance 技能(grasp_part、tip_push、pinch_pull、hook_pull),基于运动规划和 AnyGrasp 抓取生成
  • Mobile ASP:增加 go_to 工具实现导航,affordance 引导选择最佳观察位置,支持目标重检测提高鲁棒性
Card 05 数据集与资源

数据集与资源

  • 桌面操作实验:15 个任务,每任务 10 次尝试,共 540 次试验
  • 移动操作实验:双物体拾取(10 个任务)、空间推理(10 个任务)、affordance 导航(10 次)
  • 硬件平台:UFactory XArm 6 + Agilex Ranger Mini 2.0 移动底座
  • 传感器:Intel RealSense D435i(腕部 RGB-D)+ Intel RealSense T265(跟踪相机)
  • 计算资源:NVIDIA Titan RTX,工作站运行所有感知模型
Card 06 评估与结果

评估与结果

  • 桌面操作:ASP 在 15 个任务中13 个超越 π0-FAST 和 π0.5,平均成功率显著高于 VLA(~20%)
  • Affordance 重要性:移除 affordance 检测后(ASP No Aff),在键盘、电源适配器、图钉、抽屉等任务上性能大幅下降
  • 移动操作:成功展示房间级规划能力,affordance 引导的导航对面向特定方向的操作至关重要
  • 失败分析:31% 失败源于感知问题(过分割、affordance 检测错误),运动规划和抓取选择也有失败案例