提出了 Agentic Scene Policies (ASP) 框架，通过统一的场景查询接口解决语言条件下的机器人操作问题，将自然语言查询映…

论文详情

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

2025-09-23 · 原文 · 翻译 · 2509.19571

提出了 Agentic Scene Policies (ASP) 框架，通过统一的场景查询接口解决语言条件下的机器人操作问题，将自然语言查询映射为对象检索、空间推理和 affordance 级别的交互核心目标是实现零样本开放词汇表的机器人操作能力，不依赖特定任务的微调数据解决了现有 VLA（视觉-语言-动作）模型在复杂指令和新场景中表现受限的问题，同时克服了传统场景表示方法无法直接处理运动规划缺陷

6 分钟读完 6 张阅读卡 Université de Montréal（蒙特利尔大学）- 加拿大

一眼看懂封面预览

提出了 Agentic Scene Policies (ASP) 框架，通过统一的场景查询接口解决语言条件下的机器人操作问题，将自然语言查询映…

提出了 Agentic Scene Policies (ASP) 框架，通过统一的场景查询接口解决语言条件下的机器人操作问题，将自然语言查询映…
核心目标是实现零样本开放词汇表的机器人操作能力，不依赖特定任务的微调数据
解决了现有 VLA（视觉-语言-动作）模型在复杂指令和新场景中表现受限的问题，同时克服了传统场景表示方法无法直接处理运动规划缺陷

Card 01 研究单位

研究单位

Université de Montréal（蒙特利尔大学）- 加拿大
Mila - Quebec AI Institute（魁北克人工智能研究所）- 加拿大
Sapienza University of Rome（罗马Sapienza大学）- 意大利

Card 02 论文概述

论文概述

提出了 Agentic Scene Policies (ASP) 框架，通过统一的场景查询接口解决语言条件下的机器人操作问题，将自然语言查询映射为对象检索、空间推理和 affordance 级别的交互
核心目标是实现零样本开放词汇表的机器人操作能力，不依赖特定任务的微调数据
解决了现有 VLA（视觉-语言-动作）模型在复杂指令和新场景中表现受限的问题，同时克服了传统场景表示方法无法直接处理运动规划缺陷

Card 03 核心贡献

核心贡献

Agentic Scene Policies (ASP)：一种语言条件下的操作策略，通过 LLM 智能体调用场景查询工具来执行语义、空间推理和 affordance 级别的任务
与 VLA 的广泛实证比较：在 15 个桌面操作任务上与 π0-FAST 和 π0.5 两种 VLA 模型对比，证明模块化方法在零样本场景下的优越性
Mobile ASP：扩展到房间级查询，通过 affordance 引导的导航和扩展的场景表示实现移动操作
Affordance 检测流水线：利用 Gemini 2.5 和 SAM 2.1 实现细粒度的对象部分分割和技能选择
开放词汇表目标检索：基于 CLIP 特征的场景地图，支持任意语言查询的对象定位

Card 04 方法描述

方法描述

ObjectMap 构建：使用 MobileSAM 进行类别无关分割，用 CLIP 提取语义特征，合并几何和视觉相似的对象，形成 3D 点云表示
LLM 智能体（LangChain + Gemini）：通过工具调用与场景交互，工具包括 object_retrieval（开放词汇检索）、spatial（空间推理）、interact（交互）和 go_to（导航）
Affordance 检测：两阶段流水线——先用 Gemini 2.5 预测技能和部件，再通过 SAM 2.1 分割并提升到 3D
技能库：基础技能（grasp、place、drop）和 affordance 技能（grasp_part、tip_push、pinch_pull、hook_pull），基于运动规划和 AnyGrasp 抓取生成
Mobile ASP：增加 go_to 工具实现导航，affordance 引导选择最佳观察位置，支持目标重检测提高鲁棒性

Card 05 数据集与资源

数据集与资源

桌面操作实验：15 个任务，每任务 10 次尝试，共 540 次试验
移动操作实验：双物体拾取（10 个任务）、空间推理（10 个任务）、affordance 导航（10 次）
硬件平台：UFactory XArm 6 + Agilex Ranger Mini 2.0 移动底座
传感器：Intel RealSense D435i（腕部 RGB-D）+ Intel RealSense T265（跟踪相机）
计算资源：NVIDIA Titan RTX，工作站运行所有感知模型

Card 06 评估与结果

评估与结果

桌面操作：ASP 在 15 个任务中13 个超越 π0-FAST 和 π0.5，平均成功率显著高于 VLA（~20%）
Affordance 重要性：移除 affordance 检测后（ASP No Aff），在键盘、电源适配器、图钉、抽屉等任务上性能大幅下降
移动操作：成功展示房间级规划能力，affordance 引导的导航对面向特定方向的操作至关重要
失败分析：31% 失败源于感知问题（过分割、affordance 检测错误），运动规划和抓取选择也有失败案例