一眼看懂
封面预览
提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映…
- 提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映…
- 核心目标是实现零样本开放词汇表的机器人操作能力,不依赖特定任务的微调数据
- 解决了现有 VLA(视觉-语言-动作)模型在复杂指令和新场景中表现受限的问题,同时克服了传统场景表示方法无法直接处理运动规划缺陷
Card 01
研究单位
研究单位
- Université de Montréal(蒙特利尔大学)- 加拿大
- Mila - Quebec AI Institute(魁北克人工智能研究所)- 加拿大
- Sapienza University of Rome(罗马Sapienza大学)- 意大利
Card 02
论文概述
论文概述
- 提出了 Agentic Scene Policies (ASP) 框架,通过统一的场景查询接口解决语言条件下的机器人操作问题,将自然语言查询映射为对象检索、空间推理和 affordance 级别的交互
- 核心目标是实现零样本开放词汇表的机器人操作能力,不依赖特定任务的微调数据
- 解决了现有 VLA(视觉-语言-动作)模型在复杂指令和新场景中表现受限的问题,同时克服了传统场景表示方法无法直接处理运动规划缺陷
Card 03
核心贡献
核心贡献
- Agentic Scene Policies (ASP):一种语言条件下的操作策略,通过 LLM 智能体调用场景查询工具来执行语义、空间推理和 affordance 级别的任务
- 与 VLA 的广泛实证比较:在 15 个桌面操作任务上与 π0-FAST 和 π0.5 两种 VLA 模型对比,证明模块化方法在零样本场景下的优越性
- Mobile ASP:扩展到房间级查询,通过 affordance 引导的导航和扩展的场景表示实现移动操作
- Affordance 检测流水线:利用 Gemini 2.5 和 SAM 2.1 实现细粒度的对象部分分割和技能选择
- 开放词汇表目标检索:基于 CLIP 特征的场景地图,支持任意语言查询的对象定位
Card 04
方法描述
方法描述
- ObjectMap 构建:使用 MobileSAM 进行类别无关分割,用 CLIP 提取语义特征,合并几何和视觉相似的对象,形成 3D 点云表示
- LLM 智能体(LangChain + Gemini):通过工具调用与场景交互,工具包括 object_retrieval(开放词汇检索)、spatial(空间推理)、interact(交互)和 go_to(导航)
- Affordance 检测:两阶段流水线——先用 Gemini 2.5 预测技能和部件,再通过 SAM 2.1 分割并提升到 3D
- 技能库:基础技能(grasp、place、drop)和 affordance 技能(grasp_part、tip_push、pinch_pull、hook_pull),基于运动规划和 AnyGrasp 抓取生成
- Mobile ASP:增加 go_to 工具实现导航,affordance 引导选择最佳观察位置,支持目标重检测提高鲁棒性
Card 05
数据集与资源
数据集与资源
- 桌面操作实验:15 个任务,每任务 10 次尝试,共 540 次试验
- 移动操作实验:双物体拾取(10 个任务)、空间推理(10 个任务)、affordance 导航(10 次)
- 硬件平台:UFactory XArm 6 + Agilex Ranger Mini 2.0 移动底座
- 传感器:Intel RealSense D435i(腕部 RGB-D)+ Intel RealSense T265(跟踪相机)
- 计算资源:NVIDIA Titan RTX,工作站运行所有感知模型
Card 06
评估与结果
评估与结果
- 桌面操作:ASP 在 15 个任务中13 个超越 π0-FAST 和 π0.5,平均成功率显著高于 VLA(~20%)
- Affordance 重要性:移除 affordance 检测后(ASP No Aff),在键盘、电源适配器、图钉、抽屉等任务上性能大幅下降
- 移动操作:成功展示房间级规划能力,affordance 引导的导航对面向特定方向的操作至关重要
- 失败分析:31% 失败源于感知问题(过分割、affordance 检测错误),运动规划和抓取选择也有失败案例