提出了 SaPaVe，一个端到端的主动操作框架，旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。

论文详情

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

2026-03-12 · 原文 · 翻译 · 2603.12193

提出了 SaPaVe，一个端到端的主动操作框架，旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。解决了现有视觉-语言-动作（VLA）模型在动态视角下执行能力弱、缺乏语义主动感知能力以及真实世界数据收集成本高昂的问题。采用自底向上的学习策略，通过解耦动作空间，实现了高效的数据利用，使机器人能够在杂乱场景中主动调整视角并执行操作任务。

5 分钟读完 6 张阅读卡北京大学（多媒体信息处理国家重点实验室，计算机学院）

一眼看懂封面预览

提出了 SaPaVe，一个端到端的主动操作框架，旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。

提出了 SaPaVe，一个端到端的主动操作框架，旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。
解决了现有视觉-语言-动作（VLA）模型在动态视角下执行能力弱、缺乏语义主动感知能力以及真实世界数据收集成本高昂的问题。
采用自底向上的学习策略，通过解耦动作空间，实现了高效的数据利用，使机器人能够在杂乱场景中主动调整视角并执行操作任务。

Card 01 研究单位

研究单位

北京大学（多媒体信息处理国家重点实验室，计算机学院）
北京航空航天大学（软件学院）
北京人工智能研究院

Card 02 论文概述

论文概述

提出了 SaPaVe，一个端到端的主动操作框架，旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。
解决了现有视觉-语言-动作（VLA）模型在动态视角下执行能力弱、缺乏语义主动感知能力以及真实世界数据收集成本高昂的问题。
采用自底向上的学习策略，通过解耦动作空间，实现了高效的数据利用，使机器人能够在杂乱场景中主动调整视角并执行操作任务。

Card 03 核心贡献

核心贡献

提出了 SaPaVe 框架，首次通过解耦动作空间（相机动作与操作动作分离）和两阶段训练策略，实现了高效的主动操作学习。
构建了 ActiveViewPose-200K 数据集，包含 20 万条图像-语言-相机运动对，用于语义相机控制学习。
发布了 ActiveManip-Bench，这是首个用于评估主动操作能力的模拟基准，涵盖 12 项任务、100 个物体和 20 个场景。
在仿真和真实世界实验中均取得了显著优于现有模型（如 GR00T N1 和 $\pi_0$）的性能。

Card 04 方法描述

方法描述

设计了 解耦动作头，将相机运动（头部视角调整）与其他操作动作分开预测，避免了共享动作空间中的冲突。
引入了 相机适配器，利用 LoRA 技术在大规模数据上训练，使模型能够学习语义主动感知先验，同时保持 VLM 的原有语义能力。
提出了 通用空间知识注入 模块，利用 3D 几何编码器将深度、相机内参等几何信息注入动作头，增强了模型在动态视角变化下的空间理解与鲁棒性。
采用 两阶段训练策略：第一阶段在 ActiveViewPose-200K 上训练语义主动感知；第二阶段利用混合数据进行主动操作微调。

Card 05 数据集与资源

数据集与资源

ActiveViewPose-200K：自建的大规模语义主动感知数据集，包含 200k 图像-语言-相机运动对，基于 Objaverse 资产和程序化场景生成。
ActiveManip-Bench：自建的主动操作基准，基于 NVIDIA Isaac Sim 构建，包含 12 项任务、100 个物体和 20 个场景，使用 Unitree G1 人形机器人平台。
真实世界数据：收集了用于微调的真实机器人遥操作数据，涵盖遮挡/视野外抓取与关节操作任务。

Card 06 评估与结果

评估与结果

语义主动感知评估：在 ActiveViewPose-200K 上，模型平均成功率达到 84.3%，超越 Gemini-2.5-Pro 16%（尽管参数量仅为 2B）。
模拟环境评估：在 ActiveManip-Bench 上，主动相机设置的平均成功率为 74.83%，远超固定相机设置的 36.17%。
真实世界评估：在真实机器人任务中，SaPaVe 的平均成功率为 85.00%，分别超越 $\pi_0$ 40% 和 GR00T-N1 31.25%。
消融实验：验证了解耦动作头、相机适配器、空间知识注入模块以及两阶段训练策略对性能提升的关键作用。