一眼看懂
封面预览
提出了 SaPaVe,一个端到端的主动操作框架,旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。
- 提出了 SaPaVe,一个端到端的主动操作框架,旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。
- 解决了现有视觉-语言-动作(VLA)模型在动态视角下执行能力弱、缺乏语义主动感知能力以及真实世界数据收集成本高昂的问题。
- 采用自底向上的学习策略,通过解耦动作空间,实现了高效的数据利用,使机器人能够在杂乱场景中主动调整视角并执行操作任务。
Card 01
研究单位
研究单位
- 北京大学(多媒体信息处理国家重点实验室,计算机学院)
- 北京航空航天大学(软件学院)
- 北京人工智能研究院
Card 02
论文概述
论文概述
- 提出了 SaPaVe,一个端到端的主动操作框架,旨在统一语义驱动的主动感知与鲁棒的主动视角执行能力。
- 解决了现有视觉-语言-动作(VLA)模型在动态视角下执行能力弱、缺乏语义主动感知能力以及真实世界数据收集成本高昂的问题。
- 采用自底向上的学习策略,通过解耦动作空间,实现了高效的数据利用,使机器人能够在杂乱场景中主动调整视角并执行操作任务。
Card 03
核心贡献
核心贡献
- 提出了 SaPaVe 框架,首次通过解耦动作空间(相机动作与操作动作分离)和两阶段训练策略,实现了高效的主动操作学习。
- 构建了 ActiveViewPose-200K 数据集,包含 20 万条图像-语言-相机运动对,用于语义相机控制学习。
- 发布了 ActiveManip-Bench,这是首个用于评估主动操作能力的模拟基准,涵盖 12 项任务、100 个物体和 20 个场景。
- 在仿真和真实世界实验中均取得了显著优于现有模型(如 GR00T N1 和 $\pi_0$)的性能。
Card 04
方法描述
方法描述
- 设计了 解耦动作头,将相机运动(头部视角调整)与其他操作动作分开预测,避免了共享动作空间中的冲突。
- 引入了 相机适配器,利用 LoRA 技术在大规模数据上训练,使模型能够学习语义主动感知先验,同时保持 VLM 的原有语义能力。
- 提出了 通用空间知识注入 模块,利用 3D 几何编码器将深度、相机内参等几何信息注入动作头,增强了模型在动态视角变化下的空间理解与鲁棒性。
- 采用 两阶段训练策略:第一阶段在 ActiveViewPose-200K 上训练语义主动感知;第二阶段利用混合数据进行主动操作微调。
Card 05
数据集与资源
数据集与资源
- ActiveViewPose-200K:自建的大规模语义主动感知数据集,包含 200k 图像-语言-相机运动对,基于 Objaverse 资产和程序化场景生成。
- ActiveManip-Bench:自建的主动操作基准,基于 NVIDIA Isaac Sim 构建,包含 12 项任务、100 个物体和 20 个场景,使用 Unitree G1 人形机器人平台。
- 真实世界数据:收集了用于微调的真实机器人遥操作数据,涵盖遮挡/视野外抓取与关节操作任务。
Card 06
评估与结果
评估与结果
- 语义主动感知评估:在 ActiveViewPose-200K 上,模型平均成功率达到 84.3%,超越 Gemini-2.5-Pro 16%(尽管参数量仅为 2B)。
- 模拟环境评估:在 ActiveManip-Bench 上,主动相机设置的平均成功率为 74.83%,远超固定相机设置的 36.17%。
- 真实世界评估:在真实机器人任务中,SaPaVe 的平均成功率为 85.00%,分别超越 $\pi_0$ 40% 和 GR00T-N1 31.25%。
- 消融实验:验证了解耦动作头、相机适配器、空间知识注入模块以及两阶段训练策略对性能提升的关键作用。