本文研究在非结构化环境中机器人如何主动解决信息不确定性，即实现“主动感知”能力。

论文详情

Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data

2026-02-04 · 原文 · 翻译 · 2602.04600

本文研究在非结构化环境中机器人如何主动解决信息不确定性，即实现“主动感知”能力。论文将主动感知形式化为一个由信息增益和决策分支驱动的非马尔可夫决策过程，并提供了一种视觉主动感知范式的系统分类。核心目标是提出一种方法，从大规模人类自我中心数据中学习通用的探索与操作先验，并迁移到机器人上，以在长时域任务中实现鲁棒的主动感知与执行。

4 分钟读完 6 张阅读卡上海交通大学人工智能学院

一眼看懂封面预览

本文研究在非结构化环境中机器人如何主动解决信息不确定性，即实现“主动感知”能力。

本文研究在非结构化环境中机器人如何主动解决信息不确定性，即实现“主动感知”能力。
论文将主动感知形式化为一个由信息增益和决策分支驱动的非马尔可夫决策过程，并提供了一种视觉主动感知范式的系统分类。
核心目标是提出一种方法，从大规模人类自我中心数据中学习通用的探索与操作先验，并迁移到机器人上，以在长时域任务中实现鲁棒的主动感知与执行。

Card 01 研究单位

研究单位

上海交通大学 人工智能学院

Card 02 论文概述

论文概述

本文研究在非结构化环境中机器人如何主动解决信息不确定性，即实现“主动感知”能力。
论文将主动感知形式化为一个由信息增益和决策分支驱动的非马尔可夫决策过程，并提供了一种视觉主动感知范式的系统分类。
核心目标是提出一种方法，从大规模人类自我中心数据中学习通用的探索与操作先验，并迁移到机器人上，以在长时域任务中实现鲁棒的主动感知与执行。

Card 03 核心贡献

核心贡献

提出将主动感知形式化为非马尔可夫决策过程，超越了被动感知，为视觉探索提供了系统性的分类法。
提出一种从大规模人类自我中心数据集中提炼探索先验的方法，通过在统一的自我中心动作空间中对齐人机行为，将人类“感知-行动”策略迁移至机器人。
提出 CoMe-VLA 框架，该框架集成了双轨记忆系统和认知辅助头，使机器人能够保持长期环境感知并自主触发子任务切换。
通过广泛的实验证明，人类先验知识能显著降低对机器人特定演示数据的需求，同时在复杂、不受约束的环境中保持高成功率。

Card 04 方法描述

方法描述

模型基于 Qwen3-VL-2B 视觉语言模型，并结合一个流匹配动作解码器。
提出两个关键创新：认知辅助头用于预测认知标签，作为信息增益的低维代理，以触发子任务转换；双轨记忆系统分别编码历史视觉和本体感觉状态，以维持一致的环境与自身感知。
设计了三阶段训练策略：第一阶段在人类数据上进行认知状态预训练；第二阶段进行认知-动作联合预训练；第三阶段在机器人数据上进行微调，以将先验能力迁移至具体场景和实体。

Card 05 数据集与资源

数据集与资源

使用大规模人类自我中心数据集：CaptainCook4D 和 Ego-Exo4D。
通过VR遥操作系统在 Corenetic Monte02 轮式人形机器人 上收集机器人数据。
模型基于 Qwen3-VL-2B，参数量为20亿。
训练使用 8张 NVIDIA H100 GPU，完成三阶段训练共耗时 3天。

Card 06 评估与结果

评估与结果

在轮式人形机器人上设计了 5个长时域任务，涵盖两种主动感知范式：信息发现（如改变视角寻找物体、打开抽屉揭示遮挡物体）和信息丰富（如拉近物体进行精细操作）。
主要评估指标为 成功率 和 搜索时间。
实验结果表明，本文方法在各项任务上显著优于 OpenVLA-OFT、π₀.₅、ACT 和 Diffusion Policy 等基线模型，平均成功率达到 83.3%，平均搜索时间为 97.9秒。
消融实验验证了认知辅助头和双轨记忆系统对模型性能的关键作用，同时证明了大规模人类数据预训练能显著降低对机器人演示数据的需求。