Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

一眼看懂封面预览

提出并发布了首个大规模、多模态的以自我为中心（Egocentric）的人-物-人交互数据集 InterVLA，包含11.4小时、120万帧和3…

Card 01 研究单位

研究单位

Card 02 论文概述

提出并发布了首个大规模、多模态的以自我为中心（Egocentric）的人-物-人交互数据集 InterVLA，包含11.4小时、120万帧和3900个序列的数据。
旨在解决现有交互数据集交互类别单一和缺乏自我中心视角的问题，以促进构建能在物理世界中运行的通用智能体（AI助手）。

Card 03 核心贡献

发布了第一个大规模、包含多样化通用交互类别和自我中心视角的人-物-人交互数据集 InterVLA。
建立了一系列围绕该数据集的新颖基准任务，包括以自我为中心的人体运动估计、交互合成和交互预测。
设计并实现了一个混合的RGB-动作捕捉（MoCap）数据采集系统，在保留RGB视频保真度的同时，获得了高精度的人体和物体运动数据。
在视觉-语言-动作（VLA）框架下采集数据，包含了自我中心视频、第三人称视频、语言指令、高精度人体/物体运动等多种模态，数据经过了时间同步和空间校准。

Card 04 方法描述

数据采集框架：将助手服务任务嵌入视觉-语言-动作范式。视觉来自助手的两个自我中心摄像头（头戴和胸戴）和五个第三人称摄像头。语言为GPT生成的指令脚本。动作为通过光学动作捕捉系统获得的高精度人体和物体运动。
关键技术/创新点：

- 使用混合RGB-MoCap系统，在人体皮肤/衣物和物体表面直接粘贴反射标记点，避免了紧身MoCap服对RGB模态的干扰。

- 通过ChatGPT生成多样化的交互脚本，涵盖多物体操作、导航等多种任务，保证了交互的多样性和连贯性。

- 将采集的BVH格式人体骨架数据通过优化算法拟合到SMPL参数化模型，并扫描所有物体的精确网格模型。

Card 05 数据集与资源

- 11.4小时总时长，120万帧，3900个交互序列。

- 涉及47名参与者，组成27对不同的指导员-助手组合，使用50种日常物品。

- 包含100个由GPT生成的交互脚本。

Card 06 评估与结果

- 以自我为中心的人体运动估计：从助手的自我中心视频估计指导员的三维人体运动。

- 交互合成：根据文本描述、初始状态和物体网格，生成合理的人-物-人交互序列。

- 运动基础的交互预测：根据过去的运动序列预测未来的人体/物体运动。

- 视觉-语言基础的交互预测：基于历史的自我中心视频和语言指令，预测助手的未来运动。

- 运动估计：MPJPE, PA-MPJPE, PVE, 加速度误差（Accel）。

- 交互合成：R Precision, FID, MM Dist, Diversity, MModality。

- 交互预测：关节位置误差、物体平移/旋转误差、接触精度、穿模率、平均/最终位移误差。

- 在自我中心人体运动估计任务上，即使最佳基线方法WHAM也存在显著误差（MPJPE为333.6毫米），揭示了快速相机移动、遮挡、视线受限带来的巨大挑战。

- 在交互合成任务上，HIMO模型表现最佳，但其FID值与真实数据仍有差距，表明生成交互的自然度有待提高。

- 在交互预测任务上，CAHMP（运动预测）和USST（视觉语言预测）分别取得了各自任务的最佳结果，但预测误差依然较大，表明InterVLA数据集对这些任务提出了严峻挑战。