提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3…
- 提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3…
- 旨在解决现有交互数据集交互类别单一和缺乏自我中心视角的问题,以促进构建能在物理世界中运行的通用智能体(AI助手)。
- 发布了第一个大规模、包含多样化通用交互类别和自我中心视角的人-物-人交互数据集 InterVLA。
研究单位
- 上海交通大学 人工智能教育部重点实验室、人工智能研究院
- 东方理工学院 宁波数字孪生研究院
- 宁波市空间智能与数字衍生重点实验室
- 南京航空航天大学
- 联想集团
论文概述
- 提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3900个序列的数据。
- 旨在解决现有交互数据集交互类别单一和缺乏自我中心视角的问题,以促进构建能在物理世界中运行的通用智能体(AI助手)。
核心贡献
- 发布了第一个大规模、包含多样化通用交互类别和自我中心视角的人-物-人交互数据集 InterVLA。
- 建立了一系列围绕该数据集的新颖基准任务,包括以自我为中心的人体运动估计、交互合成和交互预测。
- 设计并实现了一个混合的RGB-动作捕捉(MoCap)数据采集系统,在保留RGB视频保真度的同时,获得了高精度的人体和物体运动数据。
- 在视觉-语言-动作(VLA)框架下采集数据,包含了自我中心视频、第三人称视频、语言指令、高精度人体/物体运动等多种模态,数据经过了时间同步和空间校准。
方法描述
- 数据采集框架:将助手服务任务嵌入视觉-语言-动作范式。视觉来自助手的两个自我中心摄像头(头戴和胸戴)和五个第三人称摄像头。语言为GPT生成的指令脚本。动作为通过光学动作捕捉系统获得的高精度人体和物体运动。
- 关键技术/创新点:
- 使用混合RGB-MoCap系统,在人体皮肤/衣物和物体表面直接粘贴反射标记点,避免了紧身MoCap服对RGB模态的干扰。
- 通过ChatGPT生成多样化的交互脚本,涵盖多物体操作、导航等多种任务,保证了交互的多样性和连贯性。
- 将采集的BVH格式人体骨架数据通过优化算法拟合到SMPL参数化模型,并扫描所有物体的精确网格模型。
数据集与资源
- 数据集名称:InterVLA
- 数据规模:
- 11.4小时总时长,120万帧,3900个交互序列。
- 涉及47名参与者,组成27对不同的指导员-助手组合,使用50种日常物品。
- 包含100个由GPT生成的交互脚本。
- 训练资源:论文中未明确说明模型训练的具体硬件配置(如GPU型号和数量),但致谢部分提到了使用了上海交通大学学生创新中心提供的GPU。
评估与结果
- 评估任务:提出了四个下游任务基准进行评估。
- 以自我为中心的人体运动估计:从助手的自我中心视频估计指导员的三维人体运动。
- 交互合成:根据文本描述、初始状态和物体网格,生成合理的人-物-人交互序列。
- 运动基础的交互预测:根据过去的运动序列预测未来的人体/物体运动。
- 视觉-语言基础的交互预测:基于历史的自我中心视频和语言指令,预测助手的未来运动。
- 主要评估指标:
- 运动估计:MPJPE, PA-MPJPE, PVE, 加速度误差(Accel)。
- 交互合成:R Precision, FID, MM Dist, Diversity, MModality。
- 交互预测:关节位置误差、物体平移/旋转误差、接触精度、穿模率、平均/最终位移误差。
- 关键实验结果:
- 在自我中心人体运动估计任务上,即使最佳基线方法WHAM也存在显著误差(MPJPE为333.6毫米),揭示了快速相机移动、遮挡、视线受限带来的巨大挑战。
- 在交互合成任务上,HIMO模型表现最佳,但其FID值与真实数据仍有差距,表明生成交互的自然度有待提高。
- 在交互预测任务上,CAHMP(运动预测)和USST(视觉语言预测)分别取得了各自任务的最佳结果,但预测误差依然较大,表明InterVLA数据集对这些任务提出了严峻挑战。