返回列表 VLA / Vision-Language-Action 每日论文卡

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

论文详情

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

2025-08-06 · 原文 · 翻译 · 2508.04681

提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3900个序列的数据。 旨在解决现有交互数据集交互类别单一和缺乏自我中心视角的问题,以促进构建能在物理世界中运行的通用智能体(AI助手)。

6 分钟读完 6 张阅读卡 上海交通大学 人工智能教育部重点实验室、人工智能研究院
一眼看懂 封面预览

提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3…

  • 提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时、120万帧和3…
  • 旨在解决现有交互数据集交互类别单一和缺乏自我中心视角的问题,以促进构建能在物理世界中运行的通用智能体(AI助手)。
  • 发布了第一个大规模、包含多样化通用交互类别和自我中心视角的人-物-人交互数据集 InterVLA。
Card 01 研究单位

研究单位

  • 上海交通大学 人工智能教育部重点实验室、人工智能研究院
  • 东方理工学院 宁波数字孪生研究院
  • 宁波市空间智能与数字衍生重点实验室
  • 南京航空航天大学
  • 联想集团
Card 02 论文概述

论文概述

  • 提出并发布了首个大规模、多模态的以自我为中心(Egocentric)的人-物-人交互数据集 InterVLA,包含11.4小时120万帧3900个序列的数据。
  • 旨在解决现有交互数据集交互类别单一缺乏自我中心视角的问题,以促进构建能在物理世界中运行的通用智能体(AI助手)。
Card 03 核心贡献

核心贡献

  • 发布了第一个大规模、包含多样化通用交互类别自我中心视角的人-物-人交互数据集 InterVLA
  • 建立了一系列围绕该数据集的新颖基准任务,包括以自我为中心的人体运动估计交互合成交互预测
  • 设计并实现了一个混合的RGB-动作捕捉(MoCap)数据采集系统,在保留RGB视频保真度的同时,获得了高精度的人体和物体运动数据。
  • 视觉-语言-动作(VLA)框架下采集数据,包含了自我中心视频、第三人称视频、语言指令、高精度人体/物体运动等多种模态,数据经过了时间同步空间校准
Card 04 方法描述

方法描述

  • 数据采集框架:将助手服务任务嵌入视觉-语言-动作范式。视觉来自助手的两个自我中心摄像头(头戴和胸戴)和五个第三人称摄像头。语言为GPT生成的指令脚本。动作为通过光学动作捕捉系统获得的高精度人体和物体运动。
  • 关键技术/创新点

- 使用混合RGB-MoCap系统,在人体皮肤/衣物和物体表面直接粘贴反射标记点,避免了紧身MoCap服对RGB模态的干扰。

- 通过ChatGPT生成多样化的交互脚本,涵盖多物体操作、导航等多种任务,保证了交互的多样性和连贯性

- 将采集的BVH格式人体骨架数据通过优化算法拟合到SMPL参数化模型,并扫描所有物体的精确网格模型。

Card 05 数据集与资源

数据集与资源

  • 数据集名称InterVLA
  • 数据规模

- 11.4小时总时长,120万帧3900个交互序列

- 涉及47名参与者,组成27对不同的指导员-助手组合,使用50种日常物品。

- 包含100个由GPT生成的交互脚本。

  • 训练资源:论文中未明确说明模型训练的具体硬件配置(如GPU型号和数量),但致谢部分提到了使用了上海交通大学学生创新中心提供的GPU。
Card 06 评估与结果

评估与结果

  • 评估任务:提出了四个下游任务基准进行评估。

- 以自我为中心的人体运动估计:从助手的自我中心视频估计指导员的三维人体运动。

- 交互合成:根据文本描述、初始状态和物体网格,生成合理的人-物-人交互序列。

- 运动基础的交互预测:根据过去的运动序列预测未来的人体/物体运动。

- 视觉-语言基础的交互预测:基于历史的自我中心视频和语言指令,预测助手的未来运动。

  • 主要评估指标

- 运动估计:MPJPE, PA-MPJPE, PVE, 加速度误差(Accel)

- 交互合成:R Precision, FID, MM Dist, Diversity, MModality

- 交互预测:关节位置误差物体平移/旋转误差接触精度穿模率平均/最终位移误差

  • 关键实验结果

- 在自我中心人体运动估计任务上,即使最佳基线方法WHAM也存在显著误差(MPJPE为333.6毫米),揭示了快速相机移动、遮挡、视线受限带来的巨大挑战。

- 在交互合成任务上,HIMO模型表现最佳,但其FID值与真实数据仍有差距,表明生成交互的自然度有待提高。

- 在交互预测任务上,CAHMP(运动预测)和USST(视觉语言预测)分别取得了各自任务的最佳结果,但预测误差依然较大,表明InterVLA数据集对这些任务提出了严峻挑战。