一眼看懂
封面预览
论文提出了一种实时运动焦点识别方法,用于从第一人称视角视频中估计穿戴者的运动意图,解决现有数据集主要关注动作识别而忽视运动分析的问题
- 论文提出了一种实时运动焦点识别方法,用于从第一人称视角视频中估计穿戴者的运动意图,解决现有数据集主要关注动作识别而忽视运动分析的问题
- 该方法利用相机姿态估计的基础模型(Depth Anything 3),并引入系统级优化以实现高效可扩展的推理,能够在边缘设备上实时部署
- 针对快速移动场景(如骑滑板车、步行、骑自行车等)中头部和身体运动导致的视角不稳定问题,提出基于物理先验的运动焦点估计
Card 01
研究单位
研究单位
- Clemson University, SC, USA(主要机构)
- University of South Carolina Beaufort, SC, USA
- University of South Carolina, SC, USA
Card 02
论文概述
论文概述
- 论文提出了一种实时运动焦点识别方法,用于从第一人称视角视频中估计穿戴者的运动意图,解决现有数据集主要关注动作识别而忽视运动分析的问题
- 该方法利用相机姿态估计的基础模型(Depth Anything 3),并引入系统级优化以实现高效可扩展的推理,能够在边缘设备上实时部署
- 针对快速移动场景(如骑滑板车、步行、骑自行车等)中头部和身体运动导致的视角不稳定问题,提出基于物理先验的运动焦点估计
Card 03
核心贡献
核心贡献
- 提出无需额外训练的轻量级运动焦点识别模块,基于相机加速度向量投影到图像平面来预测关注区域
- 引入滑动窗口批处理推理策略,解决长视频内存溢出问题,同时保持时间一致性
- 收集了包含多种运动模式(步行、滑板车骑行、骑自行车)和场景(郊区、城市、城镇、校园)的第一人称视频数据集
- 实现了基于重力对齐的增量锚定过程,避免大规模Sim(3)优化的漂移问题
- 在消费级GPU上实现超过30 FPS的实时性能,内存占用低于5GB
Card 04
方法描述
方法描述
- 数据采集:使用单目手持手机采集冬季条件下的第一人称视频,包含不平整路面和冰滑道路等挑战性环境
- 系统优化:采用Depth Anything 3作为基础模型,将长视频分割为重叠的批次进行推理,通过增量锚定技术将各批次对齐到统一的世界坐标系
- 运动焦点识别:从相机姿态序列计算世界坐标系中的加速度向量,转换到相机局部坐标后投影到图像平面得到运动焦点坐标,使用高斯核聚合N个运动点生成最终焦点图
- 定性分析:验证方法在多种场景(滑板车、步行、骑自行车)下能够稳定突出运动相关区域,抑制静态干扰物
Card 05
数据集与资源
数据集与资源
- 数据集:自建第一人称动作视频数据集,包含206个视频片段,总时长约215分钟,363,476帧
- 郊区(Suburban):42片段,960×544,30 FPS,37分钟
- 城市(City):56片段,1920×1080,30 FPS,79分钟
- 城镇(Town):36片段,3840×2160,30 FPS,24分钟
- 校园(Campus):72片段,1920×1080,60 FPS,75分钟
- 模型:Depth Anything 3(Base/Small版本)
- 训练资源:24GB显存GPU,不同配置下FPS和内存消耗见Table 2
Card 06
评估与结果
评估与结果
- 评估环境:24GB显存桌面GPU,不同分辨率和批量大小配置
- 主要性能指标:FPS(帧率)和GPU内存占用
- 关键结果:
- DA3 Base + 504分辨率 + 批大小60:31.53 FPS,8113 MB
- DA3 Base + 384分辨率 + 批大小60:34.01 FPS,5556 MB
- DA3 Small + 384分辨率 + 批大小60:38.44 FPS,3437 MB
- 定性结果:在30个视频片段上的定性分析表明,运动焦点能够稳定地突出运动相关区域,抑制静态物体,在头部方向与身体运动方向不一致时仍能保持与躯干运动趋势的对齐