返回列表 VLA / Vision-Language-Action 每日论文卡

SPKLIP: Aligning Spike Video Streams with Natural Language

论文详情

SPKLIP: Aligning Spike Video Streams with Natural Language

2025-05-19 · 原文 · 翻译 · 2505.12656

SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决脉冲相机(spike cameras)与自然语言的对齐问题 脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围,但其稀疏、异步的输出对语义理解带来挑战,现有的 CLIP 等模型直接应用于脉冲数据时性能严重下降 研究目标是通过多模态对比学习,实现对…

5 分钟读完 6 张阅读卡 北京大学 (National Key Laboratory for Multimedia Inform…
一眼看懂 封面预览

SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决…

  • SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决…
  • 脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围,但其稀疏、异步的输出对语义理解带来挑战,现有的 CLIP 等…
  • 研究目标是通过多模态对比学习,实现对高速动态场景的鲁棒语义理解,并支持少样本学习
Card 01 研究单位

研究单位

  • 北京大学 (National Key Laboratory for Multimedia Information Processing, School of Computer Science)
  • 中国科学院大学 (School of Artificial Intelligence)
  • 电子科技大学 (Yingcai Honors College)
  • 北京大学 (Institute for Artificial Intelligence)
Card 02 论文概述

论文概述

  • SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决脉冲相机(spike cameras)与自然语言的对齐问题
  • 脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围,但其稀疏、异步的输出对语义理解带来挑战,现有的 CLIP 等模型直接应用于脉冲数据时性能严重下降
  • 研究目标是通过多模态对比学习,实现对高速动态场景的鲁棒语义理解,并支持少样本学习
Card 03 核心贡献

核心贡献

  • 首个 Spike-VLA 架构:提出 SPKLIP 端到端框架,包含层级化脉冲特征提取器 (HSFE),专门处理稀疏、异步的脉冲事件流
  • Spike-Text 对比学习 (STCL):直接对齐原始脉冲视频与文本,绕过中间帧转换
  • 全脉冲视觉编码器 (FSVE):集成 SNN 组件,显著降低能耗,适用于神经形态硬件部署
  • 新真实世界数据集贡献:构建并发布新的脉冲视频数据集,用于现实条件下的研究验证
  • 建立强基线:在基准数据集上显著优于现有的适配型视觉-语言模型
Card 04 方法描述

方法描述

  • 层级化脉冲特征提取器 (HSFE):包含多尺度时间滤波 (MTF) 和空间注意力 (SA),自适应建模多尺度时间动态

- 采用滑动窗口(radius=30, step=45)将输入分为5个时间重叠的子块

- 多分支卷积核提取不同时间分辨率的特征

- 基于光子守恒约束分配通道数:k_i ∝ Photon_total / T_i

  • 时空注意力残差网络 (STAR-Net):使用 MAPResNet(CNN+Transformer 混合结构)和 Transformer 编码器进行长程时空依赖建模
  • 脉冲-文本对比学习 (STCL):直接对齐脉冲视频特征与文本嵌入
Card 05 数据集与资源

数据集与资源

  • 数据集:新的真实世界脉冲视频数据集(论文中贡献)
  • 实现细节:使用帧插值增强时间分辨率,通过时间积分进行脉冲编码
Card 06 评估与结果

评估与结果

  • 在基准脉冲数据集上达到最先进的性能
  • 在新贡献的真实世界数据集上展示强少样本泛化能力
  • 全脉冲视觉编码器 (FSVE) 证明显著降低能耗,对神经形态硬件部署具有潜力