一眼看懂
封面预览
SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决…
- SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决…
- 脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围,但其稀疏、异步的输出对语义理解带来挑战,现有的 CLIP 等…
- 研究目标是通过多模态对比学习,实现对高速动态场景的鲁棒语义理解,并支持少样本学习
Card 01
研究单位
研究单位
- 北京大学 (National Key Laboratory for Multimedia Information Processing, School of Computer Science)
- 中国科学院大学 (School of Artificial Intelligence)
- 电子科技大学 (Yingcai Honors College)
- 北京大学 (Institute for Artificial Intelligence)
Card 02
论文概述
论文概述
- SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构,旨在解决脉冲相机(spike cameras)与自然语言的对齐问题
- 脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围,但其稀疏、异步的输出对语义理解带来挑战,现有的 CLIP 等模型直接应用于脉冲数据时性能严重下降
- 研究目标是通过多模态对比学习,实现对高速动态场景的鲁棒语义理解,并支持少样本学习
Card 03
核心贡献
核心贡献
- 首个 Spike-VLA 架构:提出 SPKLIP 端到端框架,包含层级化脉冲特征提取器 (HSFE),专门处理稀疏、异步的脉冲事件流
- Spike-Text 对比学习 (STCL):直接对齐原始脉冲视频与文本,绕过中间帧转换
- 全脉冲视觉编码器 (FSVE):集成 SNN 组件,显著降低能耗,适用于神经形态硬件部署
- 新真实世界数据集贡献:构建并发布新的脉冲视频数据集,用于现实条件下的研究验证
- 建立强基线:在基准数据集上显著优于现有的适配型视觉-语言模型
Card 04
方法描述
方法描述
- 层级化脉冲特征提取器 (HSFE):包含多尺度时间滤波 (MTF) 和空间注意力 (SA),自适应建模多尺度时间动态
- 采用滑动窗口(radius=30, step=45)将输入分为5个时间重叠的子块
- 多分支卷积核提取不同时间分辨率的特征
- 基于光子守恒约束分配通道数:k_i ∝ Photon_total / T_i
- 时空注意力残差网络 (STAR-Net):使用 MAPResNet(CNN+Transformer 混合结构)和 Transformer 编码器进行长程时空依赖建模
- 脉冲-文本对比学习 (STCL):直接对齐脉冲视频特征与文本嵌入
Card 05
数据集与资源
数据集与资源
- 数据集:新的真实世界脉冲视频数据集(论文中贡献)
- 实现细节:使用帧插值增强时间分辨率,通过时间积分进行脉冲编码
Card 06
评估与结果
评估与结果
- 在基准脉冲数据集上达到最先进的性能
- 在新贡献的真实世界数据集上展示强少样本泛化能力
- 全脉冲视觉编码器 (FSVE) 证明显著降低能耗,对神经形态硬件部署具有潜力