SPKLIP: Aligning Spike Video Streams with Natural Language - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构，旨在解决…

Card 01 研究单位

研究单位

北京大学 (National Key Laboratory for Multimedia Information Processing, School of Computer Science)
中国科学院大学 (School of Artificial Intelligence)
电子科技大学 (Yingcai Honors College)
北京大学 (Institute for Artificial Intelligence)

Card 02 论文概述

SPKLIP 是首个专门为 Spike Video-Language Alignment (Spike-VLA) 设计的神经网络架构，旨在解决脉冲相机（spike cameras）与自然语言的对齐问题
脉冲相机具有高达 40,000 Hz 的有效帧率和超过 180 dB 的动态范围，但其稀疏、异步的输出对语义理解带来挑战，现有的 CLIP 等模型直接应用于脉冲数据时性能严重下降
研究目标是通过多模态对比学习，实现对高速动态场景的鲁棒语义理解，并支持少样本学习

Card 03 核心贡献

Card 04 方法描述

- 采用滑动窗口（radius=30, step=45）将输入分为5个时间重叠的子块

- 多分支卷积核提取不同时间分辨率的特征

- 基于光子守恒约束分配通道数：k_i ∝ Photon_total / T_i

时空注意力残差网络 (STAR-Net)：使用 MAPResNet（CNN+Transformer 混合结构）和 Transformer 编码器进行长程时空依赖建模
脉冲-文本对比学习 (STCL)：直接对齐脉冲视频特征与文本嵌入

Card 05 数据集与资源

Card 06 评估与结果