CVPR 2026 | 同济大学破解SNN追踪难题：SpikeTrack实现精度与能效双SOTA！

本文作者：陈淑瑜

2026-05-29 16:23

导语：SpikeTrack不仅在SNN追踪器中达到了SOTA（目前最佳）水平，更在保证精度的前提下，将能耗降低至传统ANN追踪器的几十分之一。

来源：公众号“CV实验室”

原文链接：https://mp.weixin.qq.com/s/65JSJhgEB_O_2epsG0pfIw?scene=1&click_id=51

在计算机视觉领域，目标追踪（Visual Tracking）一直需要在“高精度”和“低功耗”之间寻找平衡。SNN（脉冲神经网络）因其生物仿真特性和极高的能源效率被寄予厚望，但在处理复杂的RGB视觉追踪任务时，往往难以兼顾精度。

今天介绍的这篇 CVPR 2026 论文 SpikeTrack，提出了一种全新的全脉冲驱动框架。它不仅在SNN追踪器中达到了SOTA（目前最佳）水平，更在保证精度的前提下，将能耗降低至传统ANN追踪器的几十分之一。

论文标题： SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

论文链接： https://arxiv.org/pdf/2602.23963

代码仓库： https://github.com/faicaiwawa/SpikeTrack (已开源)

现有的SNN追踪框架主要面临两个问题：

伪脉冲驱动：部分方法（如SiamSNN）虽然使用了脉冲神经元，但在计算过程中仍将脉冲解码为连续值，没有真正发挥SNN“稀疏计算”的低功耗优势。
时空动力学利用不足：部分基于事件相机的方法沿用了ANN的“单流（One-stream）”架构，强行拼接模板与搜索区域，导致计算量巨大且忽略了SNN在时间维度上的记忆特性。

SpikeTrack 的解决方案：非对称孪生架构

作者没有照搬ANN的交互模式，而是设计了一种非对称（Asymmetric）的设计：

模板分支（Template Branch）：利用多个时间步（Timesteps）扩展，充分利用神经元的时空动力学特性，提取高质量的目标特征。但这部分计算量大，因此只在初始化或模板更新时运行一次。
搜索分支（Search Branch）：处理每一帧的实时画面，保持高效的单时间步（Single-timestep）推理。
单向信息流：信息只从“模板”流向“搜索”，搜索分支通过特定的模块“读取”模板信息，而不需要像传统Transformer那样进行复杂的双向注意力计算。

SpikeTrack 的架构主要由三个部分组成：共享权重的脉冲主干网络（Backbone）、用于信息交互的记忆检索模块（MRM）、以及预测头。

为了保证真正的脉冲驱动，论文采用了 NI-LIF (Normalized Integer Leaky Integrate-and-Fire) 神经元。它在推理时将膜电位转换为整数脉冲，实现了稀疏的加法计算，替代了高能耗的浮点乘法。

其动力学方程如下：

其中，是膜电位，是输出脉冲，是可学习的衰减因子。可学习的衰减因子允许网络自适应地调节对历史信息的遗忘程度。

这是SpikeTrack最核心的创新点。为了实现“模板”到“搜索”的高效信息传递，作者借鉴了大脑皮层（V1 L2/3区域）的神经推理机制：通过循环连接（Recurrent Connectivity）来完善感知。

在SpikeTrack中，模板特征被初始化为“记忆库（Memory Bank）”。搜索分支在推理时，并不直接与模板拼接，而是通过MRM模块去“查询”记忆库，逐步提取目标线索。

MRM 的工作流程包含三个阶段的循环（Recurrent Process）：

最终，通过多次循环检索（实验中1次循环效果最佳），搜索分支能精准地“想起来”目标长什么样，并定位目标。

在LaSOT数据集上，SpikeTrack展现了惊人的能效比。

对比 ANN：SpikeTrack-B（基础版）在精度上超过了基于Transformer的 TransT（AUC 66.7% vs 64.9%），但能耗仅为 TransT 的 1/26。
对比 SNN：相比之前的 SpikeSiamFC++ 等SNN追踪器，SpikeTrack在各项指标上均大幅领先。