您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!

本文作者: 陈淑瑜   2026-05-29 16:23 专题:CVPR 计算机视觉与模式识别会议
导语:SpikeTrack不仅在SNN追踪器中达到了SOTA(目前最佳)水平,更在保证精度的前提下,将能耗降低至传统ANN追踪器的几十分之一。

来源:公众号“CV实验室”

原文链接:https://mp.weixin.qq.com/s/65JSJhgEB_O_2epsG0pfIw?scene=1&click_id=51


在计算机视觉领域,目标追踪(Visual Tracking)一直需要在“高精度”和“低功耗”之间寻找平衡。SNN(脉冲神经网络)因其生物仿真特性和极高的能源效率被寄予厚望,但在处理复杂的RGB视觉追踪任务时,往往难以兼顾精度。

今天介绍的这篇 CVPR 2026 论文 SpikeTrack,提出了一种全新的全脉冲驱动框架。它不仅在SNN追踪器中达到了SOTA(目前最佳)水平,更在保证精度的前提下,将能耗降低至传统ANN追踪器的几十分之一。

CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!

论文标题: SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

论文链接: https://arxiv.org/pdf/2602.23963

代码仓库: https://github.com/faicaiwawa/SpikeTrack (已开源)

01. 核心痛点与解决思路

现有的SNN追踪框架主要面临两个问题:

  1. 伪脉冲驱动:部分方法(如SiamSNN)虽然使用了脉冲神经元,但在计算过程中仍将脉冲解码为连续值,没有真正发挥SNN“稀疏计算”的低功耗优势。
  2. 时空动力学利用不足:部分基于事件相机的方法沿用了ANN的“单流(One-stream)”架构,强行拼接模板与搜索区域,导致计算量巨大且忽略了SNN在时间维度上的记忆特性。

SpikeTrack 的解决方案:非对称孪生架构

作者没有照搬ANN的交互模式,而是设计了一种非对称(Asymmetric)的设计:

  • 模板分支(Template Branch):利用多个时间步(Timesteps)扩展,充分利用神经元的时空动力学特性,提取高质量的目标特征。但这部分计算量大,因此只在初始化或模板更新时运行一次
  • 搜索分支(Search Branch):处理每一帧的实时画面,保持高效的单时间步(Single-timestep)推理。
  • 单向信息流:信息只从“模板”流向“搜索”,搜索分支通过特定的模块“读取”模板信息,而不需要像传统Transformer那样进行复杂的双向注意力计算。
CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!
图2:SpikeTrack的非对称结构与传统单流SNN结构的对比。上方为传统单流结构,计算密集;下方为SpikeTrack,模板分支仅运行有限次,搜索分支高效运行。

02. 核心组件解析

SpikeTrack 的架构主要由三个部分组成:共享权重的脉冲主干网络(Backbone)、用于信息交互的记忆检索模块(MRM)、以及预测头。

CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!
图3:SpikeTrack 整体框架图。包含非对称的时间步输入、单向信息流以及记忆检索模块。

1. 基础神经元模型 (NI-LIF)

为了保证真正的脉冲驱动,论文采用了 NI-LIF (Normalized Integer Leaky Integrate-and-Fire) 神经元。它在推理时将膜电位转换为整数脉冲,实现了稀疏的加法计算,替代了高能耗的浮点乘法。

其动力学方程如下:

其中, 是膜电位, 是输出脉冲, 是可学习的衰减因子。可学习的衰减因子允许网络自适应地调节对历史信息的遗忘程度。

2. 记忆检索模块 (Memory Retrieval Module, MRM)

这是SpikeTrack最核心的创新点。为了实现“模板”到“搜索”的高效信息传递,作者借鉴了大脑皮层(V1 L2/3区域)的神经推理机制:通过循环连接(Recurrent Connectivity)来完善感知

在SpikeTrack中,模板特征被初始化为“记忆库(Memory Bank)”。搜索分支在推理时,并不直接与模板拼接,而是通过MRM模块去“查询”记忆库,逐步提取目标线索。

MRM 的工作流程包含三个阶段的循环(Recurrent Process):

  1. 全局轮廓编码:通过脉冲二值张量进行高效的点积运算,初步检索目标。
  2. 细节构建:利用特定的脉冲可分离卷积(SSConv)在时间维度上增强对细节的感知。
  3. 反馈细化:通过残差连接模拟大脑向高级视觉区域的反馈,更新查询请求。
CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!
图4:记忆检索模块(MRM)的实现细节。左下角展示了受大脑神经环路启发的循环连接结构。

最终,通过多次循环检索(实验中1次循环效果最佳),搜索分支能精准地“想起来”目标长什么样,并定位目标。

03. 实验结果:能效与精度的双重突破

1. 精度与能耗的权衡

在LaSOT数据集上,SpikeTrack展现了惊人的能效比。

  • 对比 ANN:SpikeTrack-B(基础版)在精度上超过了基于Transformer的 TransT(AUC 66.7% vs 64.9%),但能耗仅为 TransT 的 1/26
  • 对比 SNN:相比之前的 SpikeSiamFC++ 等SNN追踪器,SpikeTrack在各项指标上均大幅领先。
CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!
图1:LaSOT数据集上的能耗-准确率对比图。SpikeTrack 系列(红色五角星)位于左上角,代表极低的能耗和极高的准确率。

2. 可视化分析

MRM模块到底学到了什么?可视化结果显示,随着层级加深,网络能够从通过检索记忆库,在复杂的遮挡、背景干扰下,逐渐聚焦于目标物体。

CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!
图7:MRM产生的脉冲张量可视化。展示了在相似物体、遮挡和背景干扰下的追踪表现。

04. 总结

SpikeTrack 的成功证明了 SNN 在复杂视觉任务中的潜力。其核心贡献在于跳出了“一味模仿 ANN 架构”的误区,结合了 SNN 特有的时空计算特性:

  1. 非对称设计:重模板初始化,轻实时搜索,大幅削减冗余计算。
  2. 仿生记忆检索:利用 MRM 模块实现了高效的单向特征融合。

这项工作不仅刷新了 SNN 追踪的 SOTA,也为在极低功耗设备(如微型无人机、边缘计算芯片)上部署高精度视觉追踪算法提供了切实可行的方案。

CVPR 2026 | 同济大学破解SNN追踪难题:SpikeTrack实现精度与能效双SOTA!

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说