0
| 本文作者: 小七 | 2026-02-12 09:50 |
众所周知,Transformer 及其核心的全注意力机制(Full Attention)虽长期占据大模型架构的核心地位,但平方级计算复杂度、高额显存占用的瓶颈,早已成为实现超长上下文处理与模型规模化应用的 “拦路虎”。敢于挑战这一固有权威,需要的不仅是实现 AGI 长远目标勇于创新的魄力,更需要有独到的技术视野以及突破技术壁垒的硬实力。从 DeepSeek 的稀疏注意力(DSA)、MiniMax 的线性注意力、到月之暗面的线性注意力(KDA),大家纷纷投入注意力架构的革新竞技场。
今天,面壁智能也在这场变革中迈出了关键一步:正式发布行业首个大规模训练的稀疏-线性注意力混合架构 SALA(Sparse Attention-Linear Attention,简称SALA),以及基于该架构的文本模型 MiniCPM-SALA,以追求更长文本处理能力与极致的推理性价比。MiniCPM-SALA 不仅在多项长文本理解与生成评测中优势明显,且在知识问答、数学推理、代码生成等核心能力维度上,保持了与同规模全注意力模型相当的卓越水平,实现了“长短兼备”的综合性能表现,以及极致推理性价比。
▍MiniCPM-SALA 亮点一览
▪ 架构革新:“稀疏-线性”注意力混合架构,在显著降低推理开销与显存占用的同时,克服了纯线性架构在长程信息召回上的精度瓶颈,效率性能兼顾。
▪ 卓越性能:采用HyPE(混合位置编码)来有效协调短上下文和长上下文的性能。在保持通用能力(如知识、数学和编码)与其他8B全注意力模型相当的同时,MiniCPM-SALA 在多个长上下文基准测试中表现出明显优势。
▪ 高效推理:不使用投机采样等加速算法,在云端推理芯片上,当序列长度为256K词元时推理速度高达 Qwen3-8B 的 3.5 倍,并支持在云端芯片和消费级端侧 GPU 上进行高达一百万词元上下文长度的推理。
▍ 相关链接
GitHub 链接:
? https://github.com/openbmb/minicpm
HuggingFace 链接:
? https://huggingface.co/openbmb/MiniCPM-SALA
Model Scope 链接:
? https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
GitCode 链接:
? https://ai.gitcode.com/OpenBMB/MiniCPM-SALA
MiniCPM-SALA 技术报告:
?https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf
01
为何混合架构是更优解
传统 Transformer 模型在处理长文本时,其核心的全注意力机制会导致计算量随文本长度呈平方级增长,同时生成过程中需要缓存的键值对也会占用大量显存。现有的解决方案主要分为线性注意力与稀疏注意力两大流派,但纯线性注意力存在精度损失的短板,纯稀疏注意力又有着存储瓶颈的限制。

MiniCPM-SALA 首创稀疏-线性混合注意力架构,巧妙地解决了这一核心矛盾。模型中 75% 的层采用线性注意力(Lightning Attention),负责信息的高效全局流转。其余 25% 的层采用稀疏注意力(InfLLM-v2),专注于精准捕捉局部关键信息,黄金配比实现计算效率与语义精度的平衡。

MiniCPM-SALA 模型架构
相关研究论文现已公开:
▪ 稀疏-线性混合注意力:
https://arxiv.org/pdf/2601.22156
▪ InfLLM v2:
https://arxiv.org/pdf/2509.24663
02
不止于「长」,更在于「强」
MiniCPM-SALA 具备优异的长度泛化能力。在不使用任何额外技术(如YaRN)的前提下,MiniCPM-SALA 可以将上下文长度拓展至2048K。

在云端推理芯片上评估从 64K 到 1024K 词元的不同序列长度下的效率,MiniCPM-SALA 在所有测试配置中均表现出显著的效率优势,在非量化设置下始终保持更低的延迟。在 256K 序列长度下,MiniCPM-SALA 相比 Qwen3-8B 实现了约 3.5 倍的加速。


在更长序列(512K 及 1M 长文本)上,同尺寸开源模型已经遭遇显存爆炸的情况下,MiniCPM-SALA 依旧能够稳定推理,让 MiniCPM-SALA 在汽车、手机、具身机器人等更多端侧领域应用成为可能。
此外,在模型仅有 9B 参数的前提下,MiniCPM-SALA 在知识问答、数学推理、代码生成等核心能力维度上保持了与同规模全注意力模型相当的卓越水平,实现了“长短兼备”的综合性能表现。

03
邀你挑战推理极限
为进一步探索 SALA 混合注意力架构在实际部署中的性能极限,OpenBMB联合 SGLang 、 NVIDIA 、面壁智能共同发起 2026 稀疏算子加速大奖赛(SOAR)。大赛聚焦于稀疏化算子融合与编译优化等底层硬核课题,挑战在消费级 GPU 上实现百万级词元推理与 KV Cache 的极致效率,协同攻克长文本处理的性能最优解。诚邀全球技术极客基于 SGLang 推理框架与 NVIDIA 硬件特性展开极限攻关,打破硬件物理瓶颈,共同定义下一代高效推理的性能新基线。
比赛官网:https://soar.openbmb.cn/

04
技术报告
01 引言 (Introduction)
随着大模型能力日益强大,其应用场景正经历着深刻的范式转变,从简单的问答发展到愈发复杂的任务。在这些高级应用场景中,模型不能再局限于处理碎片化信息。相反,模型必须具备处理超长上下文的能力,例如一次性阅读整本技术手册、分析跨越数万行代码的依赖关系,或在多日的人机协作中维持连贯的任务状态和记忆。
在这种背景下,百万级词元的处理将会成为前沿大模型的关键能力。然而,作为当前主流大模型基础的Transformer架构在处理超长序列时面临着严重的计算瓶颈。这一瓶颈主要体现在两个维度:
▪ 计算复杂度的“计算墙”(Compute Bottleneck):在标准注意力机制中,计算复杂度随序列长度 N 呈二次方增长。当上下文扩展到百万词元时,预填充(Pre-filling)阶段的巨大开销会导致首个词元生成时间(TTFT)急剧增加;
▪ KV-Cache 的“显存墙”(Memory Bottleneck):在自回归生成过程中,模型必须存储所有历史词元的 Key 和 Value 状态以避免重复计算。对于典型的 8B 参数模型,即使利用分组查询注意力(GQA),百万级词元所需的 KV-Cache 也可能达到数十甚至上百 GB。
为了解决上述挑战,现有的解决方案存在两种主要范式:稀疏注意力(Sparse Attention)和线性注意力(Linear Attention)。这两种方法各具独特的优势和固有的局限性。稀疏注意力方法试图通过仅计算注意力矩阵中最显著的部分(例如通过滑动窗口或全局锚点)来打破计算墙。然而,这些方法具有“稀疏计算,稠密存储”的特点。虽然局部计算减少了即时处理开销,但模型仍需保留完整的 KV-Cache 以支持上下文信息的检索。线性注意力利用循环计算成功地将计算复杂度降低到 O(N) 。然而,这种极致的效率从根本上是通过对上下文信息的有损压缩实现的,容易导致性能受损。
MiniCPM-SALA 采用了一种稀疏与线性注意力的混合架构,专为实现高效的超长序列建模而设计。该架构结合了 InfLLM-V2 的高保真局部建模能力与 Lightning Attention 的全局计算效率。通过这种集成方法,模型显著降低了推理开销和内存消耗,同时解决了纯线性架构在长距离信息处理中典型的精度瓶颈。
主要贡献如下:
▪ 创新架构设计:提出了一种稀疏-线性混合注意力机制 SALA,将 25% 的 InfLLM-V2 和 75% 的 Lightning Attention 相结合,可在性能与效率之间取得良好的平衡。通过利用稀疏注意力对局部细节的细粒度关注,以及线性注意力在长上下文时 O(N) 的计算效率,该架构在序列长度增加时仍能保持较高的性能。
▪ 高效训练范式:MiniCPM-SALA 证明了 Transformer 到混合架构的转换范式是构建混合模型的高效策略。这种方法通过对预训练权重进行架构转换,规避了冷启动训练的低效性,总训练量仅是从头开始训练同水平模型的 25%。
▪ 强大的综合性能:采用 HyPE(混合位置编码)来有效协调短上下文和长上下文的性能。在保持通用能力(如知识、数学和编码)与 Qwen3-8B 等现代全注意力模型相当的同时,MiniCPM-SALA 在多个长上下文基准测试中表现出明显优势。
▪ 优越的推理效率:MiniCPM-SALA 在长上下文场景中展示了显著的资源和速度优势。在 NVIDIA A6000D GPU 上,当序列长度为 256K 词元时,MiniCPM-SALA 的推理速度高达Qwen3-8B 的 3.5 倍。此外,MiniCPM-SALA 支持在 NVIDIA A6000D 和 5090 GPU 上进行高达 1 百万词元上下文长度的推理,而 Qwen3-8B 在此长度下会面临显存不足(OOM)的问题。这些结果展示了 MiniCPM-SALA 在端侧长文本应用中的强大潜力。
02 模型架构
(1)总体架构设计
MiniCPM-SALA 建立在交替式混合注意力架构之上。如图1所示,有别于传统 Transformer 采用同构全注意力层堆叠的模式,该架构通过层级异构设计打破了单一机制在百万级长序列建模中的性能瓶颈。模型采用了 25% 的稀疏注意力与 75% 的线性注意力进行混合配比。为了显著降低算力开销,MiniCPM-SALA 利用 HALO 算法将预训练的全注意力 Transformer 转换为混合架构模型进行持续训练,而非从头构建。

Figure1:MiniCPM-SALA 模型架构
(2)稀疏注意力模块
MiniCPM-SALA 采用了 InfLLM-V2 作为 25% 稀疏注意力模块。InfLLM-V2 是一种可切换的稀疏注意力框架,其核心特点在于通过精细的块选择机制,让每个 Query 仅处理一小部分关键的 Key 和 Value,从而大幅提升长文本处理效率。得益于 InfLLM-V2 可切换的特性,我们在模型的长文本训练过程中打开稀疏模式,而在标准长度的训练中(例如 4096 词元)关闭稀疏模式。我们在小规模实验上验证输出门控机制对于提升模型的通用能力有帮助,因此我们也对稀疏注意力层加入了输出门控机制。
(3)线性注意力模块
在线性注意力组件选择上,尽管当前涌现出 RWKV-7、GDN 和 KDA 等多种先进的线性 Token Mixing 模块,但由于 Lightning Attention 在计算范式上与全注意力机制更为接近,能够与 HALO 转换算法实现更优的适配度,因此我们最终选定其作为线性层的核心算子。同时,我们使用了与 HypeNet 相同的架构细节,包括 QK-normalization、GQA-to-MHA transformation 和输出门控机制,这些设置可以有效提升模型训练的稳定性,并且可以取得更好的模型性能。
(4)混合位置编码
我们沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding)策略。该策略针对混合架构中不同注意力机制的特性进行了差异化设计:在线性注意力层,我们保留了 RoPE (Rotary Positional Embedding),旨在最大程度保持与转换前全注意力模型在参数分布与特征空间上的一致性,从而降低转换带来的性能损失。
而在稀疏注意力层,我们则采用了 NoPE (No Position Encoding)策略。这一设计的核心优势在于,稀疏层的历史 KV-Cache 不再耦合任何位置信息。这有效规避了 RoPE 在处理超长序列时固有的长距离衰减问题,使得模型在检索极远距离的历史信息时,不再受制于位置编码带来的数值抑制,从而显著增强了模型的长距离召回能力。
03 模型训练
模型整体训练过程如下表所示:

▪ 架构转换 (HALO):这一阶段旨在将 Transformer 模型从全注意力转换为混合架构。此阶段主要沿用了 HALO 转换方法。具体地,MiniCPM-SALA 的训练配置在两个方面不同于标准的 HALO 方法。首先,关于层选择,MiniCPM-SALA 保留第一层和最后一层不进行转换,以提高训练过程的稳定性。对于其余层,使用 HALO 的层选择算法来确定哪些层被保留为全注意力层。这些保留的全注意力层随后在后续阶段被训练为稀疏注意力。与标准 HALO 的第二个区别是,我们不执行 HALO 流程中的最终微调步骤。取而代之的是,我们进行更广泛的持续预训练和后训练,如后续步骤所述。此阶段的训练过程非常高效,仅使用了 1.3B 词元,序列长度为 512 词元。此外,在此阶段仅转换后的线性注意力层是可训练的,所有其他参数保持冻结。
▪ 持续 Stable 训练:利用上一阶段结束的模型作为本阶段训练的起点,在 MiniCPM-4.0 的预训练数据集上进行进一步训练。此阶段的主要目标是促进转换后的线性注意力层与模型的其他组件(包括全注意力层、FFN 层和嵌入层)更好地适配。此过程的序列长度设置为 4K 词元,总训练量为 314.6B 词元。由于序列长度仍然相对较短,为了保持计算效率,在此阶段关闭了稀疏注意力层。本阶段学习率设置为 7.5e-3。
▪ Short-Decay 训练:第三阶段的学习率从 7.5e-3 以指数衰减的形式降低至 3.75e-4。此过程使用 4K 词元的序列长度,共训练 1T 词元,也是 MiniCPM-SALA 整个开发流程中训练量最大的环节。在数据方面,在 MiniCPM-4.0 Decay 训练数据的基础上,显着增加了 L2 高质量筛选数据的权重(数据分级标准参考 Data Science and Technology Towards AGI Part I: Tiered Data Management),并引入了大量的 PDF 语料库和 L3 合成数据。这种方法旨在通过高信息密度的数据组合来增强通用能力和逻辑推理能力,从而实现对海量知识的高效压缩和内化。
▪ Long-Decay 训练:本阶段将上下文窗口从 4K 逐步扩展到 32K、160K,最后扩展到 520K 词元,每个阶段分别使用 102.2B、 62.9B 和 50.6B 词元的数据量。学习率在 32K 时从 3e-4 衰减至 2e-4,然后在 160K 时衰减至 1e-4,最后在 520K 时衰减至 3.75e-5。在此阶段,我们对长上下文数据的比例进行上采样,以使模型更好地与长序列分布对齐。鉴于稀疏注意力在较长序列中计算优势较为明显,我们在此阶段启用稀疏注意力机制并保持全参数训练,从而允许模型有效地学习稀疏注意力和线性注意力之间的协同作用。
▪ SFT:此阶段的 SFT 语料库由高质量的推理密集型数据组成,包括代码、数学、知识、函数调用和一般对话。这种选择旨在充分激发复杂逻辑下的推理和任务执行能力。此外,我们专门合成了长上下文数据,以提高信息检索和跨文档理解的能力。在 SFT 阶段,我们依次在 64K 和 140K 的上下文长度下进行训练,分别使用了 204.5B 和 213.3B 词元的数据量。稀疏注意力在整个过程中保持启用状态。
04 模型能力测试
短榜能力测试:

长榜能力测试:

超长序列能力测试:

上述结果表明,MiniCPM-SALA 在不损害短榜能力的前提下,有效提升了长文本能力。MiniCPM-SALA 还有一个显著的亮点是,具备优异的长度泛化能力。在不使用任何额外技术(如YaRN)的前提下,MiniCPM-SALA 可以有效外推至 2048K长度。
05 计算效率测试
我们评估了 MiniCPM-SALA 和 Qwen3-8B 在不同硬件和序列长度下的推理速度。我们不仅在云端推理芯片(如 NVIDIA A6000D)上进行了实验,还在消费级端侧 GPU(如 NVIDIA 5090)上进行了测试。对于每种序列长度,我们测量了首字延迟(Time To First Token, TTFT)和端到端延迟。前者作为预填充速度的指标,而后者反映了预填充和解码阶段的综合性能。为了使评估与实际部署场景保持一致,我们评估了非量化模型以及经 GPTQ INT4 量化压缩后的模型的推理延迟。
图 2 展示了在 NVIDIA A6000D GPU(96GB 显存)上 Qwen3-8B 与 MiniCPM-SALA 推理延迟的全面对比。我们评估了从 64K 到 1024K 词元的不同序列长度下的效率。如图所示,MiniCPM-SALA 在所有测试配置中均表现出显著的效率优势。在非量化设置下,MiniCPM-SALA 始终保持更低的延迟。值得注意的是,在 256K 序列长度下,MiniCPM-SALA 将 TTFT 从 180.8 秒(Qwen3)降低至仅 51.6 秒,实现了约 3.5 倍的加速。
结果也显示了 MiniCPM-SALA 在显存利用率方面的优势。当 Qwen3-8B 在 512K 和 1024K 序列长度下遭遇显存溢出(OOM)时,MiniCPM-SALA 成功处理了这些超长上下文。
图 3 展示了 MiniCPM-SALA 在显存有限的硬件上的优势。在 RTX 5090(32GB 显存)上,基线模型 Qwen3-8B 比在 A6000D 上明显更早触及“内存墙”,在非量化设置下仅 128K 词元、量化设置下 256K 词元时即触发 OOM 错误。相比之下,MiniCPM-SALA 成功扩展至 1024K词元的上下文长度且未出现显存溢出的问题。这表明 MiniCPM-SALA 使得在消费级端侧 GPU 上处理 1 百万词元成为可能。


06 结论整体而言,我们通过融合稀疏注意力与线性注意力,构建了一种面向长上下文高效建模的混合架构,从而在模型能力与长上下文处理效率之间实现了出色的平衡。在过去一段时间里,稀疏注意力与线性注意力的相关研究已分别展现出解决大模型长上下文问题的显著潜力;而在2026年,稀疏‑线性混合架构无疑将成为该领域最具实效的技术方向之一。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。