0
| 本文作者: 陈淑瑜 | 2026-06-11 13:56 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“我爱计算机视觉
原文链接:https://mp.weixin.qq.com/s/UVeafUYkjy11SS1tYGjyEg
这是一篇入围CVPR 2026 最佳论文评选决赛圈的论文。

在深度学习参数量动辄百万、千万甚至亿万级通胀的今天,如何高效训练模型并抑制过拟合,成了摆在所有研究者面前的一道难题。为了打破这一瓶颈,来自印度国家理工学院鲁尔克拉分校(NIT Rourkela)的研究者们另辟蹊径,提出了一种具启发性的全新架构——映射网络(Mapping Networks)。实验表明,该方法在图像分类、Deepfake检测、图像分割等复杂任务中,不仅将可训练参数量降低了200到500倍,甚至在多项任务中反超了全参数训练的基线模型!

通用近似定理(Universal Approximation Theorem, UAT)告诉我们,只要网络结构足够宽或足够深,理论上就能逼近任何连续函数。然而,这也导致现代深度学习模型陷入了“参数通胀”的怪圈。庞大的参数空间不仅带来了高昂的计算成本,还让模型极易陷入过拟合的泥潭,变成了难以解释的“黑盒”。
为了解决这一痛点,学术界通常有两种思路:一是通过多GPU分布式训练来缩短时间;二则是直接减少可训练的参数量。后者不仅能显著降低过拟合风险,还能提升模型的泛化能力。
这时,著名的流形假设(Manifold Hypothesis)为我们提供了一个优雅的视角:高维的数据实际上往往分布在低维的流形上。那么,训练好的网络参数是否也存在类似的规律呢?

如上图 Figure 1 所示,现有的参数减少技术可以分为内部减少(Internal Reduction)和外部减少(External Reduction)。内部减少方法如剪枝(Pruning)、低秩压缩(Low-Rank Compression)和彩票假说(Lottery Ticket)等,通常需要在训练期间或训练后对目标网络进行操作。而外部减少方法如超网络(Hypernetworks),虽然通过一个外部网络生成目标网络的权重,但通常需要同时训练两个网络,无法避免对目标网络的直接训练。
相比之下,本文提出的 Mapping Networks 处于一个非常独特的位置:它完全脱离了对目标网络的直接训练。研究人员对一个在MNIST数据集上训练的卷积神经网络(CNN)进行了参数轨迹追踪。通过主成分分析(Principal Component Analysis, PCA)和t-分布邻域嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)降维可视化后,他们得到了有趣的发现:

如上图 Figure 2 所示,在训练过程中,网络各层参数的更新轨迹并非在整个高维空间中杂乱无章地探索,而是局限在极其光滑、分立且低维的局部流形上。这一实证结果直接催生了本文的核心假设——权重流形假设(Weight-Manifold Hypothesis):
对于一个神经网络的所有参数 ,存在一个维数极低的嵌入流形 (其内在维度 ),使得训练优化后的最优参数 紧密分布在这一流形上。
既然如此,我们是否能直接寻找一个映射函数 ,通过在低维空间 中进行优化,来间接控制高维的参数空间呢?这正是 Mapping Networks 的立论之本。
为了在理论和实践上双重论证这一设想,作者首先给出了严谨的数学证明,并构建了元参数化架构。
作者在论文中提出并证明了映射定理。在满足参数光滑性(Lipschitz 连续)、损失函数 Lipschitz 连续以及流形局部可近似性等温和假设下:
对于任意给定的误差上限 ,必定存在一个低维空间维度 、一个 连续的光滑映射 以及一个低维隐向量 ,使得生成的参数 与最优参数 之间的距离受到严格控制:
进而保证两者的损失函数差距极小:这一定理在数学上宣告了:我们完全可以通过优化一个极低维度的隐向量,来逼近高维空间中的最优网络参数。
那么,如何在工程上构建这个映射函数 呢?如果只是用一个普通的随机投影矩阵,映射过程会因为缺乏上下文而变得极不稳定。为此,作者设计了一种带权重调制的映射网络(Mapping Network with weight modulation)。
整个架构的输入和输出流程非常清晰:

为了让映射过程更加稳定,映射网络本身的权重 (正交初始化,在训练期间保持固定)会通过隐向量 进行动态的加性调制(Additive Modulation):
其中 是一个微小的调制比例因子。随后,通过一步前向计算生成扁平化的目标参数:这一设计的好处在于,如果我们展开激活函数 前的项,会发现它实际上引入了关于 的二次非线性项。这种二次交互增强了映射网络的非线性表达能力,使其能够契合弯曲的高维流形几何结构。

生成扁平化参数 后,通过简单的确定性重塑(Reshape)操作,将其分发给目标网络的各个层。在推理时,目标网络直接使用这些生成的参数进行前向传播,而梯度则仅仅回传并更新隐向量 。
为了进一步提高大模型的存储和计算效率,Mapping Networks 引入了两个重要的架构插件(Add-Ons):
针对不同规模的目标网络,作者设计了两种训练策略:

为了在优化过程中同时保证下游任务性能和参数流形的光滑正则性,作者设计的映射损失函数:
其中,各项各司其职:
为了验证 Mapping Networks 的威力,作者针对图像分类、Deepfake检测、图像分割以及时间序列预测等多个任务进行了广泛的评测。
在基础的图像分类任务中,基线模型 CNN1 拥有 537,994 个参数。而采用分层训练的 Mapping Network(Ours)仅需 4078 个可训练参数(仅为基线的 0.75%),就在 MNIST 上斩获了 99.67% 的准确率,在 FashionMNIST 上达到了 94.83%,双双反超了全参数训练的基线模型!

在更具挑战性的视频人脸防伪(Deepfake 检测)任务中,Mapping Networks 的表现看起来更好。在 Celeb-DF 数据集上,全参数基线 CNN1 的准确率为 83.13%。而分层映射版本(Ours)仅用 2792 个可训练参数,就将准确率飙升至 89.98%,实现了近 7 个百分点的巨大跨越!这有力地证明了低维流形约束所带来的超强泛化与抗过拟合能力。

在 Cityscapes 城市道路场景分割任务中,基线 U-Net 变体(CNN3)拥有超过 173 万参数。而 Mapping Network(Ours*)仅用 8192 个参数,就将像素准确率(Pixel Accuracy)从 93.21% 提升到了 97.92%。
而在 LSTM 时间序列预测(空气污染预测)中,Mapping Network 更是以仅仅 2048 个参数,将均方误差(MSE Loss)降低到了 0.00061,相比全参数 LSTM 基线(12961 参数,MSE 0.0035)精度提升了数倍。


除了从头训练,Mapping Networks 还能完美兼容预训练模型的微调。在对拥有 2500 万参数的 ResNet50 进行微调时,Ours* 仅用 2048 个可训练参数(生成微调的加性偏差),就达到了与全参数微调几乎完全一致的性能(Celeb-DF 95.10% vs 95.23%)。

为了进一步探究 Mapping Networks 内部各模块的贡献,作者进行了系统性的消融与鲁棒性研究:

如上图 Table 6 所示,在 FashionMNIST 数据集上,当逐步加入稳定性损失(+ Stab)、光滑性损失(+ Smooth)和对齐损失(+ Alli)后,模型的性能呈现出稳步上升的趋势。这表明,通过数学约束强行维持隐空间的光滑可微性( 连续),对于提升生成权重的泛化性能具有决定性作用。

在 Table 7 的鲁棒性对比中,作者评估了多种替代架构。例如,若去除权重调制(Ours* - WM),性能会出现 2% 到 4% 的明显下滑,证明了加性调制引入的二次非线性项对流形拟合的重要性。而如果将隐向量和映射权重同时设为可训练(LV + FullDNN),不仅会导致参数量急剧膨胀,其最终性能反而不如仅训练隐向量的 Ours*,这再次印证了“将优化约束在低维流形上”的优越性。

最后,Table 8 展示了低秩分解(LRD)和剪枝(Prune)对模型性能的实际影响。当在映射网络中引入 LRD 插件后(Ours* + LRD),可训练参数量从 2048 进一步压缩至 1456,而在 MNIST 上的准确率仅有微弱波动(98.66% vs 97.80%)。这表明 Mapping Networks 能够与主流的模型压缩技术互补,实现双重“瘦身”。
Mapping Networks 用一种数学方式,向我们展示了深度学习模型中巨大的参数冗余。它告诉我们:我们或许并不需要费尽心机地去优化高维空间中的每一个微小参数,试着顺应流形的几何结构,在低维空间中“牵一发而动全身”,往往能取得意想不到的奇效。
这种“以弱胜强”的元参数化范式,为资源受限的边缘设备(Edge Devices)部署甚至超大规模模型(如大语言模型 LLM)的极速微调开辟了新的可能。
期待作者未来能够开源代码,让社区共同参与到这一具潜力的降维流形探索中来。
本专题其他文章