0
| 本文作者: 郑佳美 | 2026-04-22 14:44 | 专题:CVPR 计算机视觉与模式识别会议 |
你可能遇到过这样一种情况,一个模型原本只做一件事的时候表现很好,但一旦不断往里面加新任务,它反而开始变差了。不是彻底失效,而是变得不稳定,有些能力开始下降,有些结果开始波动。问题不在于模型不会,而在于它原本会的东西,被后来加入的任务“挤掉了一部分”。
这背后其实有一个很少被说清楚的问题。模型的能力并不是一块一块独立放进去的,而是共享同一套内部表示空间。简单理解,就是所有任务都在“用同一块地方存信息”。
当任务变多时,它们不是并排存在,而是在争这块空间里最重要的那些位置。谁占得多,谁就更稳定;谁被挤掉,谁的性能就下降。这就是为什么,多任务融合经常不是越多越强,而是越多越乱。
现实中,这种问题其实非常普遍。比如一个持续迭代的系统,不断往里加新能力,每一次看起来只是“多做了一件事”,但实际上是在重新分配内部的表示空间。如果没有好的机制,新的能力往往会影响旧的能力,最后系统变成一个需要不断修补的状态,而不是自然扩展。
在这样的背景下,来自东南大学的耿新团队提出了论文《Model Merging in the Essential Subspace》。他们没有再去做更复杂的参数融合,而是换了一个更关键的问题来思考,也就是模型里的“重要信息到底在哪里”。
近年来,耿新团队提出的“学习基因”思想(即在多任务之间共享核心的关键模型参数)为这一问题提供新的解决方案。研究团队发现,模型的有效能力其实并不是均匀分布在所有参数里,而是集中在少数几个关键方向上,这些方向才是真正决定任务表现的部分。
一旦这样理解,问题就变清楚了。多任务融合失败,不是因为参数没合好,而是因为这些关键方向发生了重叠和冲突。于是,这项研究做的事情就变成两步,一步是把不同任务的重要方向尽量分开,避免它们互相挤占;另一步是让更重要的信息被保留下来,而不重要的部分被压下去。这样一来,不同任务就有可能在同一个模型里稳定共存。
从这个角度看,这篇工作真正改变的,不只是方法本身,而是看问题的方式。它把模型融合从简单的参数操作,变成了一个关于信息如何分配、如何共存的问题,也让多任务系统不再只是不断叠加能力,而开始有可能真正“长”出更多能力,而不互相干扰。

论文链接:https://arxiv.org/pdf/2602.20208
从实验结果来看,研究团队真正想说明的,不是方法在某一个设置下偶然更高,而是随着多任务融合难度上升,ESM (Essential Subspace Merging)仍然能够保持更稳定的性能。
传统方法在任务不断增加时,往往会出现明显的性能滑坡,任务越多,任务之间的互相干扰则越强,最终导致融合效果快速下降。相比之下,ESM的表现更稳定,当其他基线的性能损耗通常达到 8% 到 9% 时,ESM 的损耗幅度明显更小,整体损耗率相比基线低了约 20%。这说明 ESM 更能抵抗多任务增加后带来的相互干扰,能够保住更多原本属于各个任务的有效知识。
如果把模型规模一起看,研究结果还能说明另一点。在更大的模型上,各种方法本来就已经能做到 90 以上,ESM 相比现有强方法的提升会缩小到大约 0.3 到 0.5。
这并不表示 ESM 作用变弱,反而说明大模型本身就有更强的表示容量和更自然的子空间分离能力,因此 ESM 的价值,本质上就是人为构造一种更清晰的子空间解耦机制,而这种机制在模型容量有限时更重要。

研究还给出了一个很关键的上下界参照。未微调模型的性能大约在 50% 到 65% 之间,单任务微调后的专家模型大约在 90% 以上,而 ESM 能达到 81% 到 91%。
这说明 ESM 已经不只是比基线略好一点,而是在明显逼近多任务融合的理想上界。换句话说,ESM 已经相当接近“多个任务合并后仍尽量保持单任务效”的目标。
为了说明为什么会更好,研究人员又做了拆解实验。只把分解方式从 SVD 换成 ESD,性能就会从 89.0 提升到 90.9,增幅达到 1.9,这说明问题的关键首先在于子空间选择。
之后再加入 Polarized Scaling,性能又从 90.9 提升到 91.8,再提高 0.9,这表明 ESD 主要解决信息丢失问题,而 Polarized Scaling 主要解决信息竞争问题。也就是说,整个方法之所以有效,是因为它同时处理了“保留什么信息”和“怎样让这些信息共存”这两个核心问题。

进一步看内部机制,研究发现 ESD 在只保留较少成分时,仍然能留下更多有效信息,而传统的 SVD 需要保留更多维度才能达到相近效果。这说明 ESD 找到的是更集中、更高效的信息表示,真正关键的任务知识并不是均匀分布在所有方向上,而是集中在少数功能性更强的方向里。
研究还发现,即使只保留 5% 的成分,ESD 得到的融合模型与原专家模型之间仍然有更高的特征一致性,这说明 ESD 保留下来的不是表面的参数结构,而是更接近任务语义和模型行为本身的东西。

在数据依赖性上,研究团队也给出了很强的证据。无论使用正常采样的数据、只包含单一类别的偏置数据,还是完全无关的外部分布数据,结果几乎都没有明显差异。
同时,只用 1 个样本时效果就已经超过 baseline,只用 4 个样本时就已经接近最优,增加到 32 个样本后基本收敛。这说明任务子空间本身是一种低维结构,不需要大量数据去估计,模型内部其实已经编码了稳定的任务响应模式。
最后,关于 Polarized Scaling,研究表明单独放大强信号会提升性能,单独抑制弱噪声也会提升性能,而两者结合时效果最好。这说明多任务融合本质上不是简单做参数平均,而更像一个信号筛选与重加权过程。

实验中,研究团队其实是在系统控制三个核心变量,目的是检验哪一种组合最接近“无损融合”。
第一个变量是子空间构造方式,也就是比较 SVD 和 ESD,前者建立在参数空间上,后者建立在输出空间上,这也是整项研究最核心的对比。
第二个变量是融合方式,也就是比较直接拼接和正交化处理,前者更直接,后者则试图消除不同任务表示之间的相关性。第三个变量是权重分配,也就是比较不加权融合和基于 norm 的 scaling,核心问题在于,不同任务信息在合并时是否应该被同等对待。
研究团队在数据设计上也有很强的针对性,所选任务覆盖图像、文本和数字等差异很大的类型,例如 Cars、SUN397、SST2 和 MNIST,目的不是追求任务丰富本身,而是尽量放大任务之间的差异与冲突,因为只有在这种高异质性条件下方法仍然有效,才能说明研究人员真正解决的是干扰问题,而不是只在相近任务上取得局部改进。

与此同时,研究人员在构造 proxy 数据时刻意把数据规模压到很小,每个任务只使用 32 个无标签样本,这种设计不是为了节省计算而已,更重要的是验证子空间究竟来自模型内在结构,还是只是来自数据统计结果,后续实验结果表明,研究人员提取到的确实更接近模型内部已经形成的任务结构。
为了保证不同任务在融合中拥有相对公平的表达容量,研究团队又设计了 rank 分配策略,让每个任务分配到的维度满足 k = 总维度 / 任务数,这一步本质上是在做资源公平分配,因为如果没有这种约束,强任务更容易占据更多表示空间,弱任务则可能被淹没。

进入融合阶段之后,研究人员发现简单拼接会带来两个直接问题,一是不同任务子空间可能发生重叠,二是重叠之后会引发信息冲突,因此又加入正交化步骤,其本质作用就是强制不同任务子空间尽量独立,这个过程在思想上很接近 PCA whitening 或信号去相关。雷峰网(公众号:雷峰网)
最后,在权重调整上,研究团队进一步从实验中发现,高 norm 往往对应更重要的参数变化,而低 norm 更接近噪声,因此设计出 scaling ∝ (norm / 平均值)^2 这样的规则,并且把这种缩放分成三个层面来实施,也就是任务层上防止某些任务被淹没,维度层上突出更关键的特征方向,层级上减少残差结构带来的干扰。

整体来看,这项研究的价值不只是提出了一种更强的模型融合方法,而是把模型融合从参数拼接,推进到了知识结构重组这一层。过去很多方法默认,多个模型能不能融合,关键在参数能不能平均好,但这项研究说明,真正需要被保留的其实是模型处理输入时依赖的关键功能方向。
也就是说,研究人员重新定义了模型融合问题,关注点不再只是参数本身,而是模型能力在表示空间里如何存在、如何共存。雷峰网
这项研究还把多任务干扰解释得更清楚了。过去大家知道任务一多就容易互相拖累,但往往只能停留在冲突这个现象层面。研究团队进一步指出,干扰主要来自两个原因,一是不同任务会挤占相近的表示方向,二是强信息和弱信息在融合时会相互竞争,结果就是重要知识容易被噪声淹没。
ESD 的意义在于把不同任务的核心方向尽量分开,PS 的意义在于把更重要的信号放大、把不重要的部分压下去,所以这项研究真正完成的,是把干扰的来源和解决路径连成了一个完整解释。
更深一层看,研究结果还揭示了深度模型内部一个很重要的性质,也就是任务知识虽然存在于高维参数里,但真正决定性能的变化往往集中在少数方向上,而且这种结构对具体数据并不敏感。
这说明大模型内部并不是杂乱无章的,而是存在一种可以被提炼、被压缩、被重新组合的低维结构。这个发现的意义很大,因为它意味着未来改进模型,不一定总要靠更大数据和更长训练,也可以通过理解模型内部已有的知识组织方式来提升能力。
这项研究对普通人的影响也很现实。它意味着未来的 AI 系统更有可能在不反复重训的情况下,把多种能力整合到同一个模型里,而且整合之后更稳定,不容易因为增加一个新功能就损伤原来的能力。
对普通用户来说,这会让 AI 工具更像一个能力完整的通用助手,而不是很多彼此割裂的小工具。对企业和平台来说,这也可能降低部署成本和算力消耗,最后体现在更便宜的服务、更快的响应,以及更多设备本地就能运行的智能功能。
所以,这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组,这既推动了学术上对模型内部机制的认识,也会影响普通人未来使用 AI 的方式。
这篇论文通讯作者为耿新,他是东南大学首席教授、东南大学研究生院常务副院长,以及新一代人工智能技术与交叉应用教育部重点实验室主任。
他分别于 2001 年和 2004 年在南京大学获得学士、硕士学位,2008 年在澳大利亚 Deakin 大学获得博士学位,之后长期在东南大学从事教学与科研工作,并创建了模式学习与挖掘(PALM)实验室。
在学术成果方面,他长期深耕机器学习、大模型、模式识别、计算机视觉等方向,在重要国际期刊和会议发表论文 230 余篇,获得国家杰出青年科学基金、国家优秀青年科学基金、国家自然科学二等奖、教育部自然科学一等奖、国家级教学成果一等奖和二等奖、科学探索奖、吴文俊人工智能自然科学一等奖等荣誉,同时担任多个国际会议程序委员会主席、领域主席及多个期刊编委。
在研究工作上,他围绕模型中的知识表示与重组展开,早期代表性工作集中在标记分布学习,也就是把传统单标记或多标记学习问题推进到具有更细粒度表示的标记分布学习,之后又把研究重心逐步扩展到端侧大模型和学习基因( Learngene)等方向,探索从基础模型中提取可继承、可复用的核心能力,实现面向不同任务和不同硬件条件的高效部署。

参考链接:https://palm.seu.edu.cn/xgeng/
另一位通讯作者为祁磊,东南大学计算机科学与工程学院副研究员、硕士生导师。早期在南京师范大学获得学士学位,在南京理工大学获得硕士学位,之后于 2020 年在南京大学获得博士学位,并在读博期间赴澳大利亚 University of Wollongong 进行访问交流。
在学术成果方面,祁磊在 ACM/IEEE 汇刊以及 CCF-A 类会议上发表 60 余篇论文, Google 学术引用 5300 余次,并主持多项国家级和省部级科研项目 。同时,他还入选国家资助博士后研究人员计划、江苏省卓越博士后、东南大学紫金学者等人才计划,并获 CCF 产学合作基金优秀项目案例、江苏省人工智能学会优秀博士论文等奖项。
在研究方向上,祁磊的工作主要集中在计算机视觉与模式识别领域,近年来主要关注于异常检测、语义分割,以及领域泛化和视觉语言模型等方向 。

参考链接:https://palm.seu.edu.cn/qilei/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。