0
| 本文作者: 陈淑瑜 | 2026-04-30 16:14 | 专题:CVPR 计算机视觉与模式识别会议 |
【封面图片来源:网站名微信公众号,所有者:极市平台】
一、背景
工业质检和医疗影像分析中,传统方法采用"一个任务一个模型"的碎片化模式,检测不同模态(如RGB、红外、3D深度)需要部署多个专用模型,导致运维成本高、泛化能力差。现有方法存在域干扰问题——直接融合多域特征会引入噪声,导致大量误报。
能否构建一个通用的"大脑",既能理解多模态融合信息,又能针对不同任务动态调用"专家知识"?这一问题的解决对于工业质检和医疗影像的智能化升级具有重大意义。
来自大连理工大学、工源三仟、南洋理工大学的科研团队共同提出了一种名为 UniMMAD 的统一框架。该模型被命名为 UniMMAD,意为“Unified Multi-Modal and Multi-Class Anomaly Detection”,即统一的多模态、多类别异常检测,采用"通用-特定"范式,通过压缩-解压架构实现统一的多模态、多类别异常检测,大幅提升模型泛化能力和部署效率。它最令人惊艳的地方在于,仅用一套参数,就能同时处理涵盖工业、医疗、合成数据等 3 个领域、12 种模态和 66 个类别的异常检测任务。

UniMMAD 采用通用-特定范式,通过三大核心模块实现多模态异常检测的统一。
通过多尺度BottleNeck结构,将任意组合的输入(如RGB+Depth)压缩成紧凑的通用特征。内部多尺度瓶颈利用不同尺度的并行卷积捕捉正常模式,外部语义瓶颈在更高语义层级进行精细压缩,剔除异常激活,输出纯净的通用特征表示。
引入"领域先验"作为导航,动态选择专家路径。采用MoE-in-MoE结构,将参数量减少约75%,同时保持专家组合的灵活性。条件路由器根据输入的模态和类别信息,动态选择最合适的专家路径,实现精准的任务适配。
将多个专家计算合并为单组卷积,提升并行效率。配合解压一致性损失保证解压过程与压缩过程的一致性,确保恢复的图像与原始输入在语义上保持对齐。

在MVTec-3D数据集上,UniMMAD图像级AUC达到92.527,像素级AUC达到99.089,在BraTs医疗数据集上同样超越专用医疗模型,全面验证了统一框架在多模态、多类别异常检测任务上的领先性能。
相比多模态方法M3DM的0.39 FPS,UniMMAD达到59.09 FPS,实现约150倍的速度提升。参数减少75%的同时保持高精度,满足工业实时部署的严苛需求。
UniMMAD展现出优秀的持续学习能力——学习新任务后,旧任务性能下降不到8%,有效解决了"灾难性遗忘"问题。域干扰问题也得到有效解决:不同领域(红外、3D等)激活不同专家路径,避免了噪声干扰,提升了异常检测的准确性。
雷峰网(公众号:雷峰网)
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
论文链接:https://arxiv.org/abs/2509.25934
解读来源:https://mp.weixin.qq.com/s/rIRlMmhkgqHj0wq6ob0NCw
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
本专题其他文章