您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

UniMMAD——大工&南洋理工提出统一多模态异常检测,59 FPS刷新推理效率150倍 | CVPR 2026

本文作者: 陈淑瑜   2026-04-30 16:14 专题:CVPR 计算机视觉与模式识别会议
导语:能否构建一个通用的"大脑",既能理解多模态融合信息,又能针对不同任务动态调用"专家知识"?

【封面图片来源:网站名微信公众号,所有者:极市平台】

一、背景 

工业质检和医疗影像分析中,传统方法采用"一个任务一个模型"的碎片化模式,检测不同模态(如RGB、红外、3D深度)需要部署多个专用模型,导致运维成本高、泛化能力差。现有方法存在域干扰问题——直接融合多域特征会引入噪声,导致大量误报。

能否构建一个通用的"大脑",既能理解多模态融合信息,又能针对不同任务动态调用"专家知识"?这一问题的解决对于工业质检和医疗影像的智能化升级具有重大意义。

来自大连理工大学、工源三仟、南洋理工大学的科研团队共同提出了一种名为 UniMMAD 的统一框架。该模型被命名为 UniMMAD,意为“Unified Multi-Modal and Multi-Class Anomaly Detection”,即统一的多模态、多类别异常检测,采用"通用-特定"范式,通过压缩-解压架构实现统一的多模态、多类别异常检测,大幅提升模型泛化能力和部署效率。它最令人惊艳的地方在于,仅用一套参数,就能同时处理涵盖工业、医疗、合成数据等 3 个领域、12 种模态和 66 个类别的异常检测任务。

UniMMAD——大工&南洋理工提出统一多模态异常检测,59 FPS刷新推理效率150倍  |  CVPR 2026

 二、核心方法 

UniMMAD 采用通用-特定范式,通过三大核心模块实现多模态异常检测的统一。

通用多模态编码器(特征压缩模块FCM):

通过多尺度BottleNeck结构,将任意组合的输入(如RGB+Depth)压缩成紧凑的通用特征。内部多尺度瓶颈利用不同尺度的并行卷积捕捉正常模式,外部语义瓶颈在更高语义层级进行精细压缩,剔除异常激活,输出纯净的通用特征表示。

跨条件混合专家(C-MoE):

引入"领域先验"作为导航,动态选择专家路径。采用MoE-in-MoE结构,将参数量减少约75%,同时保持专家组合的灵活性。条件路由器根据输入的模态和类别信息,动态选择最合适的专家路径,实现精准的任务适配。

分组动态滤波(GDF):

将多个专家计算合并为单组卷积,提升并行效率。配合解压一致性损失保证解压过程与压缩过程的一致性,确保恢复的图像与原始输入在语义上保持对齐。

UniMMAD——大工&南洋理工提出统一多模态异常检测,59 FPS刷新推理效率150倍  |  CVPR 2026

三、亮点总结  

创新点一:MVTec-3D 图像级AUC 92.527

在MVTec-3D数据集上,UniMMAD图像级AUC达到92.527,像素级AUC达到99.089,在BraTs医疗数据集上同样超越专用医疗模型,全面验证了统一框架在多模态、多类别异常检测任务上的领先性能。

创新点二:59.09 FPS,推理速度提升150倍

相比多模态方法M3DM的0.39 FPS,UniMMAD达到59.09 FPS,实现约150倍的速度提升。参数减少75%的同时保持高精度,满足工业实时部署的严苛需求。

创新点三:持续学习能力

UniMMAD展现出优秀的持续学习能力——学习新任务后,旧任务性能下降不到8%,有效解决了"灾难性遗忘"问题。域干扰问题也得到有效解决:不同领域(红外、3D等)激活不同专家路径,避免了噪声干扰,提升了异常检测的准确性。

雷峰网(公众号:雷峰网)

──────────────────────────────────────────

上述内容包含AI辅助生成,更详细信息参见两个链接

论文链接:https://arxiv.org/abs/2509.25934

解读来源:https://mp.weixin.qq.com/s/rIRlMmhkgqHj0wq6ob0NCw


雷峰网版权文章,未经授权禁止转载。详情见转载须知

UniMMAD——大工&南洋理工提出统一多模态异常检测,59 FPS刷新推理效率150倍  |  CVPR 2026

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说