0
| 本文作者: 陈淑瑜 | 2026-05-27 14:43 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“人工智能怎么学”
原文链接:https://mp.weixin.qq.com/s/8T1LqLJYPqyUWsNF8aBD1w
本文介绍了CVPR 2026的论文《MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation》。该研究由加拿大康考迪亚大学团队完成,提出概率式视觉语言自适应框架MedCLIPSeg,专门解决医学图像分割中标注稀缺、边界模糊、域偏移严重三大核心难题。MedCLIPSeg通过设计概率式视觉语言(Probabilistic Vision-Language,PVL)适配器实现双向跨模态融合与不确定性感知,结合软补丁级对比损失强化语义对齐,在16个公开基准数据集、5种成像模态、6个器官的分割任务中全面超越现有方法,同时提供可解释的像素级不确定性地图,为临床可靠诊断提供AI支撑。
论文链接:https://arxiv.org/abs/2602.20423
代码链接:https://tahakoleilat.github.io/MedCLIPSeg
本推文作者为黄忠祥,审校为龚裕涛和王一鸣。
1.1 研究背景
医学图像分割是临床诊断、治疗规划与预后评估的核心技术,但长期受限于专家标注成本高、病灶边界模糊、跨设备/中心域偏移大三大瓶颈。近年来,CLIP等视觉-语言模型(Vision-Language Model,VLM)凭借强大的跨模态表示能力,为少样本医学分割提供了新方向,但现有方法多采用确定性融合策略,存在过自信、泛化性差、缺乏不确定性估计等问题,难以满足临床对模型可靠性的要求。当前医学图像分割与VLM适配方法面临三大核心挑战。
(1)标注效率瓶颈:像素级分割标注需专业医师数小时完成,罕见病与新模态数据标注尤为稀缺,传统全监督方法难以落地。
(2)域偏移鲁棒性差:不同设备、采集协议与患者群体导致的分布差异,会使模型性能大幅下降,跨中心泛化能力不足。
(3)模型可靠性缺失:确定性模型对模糊边界与未见样本易产生过自信预测,缺乏不确定性估计机制,无法为临床决策提供风险提示。
1.2 主要贡献
针对上述挑战,该论文提出了MedCLIPSeg框架,核心贡献可概括为如下三点。
(1)提出了概率式双向VLM医学分割框架,其提出的PVL适配器,在CLIP多层编码中实现图像-文本双向概率融合,通过变分建模注意力的Key与Value,同时捕捉数据固有不确定性与模型认知不确定性。
(2)提出了软补丁级对比损失,针对医学图像细粒度语义对齐需求,设计基于平均池化的软对比损失,利用文本相似度生成软标签,避免硬标签带来的语义混淆,提升少样本下的特征学习效率。
(3)提出的MedCLIPSeg框架在16个数据集、5种模态、6个器官的任务中全面超越SOTA,仅用10%标注数据即可超越多数方法全量数据性能,提供像素级不确定性地图,与分割误差的相关系数超80%,可直接辅助临床审核。
2.1 框架概览
MedCLIPSeg基于冻结的UniMedCLIP预训练模型构建,整体流程分为三个板块,如图1所示。首先是多模态输入编码框架,图像经视觉编码器生成补丁令牌,文本经文本编码器生成令牌序列,保留CLIP的预训练参数以最大化迁移能力。再进行PVL适配器逐层融合,具体实现流程是在CLIP的多个深层插入PVL适配器,实现图像与文本令牌的双向概率交互,生成置信度加权的融合特征。最后进行分割与不确定性的输出,它通过文本令牌与图像补丁的相似度计算分割logits。测试时通过蒙特卡洛采样生成多个预测,其均值为最终分割结果,熵为不确定性地图。
整个框架通过概率式跨模态对齐加上软对比语义强化和不确定性量化的三步设计,同时实现数据高效、泛化性强与可靠性高三大目标。

图1 MedCLIPSeg框架图
2.2 概率式视觉语言适配器(PVL Adapter)
该模块是MedCLIPSeg的核心模块,是实现不确定性感知的跨模态融合的主要部分,它的结构主要分为三个部分,如图2所示。第一个部分是双向投影与QKV概率建模,它将图像与文本令牌投影至共享低维空间,将注意力的Key与Value建模为高斯分布,而非确定性向量。第二个部分是置信度加权注意力,注意力分数同时考虑均值相似度与方差置信度惩罚,自动降低不确定令牌的权重。第三个部分是值采样与残差门控,通过重参数化技巧采样Value分布生成融合特征,引入可学习残差门控,训练初期保留原始特征以保证稳定性,后期逐步增加融合特征的权重。

图2 PVL适配器实现流程图
2.3 像素与文本相似度分割
这是MedCLIPSeg的特色模块,位于框架图右侧,它采用语义相似度来驱动分割。它主要利用CLIP预训练好的跨模态对齐能力,将分割任务转化为每个像素与文本描述的匹配度计算。首先它从冻结的CLIP视觉编码器中提取保留完整空间位置信息的图像补丁特征,同时从文本编码器中取出代表整句语义的结束符特征,将两者做归一化后映射到同一维度空间,随后通过一个轻量级可学习上采样模块将低分辨率的补丁特征恢复到接近原图的尺寸,再与经过MLP维度对齐的文本特征做逐元素点积,点积结果直接作为该位置的分割logits,其相似度越高,说明该像素越符合文本描述的语义,越可能是需要分割的病灶或器官,最后通过双线性插值将logits上采样到输入图像的原始尺寸,即可得到最终的分割掩码。
2.4 软补丁级对比损失
传统CLIP全局对比学习可能会出现丢失空间信息、硬标签监督在医学场景下失效的问题,所以MedCLIPSeg提出了软补丁级对比损失。传统CLIP仅使用全局token与文本做对比,完全忽略了分割任务必需的空间语义,对此MedCLIPSeg首先对所有图像补丁特征做平均池化,得到既保留局部语义又降低噪声的区域级图像表征,随后引入软标签机制,不再使用非0即1的硬标签,而是通过计算批次内所有文本表征之间的相似度生成连续的软标签矩阵,语义越相近的文本,其对应的监督信号置信度越高。最后计算文本与图像和图像与文本两个方向的软交叉熵损失并取平均,与传统的分割损失联合训练。这种设计让模型在标注极度稀缺的医学场景下大幅提升了学习效率,同时显著增强了模型对不同设备、不同扫描协议下域偏移的鲁棒性。
为了全面验证MedCLIPSeg架构的有效性与临床落地价值,论文构建了一套多维度递进的实验验证方案。首先通过标注比例梯度的对比实验,量化了模型在医学数据稀缺场景下的极致数据效率;其次采用源域训练、目标域零微调直接测试的设置,在16个数据集上验证了模型对跨设备、跨中心域偏移的强鲁棒性;随后通过核心组件消融实验,精准量化了每个创新设计对模型性能的独立贡献;最后通过不确定性与可靠性可视化分析,进一步佐证了实验结果的可信度,也证明了模型能够输出与分割误差强相关的像素级置信度提示,能够解决传统确定性医学AI模型普遍存在的过自信问题。
3.1 数据效率对比实验
表1 数据效率对比实验结果表

表1是论文中的数据效率对比实验结果表,专门用来验证模型在不同标注数据量下的医学图像分割性能,是证明模型少标注也能高精度的核心实验数据。表格按10%、25%、50%、100%四个训练标注比例分组,模拟医学场景中从极稀缺标注到全量标注的真实情况,用DSC和NSD两个核心指标,对比了三大类主流分割方法:传统单模态模型(UNet、nnUNet等)、通用文本驱动分割模型、CLIP视觉-语言类分割模型(CLIPSeg、CAT-Seg等)。结果显示,MedCLIPSeg在所有数据比例下的DSC和NSD均位列第一,且标注数据越少,优势越突出,完美验证了它在小样本医学分割上的领先性。
3.2 跨域泛化实验
表2 跨域泛化实验结果表

表2是MedCLIPSeg论文的跨域泛化实验结果表,是验证模型能否真正落地临床的核心实验,衡量了模型在域迁移问题上直接推理的分割精度。实验覆盖乳腺超声、结肠息肉内镜、脑MRI、皮肤皮肤镜4大场景,采用源域训练、目标域零微调直接测试设置,模拟了真实医疗场景中跨医院、跨设备部署的域偏移挑战。如表2所示,MedCLIPSeg在所有任务、所有域外数据集上的精度均位列第一,大幅领先LViT、CLIPSeg、CAT-Seg等主流视觉-语言分割模型。比如乳腺超声跨域任务中最高达85.72%,息肉内镜任务最高90.15%,且相比其他模型,它在域偏移下的性能下跌幅度最小,充分证明其概率跨模态融合与软对比损失设计,能让模型学习通用的医学语义特征,而非依赖特定设备的纹理噪声,是模型具备临床实用价值的关键佐证。
3.3 核心部件消融实验
表3 核心部件消融实验

表3展示了MedCLIPSeg的核心组件消融后性能变化。表格从概率视觉-语言适配器、双向多模态交互、软补丁级对比损失三大核心模块逐一做消融实验,其中概率PVL适配器是最核心模块,移除后跨域OOD DSC直接下降23.79%,把概率注意力换成确定性版本,跨域精度也会下降15.90%,证明了概率化建模对医学图像跨域泛化的决定性作用,而双向交互、残差门控、软补丁对比损失等设计,也分别带来1%-4%的稳定增益,尤其是软标签对比损失替代硬标签后,模型泛化性明显更优。这证明了MedCLIPSeg的高性能不是单一设计带来的,而是概率跨模态融合与双向交互和软对比监督三者共同作用产生的,每个模块都对解决医学分割的泛化难题做出了贡献。
3.4 不确定性与可靠性验证实验

图3 不确定性与可靠性可视化图
图3是MedCLIPSeg论文最具临床说服力的可视化图,它分别展示了原始医学图像、分割结果与像素级不确定性热力图,且每个任务都包含训练见过的域内数据(蓝色标注)和完全未见过的域外数据(红色标注)。图中可见模型在所有数据集上的分割DSC均超过93%,预测结果与医生标注的标准几乎完全重合,域外数据精度与域内几乎无差距,同时不确定性集中在病灶边界这一最易出错的区域,直观证明了该模型不仅具备跨模态、跨设备的通用高精度分割能力。
MedCLIPSeg将概率化视觉-语言建模引入医学图像分割领域,构建了一个文本驱动的分割框架。它通过概率视觉-语言间的适配器实现了置信度加权的跨模态融合,用软补丁级对比损失解决了医学场景下的语义对齐难题,并在CLIP架构中实现了与分割误差强相关的像素级不确定性估计。该模型仅用10%标注数据就超越了传统全监督方法,跨设备跨中心部署时性能下降幅度仅为传统模型的三分之一,且能输出符合临床认知的可解释置信度提示。这项工作不仅超越了医学分割的多项SOTA指标,更证明了概率化跨模态建模是解决医学AI落地的关键模块,为实现安全、高效、通用的临床智能诊断系统提供了全新的技术范式。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。