0
| 本文作者: 陈淑瑜 | 2026-05-26 11:25 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:知乎“智能CV”
原文链接:https://zhuanlan.zhihu.com/p/2040370312253071756

论文:https://arxiv.org/pdf/2604.03134
这篇论文聚焦于少样本医学图像分割,即 Few-Shot Medical Image Segmentation,简称 FSMIS。该任务希望模型只依赖极少量标注样本,就能完成新器官、新类别或新域医学图像的分割。
医学图像分割在疾病诊断、放疗计划、个性化治疗等临床场景中非常重要,但其核心难点在于:高质量像素级标注成本高、不同医院和设备带来的域偏移明显、目标器官形态差异大。传统 FSMIS 方法多采用原型匹配、注意力交互或双分支结构,但这些方法通常需要从有限医学数据中学习任务特定表示,面对跨模态、跨域场景时容易性能下降。

论文在图1中对比了传统方法和本文方法。传统方法通常基于 CNN 或专门设计的 few-shot 网络,通过 support 图像和 mask 提取原型,再与 query 图像进行特征匹配;而本文不再从零构建任务网络,而是尝试直接适配一个强大的预训练基础模型——Stable Diffusion。作者认为,大规模扩散模型已经从海量图文数据中学习到了关于形状、纹理和上下文的通用视觉先验,这些先验可以为医学少样本分割提供更强的鲁棒性和跨域泛化能力。
本文提出的方法名为 SD-FSMIS,核心思想是:把 Stable Diffusion 从文本到图像生成模型,改造成一个能够根据少量 support 样本完成医学图像分割的 few-shot 分割框架。
传统 FSMIS 方法往往依赖任务特定网络设计,而本文将 Stable Diffusion v1.5 作为主干模型,保留其 VAE 和 U-Net 结构,并通过轻量化改造使其适配医学图像分割任务。

在图2中,作者展示了 SD-FSMIS 的整体训练流程。Support 图像、support mask 和 query 图像首先经过 Stable Diffusion 的 VAE 编码器进入 latent space。随后,support 信息与 query 信息在 U-Net 中交互,最终生成 query mask 的 latent 表示,再通过 VAE 解码器得到最终分割结果。
这种设计的关键优势在于:模型不是从有限医学训练集里重新学习视觉规律,而是复用 Stable Diffusion 中已经存在的通用视觉知识。
Few-shot 分割的关键是让模型理解 support 图像中“要分割什么”,再把这种类别信息迁移到 query 图像上。为此,作者提出了 Support-Query Interaction,简称 SQI。
SQI 包含两个部分:

第一是 Support Information Injection,SII。如图3所示,作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之间,额外加入一个 cross-attention 层,让 query 特征去关注 support 特征。这样,support 图像和 support mask 中的目标类别信息可以直接注入 query 特征。
第二是 Query Enhancement,QE。作者借鉴 prototype-based few-shot segmentation 的思想,从 support latent 中提取 foreground prototype,再用它与 query latent 计算相似度,筛选出 query 中可能属于目标区域的特征,形成 query prototype,并与原 query latent 拼接。这个模块在图2的黄色区域中展示,作用是进一步增强 query 表示,使其更贴近 support 中指定的器官类别。
Stable Diffusion 原本依赖文本 embedding 来控制生成过程。但在医学图像分割中,输入条件并不是自然语言,而是 support 图像和 support mask。为了解决这个不匹配问题,作者提出 Visual-to-Textual Condition Translator,简称 VTCT。
VTCT 的作用是把 support 图像中的视觉类别信息转换成类似文本 embedding 的条件向量。具体来说,作者使用冻结的 DINOv2-small 图像编码器提取 support 图像特征,再通过 support mask 做 Masked Average Pooling,得到目标器官的视觉原型,最后用一个可学习 MLP 将其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空间。
这一模块在图2红色区域中展示。它的意义在于:不是简单使用空文本提示,而是让模型通过 support 图像自动生成“隐式文本条件”,从而更精准地引导 Stable Diffusion 关注目标器官。

在推理阶段,SD-FSMIS 并不进行复杂的多步扩散采样,而是采用 single-step x0 prediction。如图4所示,support 与 query 被编码到 latent space 后,U-Net 在 VTCT 生成的条件引导下,直接一步预测 query mask latent,再由 VAE decoder 解码得到最终 mask。
这种设计降低了扩散模型用于分割时的推理成本,使其更适合医学图像分割任务。

论文在 Abd-MRI 和 Abd-CT 两个腹部医学图像数据集上进行实验,分割目标包括 spleen、liver、left kidney 和 right kidney。评价指标主要为 Dice Similarity Coefficient。
在表1中,作者比较了 SD-FSMIS 与 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 数据集上,SD-FSMIS 的平均 Dice 与当前强方法 DIFD 接近;在 Abd-CT 数据集上,本文方法优势更明显。
例如,在 Setting 1 下,SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice,超过此前最优的 DIFD 的 80.19%。在 Setting 2 下,SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice,同样明显优于 DIFD 的 79.85%。
这说明,在标准少样本医学图像分割场景下,SD-FSMIS 已经具备很强竞争力。
本文最重要的实验亮点是跨域少样本医学图像分割,即从 CT 迁移到 MRI,或从 MRI 迁移到 CT。该场景比普通 few-shot 更接近真实临床,因为不同模态之间存在显著域差异。

在表2中,作者展示了 Setting 1 下的跨域实验结果。SD-FSMIS 在 Abd-CT → MRI 任务上达到 81.42% 平均 Dice,在 Abd-MRI → CT 任务上达到 75.90% 平均 Dice,均超过此前方法。其中,DiffewS 已经利用扩散模型先验并表现较强,但 SD-FSMIS 仍进一步提升,说明 SQI 与 VTCT 对扩散模型适配是有效的。
补充材料中的表6进一步展示了更严格 Setting 2 下的跨域结果。SD-FSMIS 在 Abd-CT → MRI 上达到 80.54%,相比 DIFD 的 69.13% 提升 11.41%;在 Abd-MRI → CT 上达到 74.82%,相比 DIFD 的 57.93% 提升 16.89%。这充分体现了本文方法在跨模态泛化上的优势。

图5给出了 SD-FSMIS 与 DiffewS 的可视化对比。可以看到,在 Abd-MRI、Abd-CT 以及跨域场景中,SD-FSMIS 对不同形态、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS,本文方法在器官边界、局部结构和复杂背景下更稳定。
补充材料中的图6比较了 SD-FSMIS 与 UniverSeg、MultiverSeg 等通用医学分割模型。结果显示,在 1-shot 设置下,通用模型容易出现目标定位不准、边界混淆或背景组织误分割,而 SD-FSMIS 能更准确地区分目标器官与相似组织。
在表3中,作者对 SII、QE 和 VTCT 三个关键模块做了消融实验。仅使用 SII 时,模型在 Abd-CT Setting 1 上的平均 Dice 为 80.11%。加入 QE 后提升到 83.17%;加入 VTCT 后提升到 82.27%;三者全部使用时达到最高的 83.66%。
这说明:
SII 是基础,它实现 support 信息向 query 的注入;
QE 能增强 query latent 中目标区域的表示;
VTCT 能把 support 视觉信息转化为更有效的条件引导;
三者组合后具有互补效果。
表4比较了 Stable Diffusion 1.5 和 2.1 作为骨干时的性能。SD 1.5 的平均 Dice 为 83.66%,高于 SD 2.1 的 82.84%。作者认为,SD 1.5 的预训练数据更宽泛,保留了更通用的视觉先验,因此更适合迁移到医学图像结构和纹理理解任务中。
补充材料中的图7展示了失败案例。SD-FSMIS 在部分 Abd-MRI 图像上仍会出现肝脏分割不完整、左肾受高显著区域干扰、脾脏和左肾距离较近时发生误合并等问题。作者认为,这主要来自医学图像低对比度边界和复杂器官空间关系。未来可以通过更强的边界建模或注意力机制进一步改进。
图8展示训练过程可视化,模型在训练早期就能较好分割简单类别,在约 5000 次迭代时对肝脏等复杂类别也能形成较好的分割结果。这从侧面说明扩散模型先验确实为少样本分割提供了较强初始化能力。
这篇论文的核心贡献在于:它没有继续沿着传统 FSMIS 方法“设计更复杂专用网络”的路线前进,而是提出了一种更具基础模型思维的新范式——将预训练 Stable Diffusion 适配到少样本医学图像分割中。
SD-FSMIS 通过 SQI 实现 support-query 交互,通过 VTCT 把 support 视觉信息转化为 text-like condition,再通过 QE 增强 query latent 表示,从而让 Stable Diffusion 的通用视觉先验服务于医学图像分割任务。实验结果表明,该方法不仅在标准 FSMIS 设置下表现优异,更在跨 CT/MRI 的跨域场景中展现出明显优势。
从研究意义上看,这篇论文说明:大规模生成模型不仅可以用于图像生成,也可以被有效改造为医学图像理解和分割工具。对于标注稀缺、域偏移严重的医学场景而言,这种“适配基础模型”的路线可能比从零训练专用模型更具潜力。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。