CVPR 2026 I SD-FSMIS：把Stable Diffusion改造成小样本医学分割利器

本文作者：陈淑瑜

2026-06-04 14:56

专题：CVPR 计算机视觉与模式识别会议

导语：医学图像分割一直有一个绕不开的问题：标注太贵，而且很难覆盖所有临床场景。

来源：公众号“HiLab实验室”

原文链接：https://mp.weixin.qq.com/s/0qp3IN0hdHGTzjn3BAUOBg?scene=1&click_id=45

CVPR 2026 I SD-FSMIS：把Stable Diffusion改造成小样本医学分割利器

Overview

论文标题：

SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation

论文链接：

https://arxiv.org/abs/2604.03134

Abstract

医学图像分割一直有一个绕不开的问题：标注太贵，而且很难覆盖所有临床场景。

比如不同医院的扫描协议、设备型号、成像模态，甚至病人的个体差异，都会让模型在换一个数据域后明显掉点。对于深度学习分割模型来说，模型越依赖大量精细标注，越容易被真实临床里的数据变化卡住。

这篇文章关注的是少样本医学图像分割（FSMIS）：只给模型极少量带掩膜的支持样本，让它去分割查询图像中的同类器官或结构。传统FSMIS通常会围绕支持-查询匹配、原型学习、注意力交互去设计网络。如图1所示，这类方法一般先用任务特定网络分别提取支持和查询特征，再从有限支持样本中生成类别原型，最后通过特征匹配得到预测掩膜。然而，由于缺乏足够强的通用视觉先验，这类方法在数据有限、视觉变化复杂或跨域场景下往往容易退化。

作者在本篇文章中提出了SD-FSMIS，它不是重新从头设计一个医学分割网络，而是尝试把预训练Stable Diffusion改造成一个少样本分割框架。实验结果表明：不仅标准FSMIS场景下表现不错，在CT→MRI、MRI→CT这种跨域设置里，优势反而更明显。

图1：传统 fully supervised FSMIS方法与SD-FSMIS的对比

Background

1.为什么少样本医学图像分割重要？

医学图像分割通常需要医生或专业标注人员进行逐像素标注，这一过程不仅耗时，而且成本很高。对于罕见病灶、新器官结构或新成像协议下的数据，收集大规模标注集往往并不现实。因此，如何让模型在仅有少量标注样本的情况下快速适应新类别，是医学图像分析中的关键问题。

FSMIS正是为了解决这一问题而提出：给定少量图像-标注对，模型需要对查询图像中相同类别的结构进行分割。这种设定更贴近真实临床场景，因为临床中经常出现标注稀缺、类别变化和数据分布漂移的问题。

2.现有FSMIS方法的局限

已有方法主要沿着两条路线发展：

一类是原型匹配方法，即从支持集中提取类别原型，再与查询图像特征进行匹配；另一类是支持-查询交互方法，通过注意力、双分支网络或多尺度对齐机制增强支持图像和查询图像之间的联系。

这些方法虽然在标准设置下取得了不错效果，但仍然存在一个核心问题：它们通常是在有限医学数据上训练得到的任务特定模型，因此学到的视觉先验较窄。当测试数据来自新的模态、新设备或新的解剖分布时，模型容易出现明显性能退化。

3.为什么考虑Stable Diffusion？

Stable Diffusion这类大规模扩散模型在海量数据上训练，具备较强的纹理、形状和上下文建模能力。虽然它最初主要用于图像生成任务，但近年来已有研究发现，扩散模型内部特征也可以迁移到语义对应、像素级预测、开放词汇分割等视觉理解任务中。

本文的出发点是：如果Stable Diffusion已经具备丰富的通用视觉先验，那么是否可以通过较小的适配成本，将这些先验迁移到少样本医学图像分割中。

Contributions

本文的主要贡献可以概括为以下三点：

1. 提出一种新的FSMIS范式：从“重新设计任务网络”转向“适配大规模生成式基础模型”。

以往FSMIS方法大多围绕支持-查询匹配、原型生成或注意力交互进行结构设计，但这些模型通常受限于医学训练数据规模，面对跨模态或跨域数据时容易性能下降。本文则尝试利用Stable Diffusion中已有的丰富视觉先验，为少样本医学图像分割提供更强的基础表征。

2.提出SD-FSMIS框架，将Stable Diffusion的条件生成结构改造为少样本分割框架。

文章引入两个关键组件：Support-Query Interaction和Visual-to-Textual Condition Translator。前者用于增强支持图像与查询图像之间的信息交互，后者将支持集中的视觉线索转换为类似文本条件的嵌入，从而让Stable Diffusion以其熟悉的条件机制完成医学结构定位。

3.在标准FSMIS和跨域FSMIS场景下验证了方法的有效性。

实验结果显示，SD-FSMIS在Abd-MRI和Abd-CT数据集上均取得强性能，尤其在CT→MRI、MRI→CT等跨域设置中，相比传统少样本分割方法和扩散模型基线都有明显优势，说明大规模生成模型的视觉先验对医学场景中的domain shift具有较强缓解作用。

Method

SD-FSMIS 模型总体

SD-FSMIS的核心思想是：不再从零设计一个少样本医学分割网络，而是把预训练Stable Diffusion当作一个具有强视觉先验的基础模型，再把它改造成少样本分割模型。传统FSMIS方法通常依赖支持-查询特征匹配、原型匹配或注意力融合，而SD-FSMIS认为Stable Diffusion已经在大规模图文数据上学到了丰富的形状、纹理和上下文先验，这些先验可以帮助模型在少样本医学图像中更好地泛化。论文的方法主要由两个关键模块组成：Support-Query Interaction（支持-查询交互模块，SQI）和Visual-to-Textual Condition Translator（视觉到文本条件转换模块，VTCT）。

可以把整个方法拆成四个阶段：

●潜空间编码阶段：使用Stable Diffusion自带的VAE编码器，把支持图像、支持标注和查询图像都编码到潜空间。

●支持-查询交互阶段：通过SQI模块，把支持集中的目标类别信息注入查询的处理过程。

●视觉条件翻译阶段：通过VTCT模块，把支持图像中的目标区域视觉特征转换成类似文本嵌入的条件向量，用来指导Stable Diffusion的U-Net。

●掩膜预测阶段：U-Net在支持信息和隐式文本条件的共同引导下，直接预测查询掩膜潜特征，再由VAE解码器解码得到最终分割结果。

任务设定：少样本医学图像分割

SD-FSMIS采用标准的基于任务单元的少样本分割设定。每个任务单元包含一个支持集和一个查询集。支持集中有少量带掩膜的样本，查询集中有需要预测掩膜的图像。论文主要采用单类别单样本设定，即每次任务只分割一个目标类别，并且只有一个标注支持样本可用。模型需要从支持图像和支持标注中理解“这次要分割什么结构”，然后在查询图像上找出同类结构。

这个设定和普通医学图像分割不同。普通分割通常在固定类别上训练和测试，例如一直分割肝脏或肾脏；而少样本分割更强调泛化能力，即模型在测试阶段可能遇到训练时没有显式学习过的新器官或新域数据。因此，SD-FSMIS的关键不是单纯拟合某个器官类别，而是学习如何利用支持样本动态地指导查询分割。

Stable Diffusion作为分割骨干

SD-FSMIS使用Stable Diffusion v1.5作为基础模型。原本的Stable Diffusion是一个文本生成图像模型，输入文本条件后，通过U-Net在潜空间中逐步去噪生成图像。SD-FSMIS并不是直接用它生成医学图像，而是重新利用它的潜扩散结构，把“图像生成”任务改造成“掩膜预测”任务。论文使用的是Stable Diffusion的VAE、U-Net和交叉注意力机制，其中VAE保持冻结，用于把图像和掩膜映射到潜空间，再从潜空间解码回像素空间。

由于Stable Diffusion的VAE原本接收3通道RGB图像，而医学图像和二值分割掩膜通常是单通道，作者采用了一个简单处理：把单通道医学图像和掩膜复制成3通道伪RGB输入，并把像素值归一化到Stable Diffusion需要的范围。推理时，VAE解码器输出3通道掩膜，作者再对三个通道取平均，得到最终单通道分割掩膜。

这样做的好处是最大程度复用Stable Diffusion的原始组件，不需要重新训练一个医学图像专用VAE，也避免了少样本场景下模型参数过多导致的过拟合问题。

图2:SD-FSMIS 总体流程

图2展示了SD-FSMIS的整体流程。首先，支持图像、支持标注和查询图像都会经过冻结的VAE编码器，被映射到潜空间中，得到对应的潜空间表示。

接着，支持图像潜特征和支持标注潜特征会在通道维度上进行拼接，形成带有类别提示的信息输入；查询图像潜特征则经过查询增强模块处理，得到增强后的查询潜特征。

随后，这些潜空间特征会被送入修改后的Stable Diffusion U-Net。这里的U-Net不再用于生成自然图像，而是在支持信息和VTCT生成的隐式文本条件共同引导下，预测查询图像对应的掩膜潜特征。

最后，VAE解码器将预测得到的掩膜潜特征解码回图像空间，得到最终的分割结果。

核心模块一：Support-Query Interaction（SQI）

SQI是SD-FSMIS中负责少样本信息传递的核心模块。它的作用是让查询图像在分割过程中能够显式利用支持图像和支持标注提供的类别信息。

传统少样本分割方法通常通过原型匹配或特征相关性计算来建立支持与查询之间的联系。不同的是，SD-FSMIS将这种支持-查询交互直接嵌入到Stable Diffusion的U-Net注意力模块中。也就是说，模型不是在外部单独设计一个匹配模块，而是在扩散模型原有的U-Net结构内部完成支持样本到查询样本的信息传递，从而更充分地利用预训练Stable Diffusion中的视觉先验。

SQI包含两个部分：

●Support Information Injection，SII

Stable Diffusion的U-Net中包含基础Transformer模块，原始结构通常由自注意力、交叉注意力和前馈网络组成。SD-FSMIS在自注意力之后额外加入了一个支持到查询的交叉注意力模块。具体来说，模型将查询图像的潜空间特征作为查询项，将支持图像的潜空间特征作为键和值，使查询特征能够主动关注支持中与目标类别相关的区域。这样，支持标注提供的类别提示就可以在U-Net内部传递到查询分支，从而指导最终的分割预测。

●Query Enhancement，QE

仅仅让查询图像关注支持图像还不够，因为医学图像中不同器官可能形态差异大、边界模糊，而且灰度分布相近。因此，QE模块进一步借鉴原型学习的思想，对查询图像的潜空间特征进行增强。

具体来说，模型首先根据支持标注，在支持图像的潜空间特征上进行掩膜平均池化，得到目标区域的前景原型。然后，模型计算查询图像特征与该前景原型之间的余弦相似度，从而找到查询图像中可能属于目标类别的区域。作者设定相似度阈值为0.7，筛选出高相似度区域，并对这些区域的特征求平均，得到查询原型。最后，将查询原型扩展到与原始特征相同的空间尺寸，并与原始查询特征拼接，形成增强后的查询表示。

可以理解为，SII负责“让查询看支持”，QE负责“让查询自己内部先找到疑似目标区域”。前者强调支持-查询交互，后者强调查询的目标区域增强。

图3:修改后的 BasicTransformerBlock

图3展示了作者对Stable Diffusion中U-Net基础Transformer模块的修改。原始Stable Diffusion主要用于根据文本条件生成图像，因此其中的交叉注意力模块通常用来让图像潜特征接收文本特征的引导。

而在SD-FSMIS中，作者在这个结构里额外加入了支持信息注入模块。它的作用是让查询图像的潜特征先与支持图像的潜特征进行交互，再接受由视觉到文本条件转换模块生成的条件信息。这个改动很关键，因为少样本分割的核心提示并不是自然语言中的类别名称，而是支持图像和支持标注本身。也就是说，模型需要从支持样本中理解“要分割什么”，再把这个信息传递给查询图像的分割过程。

核心模块二：

Visual-to-Textual Condition Translator（VTCT）

VTCT是SD-FSMIS的另一个关键创新。Stable Diffusion原本擅长根据文本嵌入进行条件生成，但在医学少样本分割中，支持集提供的条件并不是文字，而是一张医学图像及其对应的分割标注。如果直接使用空文本嵌入，模型就无法明确当前要分割的目标结构。因此，作者设计了VTCT，将支持图像中目标区域的视觉信息转换成Stable Diffusion能够利用的“隐式文本条件”。

VTCT的流程可以概括为三步。首先，模型使用一个冻结的预训练图像编码器提取支持图像的视觉特征，论文中采用的是DINOv2-small。然后，利用支持标注对支持图像特征进行掩膜平均池化，只聚合目标区域的前景特征，从而得到与当前类别相关的视觉原型。最后，这个视觉原型会被送入一个可学习的MLP，并映射到Stable Diffusion中U-Net交叉注意力所需的文本嵌入空间，生成用于引导分割的隐式文本条件。

这个设计的意义在于，模型不需要人工编写提示词，例如“肝脏”或“肾脏”，也不依赖类别名称是否准确。它直接从支持图像中提取“这次要分割的目标长什么样”，再把这个视觉信息转换成Stable Diffusion原本熟悉的条件格式。也就是说，VTCT相当于一个从视觉到语义的桥梁，把医学图像中的类别提示转换成扩散模型可以利用的条件信号。

训练目标：从查询图像潜特征预测分割掩膜潜特征

SD-FSMIS的训练目标比较直接。模型输入支持图像、支持标注和查询图像，输出查询掩膜的潜空间预测结果。训练时的监督信号来自真实查询掩膜经过VAE编码器后得到的掩膜潜特征。作者使用MSE损失约束预测掩膜潜特征和真实掩膜潜特征之间的差异。

这和普通医学图像分割常用的交叉熵损失或Dice损失不同。SD-FSMIS并不是直接在像素空间预测每个像素属于前景或背景的概率，而是在Stable Diffusion的潜空间中学习如何生成分割掩膜。这样做可以更自然地复用Stable Diffusion原有的U-Net结构和潜扩散表示能力。

在具体实现中，论文还采用单步DDIM调度器，并将时间步设置为999。这样，模型可以用一步预测完成掩膜潜特征的生成，而不需要像标准扩散采样那样进行多轮迭代去噪。因此，SD-FSMIS本质上是把扩散模型的潜空间生成能力简化为一次性的掩膜潜特征预测，从而更适合分割任务。

推理流程：单步预测查询图像的分割结果

推理阶段不需要重新训练模型。给定一个支持图像-标注对和一个查询图像，模型首先通过VAE编码器将它们映射到潜空间，得到对应的潜特征。

随后，支持图像潜特征和支持标注潜特征会在通道维度上拼接，并作为带有类别提示的信息输入到U-Net中。与此同时，查询潜特征会经过QE模块进一步强化目标相关区域；VTCT则从支持图像前景区域中提取目标视觉信息，并生成隐式文本条件。

最后，U-Net在支持样本信息和隐式文本条件的共同引导下，直接预测查询掩膜潜特征。预测结果再经过VAE解码器解码回像素空间，并通过通道平均得到最终的二值分割掩膜。整体来看，SD-FSMIS的推理过程可以理解为：支持样本告诉模型“要分割什么”，查询图像提供“在哪里找目标”，扩散模型则利用已有视觉先验完成最终分割。

方法总结

SD-FSMIS的方法贡献可以概括为三点。

第一，它将Stable Diffusion从文本生成图像模型改造成少样本医学图像分割模型，证明扩散模型中学到的视觉先验不仅可以用于图像生成，也可以用于医学图像中的密集预测任务。

第二，它提出了SQI模块，在Stable Diffusion的U-Net潜空间注意力结构中建立支持图像和查询图像之间的信息交互，使support mask中的类别提示能够有效传递到query图像的分割过程中。

第三，它提出了VTCT模块，将支持图像前景区域的视觉信息转换成隐式文本条件，使模型能够继续利用Stable Diffusion原有的条件生成机制，而不是简单使用空文本提示或完全丢弃文本条件分支。

总体而言，SD-FSMIS的核心不是“用扩散模型生成更多医学数据”，而是直接把Stable Diffusion适配成一个少样本分割模型。它的优势在于充分利用大规模预训练扩散模型中的通用视觉先验，并通过少量结构修改，将这些先验迁移到医学少样本分割任务中。

图5：BUSGen 用于乳腺癌预后相关指标预测。图5a 展示 TNBC 与 non-TNBC 分子亚型分类结果；图5b 展示腋窝淋巴结转移状态分类结果；图5c 和图5d 展示不同模型的特征分布；图5e 和图5f 展示模型在预测不同预后指标时关注的关键影像区域。

Experiments

实验设置

本文主要在Abd-MRI和Abd-CT两个腹部医学图像数据集上进行评估，任务目标包括脾脏、肝脏、左肾和右肾等器官结构。评价指标采用医学分割中常用的Dice相似系数，DSC。

所有实验均在单样本设置下进行，并采用五折交叉验证来保证评估稳定性。文章还设置了两种更具挑战性的测试条件：
设置1中，测试类别可能以未标注背景形式出现在训练切片中；
设置2中，包含测试类别的训练切片会被直接移除，因此模型在训练阶段完全没有见过目标结构，这一设置更接近真实临床中的跨域泛化问题。

与现有先进方法的对比

在Abd-MRI和Abd-CT数据集上，SD-FSMIS与PANet、SENet、SSL-ALPNet、ADNet、RPT、DIFD、DiffewS等方法进行了对比，具体定量结果如表 1 所示。

标准FSMIS设置中，SD-FSMIS整体表现具有竞争力。尤其在Abd-CT数据集上，SD-FSMIS在Setting 1和Setting 2中的平均Dice均超过已有最优方法，说明其在CT图像中对器官结构的定位和边界恢复能力较强。

而且相比DiffewS这类同样引入扩散模型思想的方法，SD-FSMIS取得了更高的平均Dice。表明仅仅利用扩散模型的视觉表征还不够，如何有效引导support信息、如何构造适合医学分割的条件信号，是更为关键。

表 1：SD-FSMIS 与现有 few-shot medical image segmentation 方法在 Abd-MRI 和 Abd-CT 数据集上的 Dice (%) 定量对比

跨域实验结果

本文还重点评估了Cross-Domain FSMIS，包括Abd-CT→Abd-MRI和Abd-MRI→Abd-CT两个方向。

在跨域设置下，传统FSMIS方法通常会出现明显性能下降，因为它们学到的特征更依赖训练域分布。而SD-FSMIS借助Stable Diffusion中更通用的视觉先验，在跨模态转移时表现更加稳定。

如表2所示，在Setting 1（设置1）的跨域实验中，SD-FSMIS在Abd-CT→Abd-MRI和Abd-MRI→Abd-CT两个迁移方向上都取得了最高平均Dice，分别达到81.42%和75.90%。相比同样引入扩散模型思想的DiffewS，SD-FSMIS在两个方向上都有进一步提升。

这一结果说明，本文的方法并不是简单使用扩散模型的视觉特征，而是通过支持-查询交互和视觉到文本条件转换，更有效地将支持样本中的目标信息传递到查询图像分割过程中。尤其是在CT和MRI这种模态差异明显的场景下，SD-FSMIS仍然能够保持较强的器官定位能力和边界恢复能力，体现出预训练基础模型在跨域少样本医学图像分割中的优势。

表 2：不同 cross-domain few-shot medical image segmentation 方法在 Setting 1 下的 Dice (%) 定量对比

更严格跨域实验

实验设置为更严格的跨域设置2：训练集中包含目标器官的切片被移除，模型对目标类别几乎没有训练阶段暴露。

在这个更困难设置下，SD-FSMIS依然保持领先，具体结果见表3：
Abd-CT → MRI平均Dice为80.54%，相比DIFD的69.13%提升11.41%；
Abd-MRI → CT平均Dice为74.82%，相比DIFD的57.93%提升16.89%。

这说明跨域优势并不是偶然的。即使在目标器官从训练数据中被更彻底移除的情况下，SD-FSMIS仍然能依靠Stable Diffusion中更通用的视觉先验保持鲁棒性。

表 3：不同 cross-domain few-shot medical image segmentation 方法在 Setting 2 下的 Dice

与通用模型对比

与UniverSeg、MultiverSeg等通用医学图像分割模型的比较。这部分是想说明虽然SD-FSMIS利用了基础模型先验，但它相比已有通用分割模型仍有优势。

表4中结果显示，SD-FSMIS在Abd-MRI和 Abd-CT上都明显优于UniverSeg和MultiverSeg。以Abd-CT Setting 2为例，SD-FSMIS的Mean Dice为 83.25%，而UniverSeg和MultiverSeg分别只有37.20%和61.82%；同时，SD-FSMIS在HD95和ASSD等边界指标上也更好，说明它不仅区域重叠率更高，边界质量也更稳定。

表4：不同方法在Abd-CT Setting 2下的定量比较

可视化结果分析

从下面图4可视化结果看，SD-FSMIS在Abd-MRI和Abd-CT上都能生成较完整的器官分割mask。相比DiffewS，SD-FSMIS在器官边界、局部结构一致性以及复杂背景下的目标定位方面表现更稳定。

在跨域场景中，模型仍然能够较好地定位目标器官，说明其并不是简单记忆某一数据集的强度分布，而是借助更通用的形状、纹理和上下文先验来完成分割。

图 4：SD-FSMIS 与 DiffewS 在 Abd-MRI 和 Abd-CT 数据集上的定性分割结果对比

消融实验

文章进一步分析了不同组件对性能的贡献。如表格5结果显示，以Abd-CT设置1为例，仅使用基础支持信息注入时，模型平均Dice为80.11%；加入Query Enhancement后提升到83.17%；加入VTCT模块后提升到82.27%；完整模型达到83.66%。

这一结果说明，两个模块并非简单叠加，而是具有互补作用：一个增强support-query之间的视觉交互，另一个利用类文本条件更好地激活Stable Diffusion的条件建模能力。最终完整框架取得最佳表现。

表5：SD-FSMIS 在 Abd-CT Setting 1 下不同组件的消融实验结果

VAE重建验证

作者验证了Stable Diffusion的VAE是否能够较好重建医学图像和mask。表6结果显示，在Abd-MRI和Abd-CT上，VAE对图像和掩膜都取得较低MSE以及较高PSNR/SSIM，说明其潜空间能够保留医学图像中的结构和纹理信息。

表6：Abd-MRI和 Abd-CT数据集上的VAE重建质量评估

Discussion

总体来看，SD-FSMIS的价值不只是将Stable Diffusion引入少样本医学图像分割，更重要的是展示了扩散基础模型在数据高效医学分割中的更大潜力。

首先，Stable Diffusion有望进一步发展为统一的生成—判别框架。当前方法主要利用其预训练视觉先验完成查询图像掩膜预测，而扩散模型本身还具备强大的数据生成能力。未来可以探索让模型一方面生成结构合理的合成医学图像及对应掩膜，扩展少样本训练数据；另一方面直接承担分割任务。相比传统数据增强，这种方式能够在潜空间中生成更具解剖合理性和任务相关性的样本，从而为少样本分割提供更丰富、更可控的监督信号。

其次，SD-FSMIS也启发我们重新思考支持集—查询集交互中“位置先验”和“语义信息”的作用。医学图像中的器官通常具有相对稳定的解剖位置，但真正支持跨模态、跨中心泛化的，可能是更稳定的目标语义与形态表征。未来如果能够将位置约束与语义表示进一步解耦，一部分模块学习跨模态一致的器官语义，另一部分模块建模可变的解剖空间关系，将有助于提升模型在更复杂模态迁移场景中的适应能力。

此外，该工作也为弱监督和伪标签适配提供了新的思路。医学图像的像素级密集标注成本高、获取难，而具有强视觉先验的基础模型有望降低对高质量人工标注的依赖。结合伪标签生成、可靠性筛选、少量人工修正和自训练策略，未来少样本医学图像分割可能从“少量精确标注样本”进一步走向“强基础模型先验+少量标注+可控伪标签”的实用流程。

因此，SD-FSMIS的意义不仅在于提升少样本医学图像分割性能，更在于提示了一条新的研究方向：通过生成能力、语义—位置解耦和弱监督适配，将扩散基础模型构建为更加通用、鲁棒且数据高效的医学图像分割框架。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章