CVPR2026 | 医学分割不再只认一个答案：新模型学会理解医生分歧

本文作者：陈淑瑜

2026-06-02 18:04

导语：本文提出一个新的框架：Harmonizer Network，目标是在多标注者医学分割中同时解决“设备/噪声差异”和“医生标注风格差异”。

来源：公众号“智能CV”

原文链接：https://mp.weixin.qq.com/s/3Ffpo_6rwTspweLdk5RiWw?scene=1&click_id=37

论文：https://arxiv.org/pdf/2605.08210

代码：https://github.com/sanazkarimi/harmonizer

一、研究方向及背景

这篇论文聚焦于多标注者医学图像分割。在医学影像中，不同医生对同一病灶边界的判断常常并不完全一致，例如肺结节、鼻咽癌肿瘤区域等任务中，病灶边界模糊、影像质量差异、医生经验不同，都会导致标注结果存在明显差异。

传统方法通常会把多个医生的标注通过多数投票、平均融合或 STAPLE 等方式合成为一个“共识标签”。但这类做法会压缩掉专家之间真实存在的差异，使模型过度自信，无法表达临床不确定性。近年来的概率分割方法，如 Probabilistic U-Net、D-Persona 等，开始尝试建模多种可能的分割结果，但仍存在两个问题：

扫描仪噪声、成像伪影与真实标注差异容易混在一起
，导致模型把设备噪声误认为临床不确定性。
个体医生的标注风格建模不充分
，例如有的医生边界画得更保守，有的医生对纹理或边缘更敏感。

因此，本文提出一个新的框架：Harmonizer Network，目标是在多标注者医学分割中同时解决“设备/噪声差异”和“医生标注风格差异”。

二、研究方法或创新点

本文的整体框架如图1所示。模型以 Probabilistic U-Net 为基础，加入两个关键模块：Noise Harmonizer 和 Frequency-Prompt Personalization Module，并使用 GED 损失约束预测分布与真实多医生标注分布的一致性。

1. Noise Harmonizer：先消除成像噪声带来的干扰

图1展示了 Harmonizer Network 的主干结构。输入医学图像经过编码器、潜变量空间和解码器生成分割结果。在解码器不同层中，作者插入了 Harmonizer 模块，对特征进行动态调制。

其核心思想是：
模型不应把扫描仪差异、运动伪影、强度漂移等成像问题误认为医生之间的诊断差异。因此，作者设计了一个轻量级的 Noise Harmonizer，通过学习一组“伪影 token”，对不同层的特征生成调制参数：

其中，γl和βl用于对当前层特征进行缩放和平移。这样模型可以在潜空间中获得更加稳定、去噪、跨扫描仪一致的表示。

这一模块的作用可以概括为：
先把设备和采集噪声压下去，再让模型去学习真正有临床意义的标注不确定性。

2. 频率域个性化：用高频信息建模医生标注风格

本文第二个重要创新是 High-Frequency Prompt / Frequency-Prompt Personalization Module，结构见图2。

作者认为，不同医生的分割风格往往体现在高频细节上，例如：

边界是否更锐利；
是否包含模糊边缘区域；
对纹理变化是否敏感；
病灶外扩或收缩的倾向。

因此，作者没有只在普通空间特征上做个性化，而是使用 离散小波变换 DWT 将特征分解为低频和高频子带：

X_{LL}：低频结构信息，主要表示整体形状；
X_{LH}, X_{HL}, X_{HH}：高频信息，主要表示边缘、纹理和细节。

随后模型通过 Rater-Aware Prompt Projection，RAPP 生成与具体标注者相关的频率提示，再通过注意力机制调制高频特征。最后利用 IDWT 还原为完整特征，并生成医生个性化的潜变量 z′。

简单说，图2说明了本文如何把“医生风格”转化为频率域提示，使模型能够生成不同医生风格下的个性化分割结果。

3. GED 损失：让模型学到“多种合理分割”

本文还使用 Generalized Energy Distance，GED 作为分布对齐损失。它衡量模型生成的多个预测分割与真实多个医生标注之间的分布距离。

GED 损失由两部分组成：

让模型生成的分割靠近真实专家标注；
保持生成结果之间的多样性，避免模型塌缩成单一共识分割。

因此，GED 的作用是让模型做到：

专家一致的地方，模型也更确定；
专家分歧大的地方，模型保留多样性和不确定性。

4. 两阶段训练策略

本文采用两阶段训练：

第一阶段训练 Probabilistic U-Net 主干和 Noise Harmonizer，目标是学习稳定、去噪、跨设备一致的潜空间表示。

第二阶段冻结主干和 Harmonizer，只训练频率个性化模块，使其学习不同医生的标注风格。

这种设计避免了个性化模块直接学习到设备噪声，从而更好地区分“成像噪声”和“医生差异”。

三、实验结果

本文主要在两个多标注者医学图像分割数据集上验证方法：

LIDC-IDRI
：肺结节 CT 分割数据集，最多包含 4 位放射科医生标注。
NPC-170
：鼻咽癌 MRI 分割数据集，包含 4 位放疗专家对肿瘤区域的标注。

1. 分布拟合与多样性结果：表1

表1比较了 Probabilistic U-Net、D-Persona 和本文方法在 LIDC-IDRI 与 NPC-170 上的 GED、Soft Dice、Dice max、Dice match 等指标。

在 LIDC-IDRI 上，当采样数为 50 时：

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑
Prob. U-Net	0.2168	88.80	88.87	88.81
D-Persona	0.1358	90.45	91.37	91.33
Harmonizer Network	0.1048	91.81	92.28	91.94

在 NPC-170 上，本文方法同样取得最低 GED：

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑
Prob. U-Net	0.3528	81.19	84.19	80.13
D-Persona	0.1978	84.01	82.79	81.69
Harmonizer Network	0.1758	84.83	82.26	82.65

这说明本文方法能够更好地拟合真实多医生标注分布，生成的分割结果既有多样性，又不会偏离合理解剖结构。

2. 个性化分割结果：表2与表3

表2展示了 LIDC-IDRI 上的个性化分割结果。本文方法在平均个性化 Dice 上达到 90.78%，高于 D-Persona 的 89.17%。

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑	Dice mean ↑
D-Persona	0.1444	90.31	90.38	89.17	89.17
Harmonizer Network	0.1419	91.35	92.65	90.00	90.78

表3展示了 NPC-170 上的结果。本文方法的平均个性化 Dice 为 81.63%，优于 D-Persona 的 80.40%。

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑	Dice mean ↑
D-Persona	0.2970	82.30	81.60	80.50	80.40
Harmonizer Network	0.2685	83.10	84.46	81.63	81.63

这些结果表明，频率域提示确实能更好捕捉不同医生的边界风格，而不是简单生成随机多样化结果。

3. 可视化结果：图3

图3展示了 LIDC-IDRI 和 NPC-170 上的多医生标注、模型预测和误差图。红色边界表示真实标注，蓝色边界表示模型预测。

从图3可以看出，本文方法在边界模糊、医生意见不一致的区域，能够生成较合理的个性化轮廓；在医生一致性较高的区域，预测边界也更加稳定。这说明模型的不确定性主要集中在真实存在争议的区域，而不是随机噪声区域。

4. 鲁棒性与补充实验

补充材料中还验证了方法在不同扰动下的鲁棒性，包括高斯噪声、模糊、亮度/对比度扰动等。表5显示，在强高斯噪声 σ=0.25下：

方法	DSC ↑	Dice 下降 ↓
Prob. U-Net	73.22	15.87
D-Persona	71.11	18.06
Harmonizer	84.27	6.53

这说明 Noise Harmonizer 对成像噪声确实有抑制作用。

此外，图10展示了频率模块前后的频谱响应。加入频率适配器后，高频响应明显增强，说明该模块确实强化了边界和纹理细节，有助于个性化分割。

四、总结

这篇论文提出的 Harmonizer Network 解决了多标注者医学图像分割中的两个关键问题：一是成像设备和噪声导致的伪不确定性，二是医生个体标注风格带来的真实不确定性。

其核心贡献可以概括为三点：

第一，提出 Noise Harmonizer，通过动态特征调制抑制扫描仪和采集噪声，使潜空间更加稳定，避免模型把噪声误认为临床差异。

第二，提出 频率域个性化提示模块，利用小波变换提取高频边界与纹理信息，从而更细致地建模不同医生的标注习惯。

第三，引入 GED 分布约束，让模型预测分布与真实多医生标注分布对齐，在专家一致区域保持确定性，在专家分歧区域保留多样性。

整体来看，本文方法不仅提升了分割精度，也增强了医学分割模型的可解释性和临床可信度。它的意义不只是“分得更准”，而是让模型能够回答一个更临床化的问题：不同医生为什么会分得不一样，模型又该如何合理表达这种不确定性。

0人收藏

陈淑瑜

编辑

发私信

当月热门文章