0
| 本文作者: 陈淑瑜 | 2026-06-02 18:04 |
来源:公众号“智能CV”
原文链接:https://mp.weixin.qq.com/s/3Ffpo_6rwTspweLdk5RiWw?scene=1&click_id=37

这篇论文聚焦于多标注者医学图像分割。在医学影像中,不同医生对同一病灶边界的判断常常并不完全一致,例如肺结节、鼻咽癌肿瘤区域等任务中,病灶边界模糊、影像质量差异、医生经验不同,都会导致标注结果存在明显差异。
传统方法通常会把多个医生的标注通过多数投票、平均融合或 STAPLE 等方式合成为一个“共识标签”。但这类做法会压缩掉专家之间真实存在的差异,使模型过度自信,无法表达临床不确定性。近年来的概率分割方法,如 Probabilistic U-Net、D-Persona 等,开始尝试建模多种可能的分割结果,但仍存在两个问题:
扫描仪噪声、成像伪影与真实标注差异容易混在一起
个体医生的标注风格建模不充分
因此,本文提出一个新的框架:Harmonizer Network,目标是在多标注者医学分割中同时解决“设备/噪声差异”和“医生标注风格差异”。

本文的整体框架如图1所示。模型以 Probabilistic U-Net 为基础,加入两个关键模块:Noise Harmonizer 和 Frequency-Prompt Personalization Module,并使用 GED 损失约束预测分布与真实多医生标注分布的一致性。
图1展示了 Harmonizer Network 的主干结构。输入医学图像经过编码器、潜变量空间和解码器生成分割结果。在解码器不同层中,作者插入了 Harmonizer 模块,对特征进行动态调制。
其核心思想是:
模型不应把扫描仪差异、运动伪影、强度漂移等成像问题误认为医生之间的诊断差异。因此,作者设计了一个轻量级的 Noise Harmonizer,通过学习一组“伪影 token”,对不同层的特征生成调制参数:

其中,
这一模块的作用可以概括为:
先把设备和采集噪声压下去,再让模型去学习真正有临床意义的标注不确定性。
本文第二个重要创新是 High-Frequency Prompt / Frequency-Prompt Personalization Module,结构见图2。

作者认为,不同医生的分割风格往往体现在高频细节上,例如:
因此,作者没有只在普通空间特征上做个性化,而是使用 离散小波变换 DWT 将特征分解为低频和高频子带:
随后模型通过 Rater-Aware Prompt Projection,RAPP 生成与具体标注者相关的频率提示,再通过注意力机制调制高频特征。最后利用 IDWT 还原为完整特征,并生成医生个性化的潜变量
简单说,图2说明了本文如何把“医生风格”转化为频率域提示,使模型能够生成不同医生风格下的个性化分割结果。
本文还使用 Generalized Energy Distance,GED 作为分布对齐损失。它衡量模型生成的多个预测分割与真实多个医生标注之间的分布距离。
GED 损失由两部分组成:
因此,GED 的作用是让模型做到:
本文采用两阶段训练:
第一阶段训练 Probabilistic U-Net 主干和 Noise Harmonizer,目标是学习稳定、去噪、跨设备一致的潜空间表示。
第二阶段冻结主干和 Harmonizer,只训练频率个性化模块,使其学习不同医生的标注风格。
这种设计避免了个性化模块直接学习到设备噪声,从而更好地区分“成像噪声”和“医生差异”。

本文主要在两个多标注者医学图像分割数据集上验证方法:
LIDC-IDRI
NPC-170
表1比较了 Probabilistic U-Net、D-Persona 和本文方法在 LIDC-IDRI 与 NPC-170 上的 GED、Soft Dice、Dice max、Dice match 等指标。
在 LIDC-IDRI 上,当采样数为 50 时:
| 0.1048 | 91.81 | 92.28 | 91.94 |
在 NPC-170 上,本文方法同样取得最低 GED:
| 0.1758 | 84.83 | 82.65 |
这说明本文方法能够更好地拟合真实多医生标注分布,生成的分割结果既有多样性,又不会偏离合理解剖结构。

表2展示了 LIDC-IDRI 上的个性化分割结果。本文方法在平均个性化 Dice 上达到 90.78%,高于 D-Persona 的 89.17%。
| 0.1419 | 91.35 | 92.65 | 90.00 | 90.78 |
表3展示了 NPC-170 上的结果。本文方法的平均个性化 Dice 为 81.63%,优于 D-Persona 的 80.40%。
| 0.2685 | 83.10 | 84.46 | 81.63 | 81.63 |
这些结果表明,频率域提示确实能更好捕捉不同医生的边界风格,而不是简单生成随机多样化结果。
图3展示了 LIDC-IDRI 和 NPC-170 上的多医生标注、模型预测和误差图。红色边界表示真实标注,蓝色边界表示模型预测。
从图3可以看出,本文方法在边界模糊、医生意见不一致的区域,能够生成较合理的个性化轮廓;在医生一致性较高的区域,预测边界也更加稳定。这说明模型的不确定性主要集中在真实存在争议的区域,而不是随机噪声区域。
补充材料中还验证了方法在不同扰动下的鲁棒性,包括高斯噪声、模糊、亮度/对比度扰动等。表5显示,在强高斯噪声
| 84.27 | 6.53 |
这说明 Noise Harmonizer 对成像噪声确实有抑制作用。
此外,图10展示了频率模块前后的频谱响应。加入频率适配器后,高频响应明显增强,说明该模块确实强化了边界和纹理细节,有助于个性化分割。
这篇论文提出的 Harmonizer Network 解决了多标注者医学图像分割中的两个关键问题:一是成像设备和噪声导致的伪不确定性,二是医生个体标注风格带来的真实不确定性。
其核心贡献可以概括为三点:
第一,提出 Noise Harmonizer,通过动态特征调制抑制扫描仪和采集噪声,使潜空间更加稳定,避免模型把噪声误认为临床差异。
第二,提出 频率域个性化提示模块,利用小波变换提取高频边界与纹理信息,从而更细致地建模不同医生的标注习惯。
第三,引入 GED 分布约束,让模型预测分布与真实多医生标注分布对齐,在专家一致区域保持确定性,在专家分歧区域保留多样性。
整体来看,本文方法不仅提升了分割精度,也增强了医学分割模型的可解释性和临床可信度。它的意义不只是“分得更准”,而是让模型能够回答一个更临床化的问题:不同医生为什么会分得不一样,模型又该如何合理表达这种不确定性。