0
| 本文作者: 陈淑瑜 | 2026-05-28 18:05 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“GEM Group”
原文链接:https://mp.weixin.qq.com/s/F8NXE_UPXfEsz_lCY4qNAQ?scene=1&click_id=184
IMCL实验室文献分享会
在本期 Journal Club 中,黄强同学分享了 CVPR 2026 论文 Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding。该工作面向超声图像-文本理解任务,提出了一种语义感知的对比预训练框架,尝试将超声诊断知识和结构化医学语义引入视觉-语言模型训练中。


近年来,CLIP 及其医学版本已经在图像-文本理解任务中取得了较好的效果。然而,直接将通用 CLIP 或泛医学 CLIP 应用于超声图像理解,仍然面临明显挑战。
首先是 数据缺口。现有医学跨模态数据集大多集中在 CT、MRI、病理图像或通用放射影像,超声图像在其中占比很低。虽然超声在临床中使用非常广泛,但在医学视觉-语言预训练中,超声图文数据仍然相对不足。
其次是 语义歧义。自然图像中的文本描述通常较为直观,例如 “a dog” 或 “a car”。但超声报告往往包含大量专业医学属性,例如“低回声结节”“边界清楚”“后方回声增强”“少量周边血流”等。同一个病灶可能存在多种表达方式,不同样本之间也可能共享部分医学语义。
传统 CLIP 通常将一对图文视为正样本,将 batch 中其他样本全部视为负样本。但在超声场景下,这种二值化正负样本划分过于粗糙。两个样本虽然不是同一个病例,却可能在器官、病灶形态或回声特征上高度相似。
第三是 结构先验缺失。医生进行超声诊断时,并不是孤立地看某个关键词,而是综合器官位置、病灶形态、边界、回声、血流等多个属性进行判断。标准 CLIP 只是把文本编码成一个整体向量,并没有显式建模“诊断—属性”之间的临床关系。
因此,论文认为:要让模型真正理解超声图文关系,仅仅进行图像和文本的表层匹配是不够的,还需要引入超声领域知识和结构化诊断语义

论文首先提出了一个超声诊断知识框架 UDT(Ultrasonographic Diagnostic Taxonomy)。UDT 可以理解为一个面向超声诊断的结构化知识框架,由两个部分组成:UHAT 和 UDAF。
UHAT(Ultrasonographic Hierarchical Anatomical Taxonomy) 用于统一超声解剖结构层级。论文将超声数据组织到 9 大身体系统和 52 个器官中,形成从身体系统到器官的层级结构,从而减少不同数据源之间解剖标签不一致的问题。
UDAF(Ultrasonographic Diagnostic Attribute Framework) 则用于拆解超声报告中的诊断属性。作者将超声报告整理为 9 个诊断维度,包括身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号。
例如,一个病灶可以被描述为:某个器官上的低回声病灶,边界清楚,后方回声增强,并伴有少量周边血流。这些属性并不是孤立信息,而是共同构成临床诊断依据。
因此,UDT 的核心作用是:将原本自由文本形式的超声报告,转化为结构化、可学习的医学语义标签。

例如,样本 A 和 B 可能都属于低回声结节,但来自不同器官;样本 A 和 C 可能来自同一器官,但病灶不同;样本 A 和 D 可能完全不同。传统 CLIP 会把 B、C、D 都视为 A 的负样本,但 Ultrasound-CLIP 会根据它们在诊断属性上的相似程度,给予不同的语义相似度。
这样,模型不再简单地认为非配对样本都是完全负样本,而是能够学习“部分相似”和“完全不相似”之间的差别。
第二个设计是 异质图编码器。作者将每个样本的 UDAF 标签组织成一个 lesion-attribute graph。图中包括诊断节点和属性节点,并在诊断节点与属性节点之间建立连接。
例如,一个样本可能包含 diagnosis、organ、shape、margin、echogenicity、posterior acoustic phenomenon 和 vascularity 等标签。普通文本编码器会将这些标签当作一段文本处理,而 Ultrasound-CLIP 将这些标签组织成图结构,再通过异质图神经网络建模诊断属性之间的关系。
随后,图表示通过 cross-attention 融入文本 embedding 中,使文本编码器不只是理解一句话,而是理解一个带有医学结构关系的诊断图谱。
在训练目标上,Ultrasound-CLIP 同时使用标准 CLIP 损失和语义损失。标准 CLIP 损失负责基础的图像-文本对齐;语义损失则让模型预测的图文相似度矩阵接近 UDAF 构建的语义先验矩阵。
也就是说,模型不仅要学会哪张图对应哪段文本,还要学会哪些样本在超声诊断语义上更加相似。

实验部分主要验证三个问题:第一,Ultrasound-CLIP 是否优于现有 CLIP 和医学 CLIP 模型;第二,语义软标签和异质图编码器是否有效;第三,预训练得到的表示是否能够迁移到下游超声任务。
在 US-365K 上,作者首先进行了多任务分类实验。分类任务对应 UDAF 的 9 个诊断维度,包括身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号。
结果显示,Ultrasound-CLIP 的平均分类准确率达到 59.61%。在关键临床属性上,例如病灶边界和诊断类别,准确率分别达到 84.44% 和 64.05%。这说明模型不只是学习到了粗粒度类别,而是在细粒度超声诊断属性上也具有较好的识别能力。

在图文检索任务中,Ultrasound-CLIP 在 Image-to-Text 和 Text-to-Image 两个方向上均优于通用 CLIP 和医学 CLIP 基线,说明模型学习到了更有效的超声图文共享表示空间。
消融实验进一步证明了两个核心模块的作用。去掉语义损失或去掉图编码器后,模型性能都会下降;完整模型效果最好。这说明语义软标签和异质图编码器是互补的:前者缓解了传统 CLIP 的硬负样本问题,后者增强了模型对诊断属性关系的建模能力。

此外,作者还在多个公开下游超声数据集上进行了 zero-shot、linear probe 和 full fine-tuning 测试。结果表明,Ultrasound-CLIP 在不同设置下均具有较好的迁移能力,说明在 US-365K 上学到的表示可以泛化到其他超声临床场景。

论文还通过可视化分析展示了异质图编码器的作用。在没有 graph encoder 时,不同诊断类别的文本 embedding 混杂在一起;加入 UDAF-guided graph encoder 后,不同类别的聚类更加清晰。这说明图编码器可以帮助模型减少细粒度临床概念之间的歧义,使表示空间更具判别性。

在 case study 中,模型不仅能够预测诊断类别,还可以围绕器官、形状、边界、内部特征、血流信号等多个维度给出判断。这种多属性联合判断方式更接近真实临床诊断逻辑,因为医生并不是只判断“是什么病”,而是综合病灶位置、形态、边界、回声和血流等信息进行分析。
总结
总体来看,Ultrasound-CLIP 的贡献主要体现在三个方面。首先,作者构建了面向超声领域的大规模图文数据集 US-365K,弥补了超声数据在医学视觉-语言预训练中的不足。其次,论文提出 UDT 超声诊断知识框架,将超声报告拆解为身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号等结构化属性。最后,作者在 CLIP 框架中引入语义软标签和异质图编码器,使模型不仅学习图像与文本的匹配关系,也能建模样本之间的医学语义相似性和诊断属性之间的结构关系。
这项工作说明,在医学多模态建模中,仅依赖通用图文匹配并不足够。对于超声这类高度依赖专业知识和细粒度属性判断的医学影像任务,将领域知识、诊断结构和语义关系显式融入预训练过程,是提升模型临床理解能力的重要方向。当然,该方法仍需在更多真实临床场景、多中心数据和不同设备条件下进一步验证其泛化能力与可靠性。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
本专题其他文章