文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

本文作者：陈淑瑜

2026-05-28 18:05

导语：对于超声这类高度依赖专业知识和细粒度属性判断的医学影像任务，将领域知识、诊断结构和语义关系显式融入预训练过程，是提升模型临床理解能力的重要方向。

来源：公众号“GEM Group”

原文链接：https://mp.weixin.qq.com/s/F8NXE_UPXfEsz_lCY4qNAQ?scene=1&click_id=184

IMCL实验室文献分享会

在本期 Journal Club 中，黄强同学分享了 CVPR 2026 论文 Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding。该工作面向超声图像-文本理解任务，提出了一种语义感知的对比预训练框架，尝试将超声诊断知识和结构化医学语义引入视觉-语言模型训练中。

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

Part.1

研究背景

近年来，CLIP 及其医学版本已经在图像-文本理解任务中取得了较好的效果。然而，直接将通用 CLIP 或泛医学 CLIP 应用于超声图像理解，仍然面临明显挑战。

首先是数据缺口。现有医学跨模态数据集大多集中在 CT、MRI、病理图像或通用放射影像，超声图像在其中占比很低。虽然超声在临床中使用非常广泛，但在医学视觉-语言预训练中，超声图文数据仍然相对不足。

其次是语义歧义。自然图像中的文本描述通常较为直观，例如 “a dog” 或 “a car”。但超声报告往往包含大量专业医学属性，例如“低回声结节”“边界清楚”“后方回声增强”“少量周边血流”等。同一个病灶可能存在多种表达方式，不同样本之间也可能共享部分医学语义。

传统 CLIP 通常将一对图文视为正样本，将 batch 中其他样本全部视为负样本。但在超声场景下，这种二值化正负样本划分过于粗糙。两个样本虽然不是同一个病例，却可能在器官、病灶形态或回声特征上高度相似。

第三是结构先验缺失。医生进行超声诊断时，并不是孤立地看某个关键词，而是综合器官位置、病灶形态、边界、回声、血流等多个属性进行判断。标准 CLIP 只是把文本编码成一个整体向量，并没有显式建模“诊断—属性”之间的临床关系。

因此，论文认为：要让模型真正理解超声图文关系，仅仅进行图像和文本的表层匹配是不够的，还需要引入超声领域知识和结构化诊断语义

Part.2

研究方法

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

论文首先提出了一个超声诊断知识框架 UDT（Ultrasonographic Diagnostic Taxonomy）。UDT 可以理解为一个面向超声诊断的结构化知识框架，由两个部分组成：UHAT 和 UDAF。

UHAT（Ultrasonographic Hierarchical Anatomical Taxonomy）用于统一超声解剖结构层级。论文将超声数据组织到 9 大身体系统和 52 个器官中，形成从身体系统到器官的层级结构，从而减少不同数据源之间解剖标签不一致的问题。

UDAF（Ultrasonographic Diagnostic Attribute Framework）则用于拆解超声报告中的诊断属性。作者将超声报告整理为 9 个诊断维度，包括身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号。

例如，一个病灶可以被描述为：某个器官上的低回声病灶，边界清楚，后方回声增强，并伴有少量周边血流。这些属性并不是孤立信息，而是共同构成临床诊断依据。

因此，UDT 的核心作用是：将原本自由文本形式的超声报告，转化为结构化、可学习的医学语义标签。

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

例如，样本 A 和 B 可能都属于低回声结节，但来自不同器官；样本 A 和 C 可能来自同一器官，但病灶不同；样本 A 和 D 可能完全不同。传统 CLIP 会把 B、C、D 都视为 A 的负样本，但 Ultrasound-CLIP 会根据它们在诊断属性上的相似程度，给予不同的语义相似度。

这样，模型不再简单地认为非配对样本都是完全负样本，而是能够学习“部分相似”和“完全不相似”之间的差别。

第二个设计是异质图编码器。作者将每个样本的 UDAF 标签组织成一个 lesion-attribute graph。图中包括诊断节点和属性节点，并在诊断节点与属性节点之间建立连接。

例如，一个样本可能包含 diagnosis、organ、shape、margin、echogenicity、posterior acoustic phenomenon 和 vascularity 等标签。普通文本编码器会将这些标签当作一段文本处理，而 Ultrasound-CLIP 将这些标签组织成图结构，再通过异质图神经网络建模诊断属性之间的关系。

随后，图表示通过 cross-attention 融入文本 embedding 中，使文本编码器不只是理解一句话，而是理解一个带有医学结构关系的诊断图谱。

在训练目标上，Ultrasound-CLIP 同时使用标准 CLIP 损失和语义损失。标准 CLIP 损失负责基础的图像-文本对齐；语义损失则让模型预测的图文相似度矩阵接近 UDAF 构建的语义先验矩阵。

也就是说，模型不仅要学会哪张图对应哪段文本，还要学会哪些样本在超声诊断语义上更加相似。

Part.3

实验结果

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

实验部分主要验证三个问题：第一，Ultrasound-CLIP 是否优于现有 CLIP 和医学 CLIP 模型；第二，语义软标签和异质图编码器是否有效；第三，预训练得到的表示是否能够迁移到下游超声任务。

在 US-365K 上，作者首先进行了多任务分类实验。分类任务对应 UDAF 的 9 个诊断维度，包括身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号。

结果显示，Ultrasound-CLIP 的平均分类准确率达到 59.61%。在关键临床属性上，例如病灶边界和诊断类别，准确率分别达到 84.44% 和 64.05%。这说明模型不只是学习到了粗粒度类别，而是在细粒度超声诊断属性上也具有较好的识别能力。

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

在图文检索任务中，Ultrasound-CLIP 在 Image-to-Text 和 Text-to-Image 两个方向上均优于通用 CLIP 和医学 CLIP 基线，说明模型学习到了更有效的超声图文共享表示空间。

消融实验进一步证明了两个核心模块的作用。去掉语义损失或去掉图编码器后，模型性能都会下降；完整模型效果最好。这说明语义软标签和异质图编码器是互补的：前者缓解了传统 CLIP 的硬负样本问题，后者增强了模型对诊断属性关系的建模能力。

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

此外，作者还在多个公开下游超声数据集上进行了 zero-shot、linear probe 和 full fine-tuning 测试。结果表明，Ultrasound-CLIP 在不同设置下均具有较好的迁移能力，说明在 US-365K 上学到的表示可以泛化到其他超声临床场景。

论文还通过可视化分析展示了异质图编码器的作用。在没有 graph encoder 时，不同诊断类别的文本 embedding 混杂在一起；加入 UDAF-guided graph encoder 后，不同类别的聚类更加清晰。这说明图编码器可以帮助模型减少细粒度临床概念之间的歧义，使表示空间更具判别性。

文献分享 | CVPR 2026 | Ultrasound-CLIP：让视觉-语言模型真正读懂超声图像与报告

在 case study 中，模型不仅能够预测诊断类别，还可以围绕器官、形状、边界、内部特征、血流信号等多个维度给出判断。这种多属性联合判断方式更接近真实临床诊断逻辑，因为医生并不是只判断“是什么病”，而是综合病灶位置、形态、边界、回声和血流等信息进行分析。

总结

总体来看，Ultrasound-CLIP 的贡献主要体现在三个方面。首先，作者构建了面向超声领域的大规模图文数据集 US-365K，弥补了超声数据在医学视觉-语言预训练中的不足。其次，论文提出 UDT 超声诊断知识框架，将超声报告拆解为身体系统、器官、诊断、形状、边界、回声、内部特征、后方声学现象和血流信号等结构化属性。最后，作者在 CLIP 框架中引入语义软标签和异质图编码器，使模型不仅学习图像与文本的匹配关系，也能建模样本之间的医学语义相似性和诊断属性之间的结构关系。

这项工作说明，在医学多模态建模中，仅依赖通用图文匹配并不足够。对于超声这类高度依赖专业知识和细粒度属性判断的医学影像任务，将领域知识、诊断结构和语义关系显式融入预训练过程，是提升模型临床理解能力的重要方向。当然，该方法仍需在更多真实临床场景、多中心数据和不同设备条件下进一步验证其泛化能力与可靠性。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章