Nature：为高维度医学成像设计可临床转化的人工智能系统

本文作者：我在思考中

2021-12-20 11:43

导语：解决可解释性、不确定性和偏见的方法应是所有临床机器学习系统的核心。

编译 | 王晔

编辑 | 青暮

本文来自于《 nature machine intelligence》。作者Rohan Shad是Hiesinger实验室心胸外科系博士后研究员。他和团队为心血管成像（超声心动图和心脏 MRI）构建新型计算机视觉系统，并且使用转录组学和蛋白质设计研究心脏病的潜在机制，为严重心力衰竭患者设计设备。

文中探讨了高维临床影像数据所面临的特有挑战，并强调了开发机器学习系统所涉及的一些技术和伦理方面的考虑，更好地体现了影像模式的高维性质。此外，他们认为尝试解决可解释性、不确定性和偏见的方法应被视为所有临床机器学习系统的核心组成部分。

原文链接：https://www.nature.com/articles/s42256-021-00399-8

2018年，美国国家卫生研究院确定将人工智能纳入医学成像未来发展的重点领域，并且为图像采集、算法、数据标准化和可转化的临床决策支持系统的研究制定了基础路线。

报告中提到，尽管数据的可用性、对新型计算架构的需求和可解释的人工智能算法等在过去几年已经取得了巨大的进展，但目前仍然是一个关键性问题。

此外，在早期的开发过程中，还必须考虑到数据共享的转化目标、为监管部门批准而进行的性能验证、可推广性以及减轻无意的偏见等问题。

主旨

算力的提高、深度学习架构和专家标记数据集的进步刺激了医学影像人工智能（AI）系统的发展。

然而，应用人工智能系统来协助完成临床任务是非常具有挑战性的。机器学习算法的目的是减少临床推断所需的时间。但在临床中进行应用，有可能无意中会延误患者的治疗。当离开可控制的实验室环境时，人工智能系统的终端用户必须能够控制输入质量，并且能够解决网络延迟等问题，设计出将这些系统整合到既定临床实践中的方法。

早期对可转换的临床机器学习的尝试表明，设计的系统要在既定的临床工作流程中正常工作，就必须要在算法开发之初就做出大量的整合努力。因为在未来部署该系统时，迭代的机会非常有限。

随着开源机器学习软件库的日益增多和计算机性能的不断进步，研究人员越来越容易开发出复杂的针对特定临床问题的人工智能系统。除了检测疾病诊断的特征外，下一代人工智能系统必须考虑训练数据的系统偏见，更为直观地提醒终端用户预测中固有的不确定性，并允许用户能够探索和解释预测的机制。

该观点以这些关键的优先领域为基础，以加速医学领域的基础人工智能研究。我们概述了数据集的细微差别和高维医学成像机器学习的具体架构注意事项，同时讨论了这些系统的可解释性、不确定性和偏差。在此过程中，我们为有兴趣解决构建临床可翻译 AI 系统，所带来的一些问题和挑战的研究人员提供了一个模板。

高维医学影像数据

我们预计，在可预见的未来，可用的高质量 "AI-ready "注释的医学数据集将仍然不能满足需求。回过头来分配临床事实标签需要临床专家投入大量的时间，而且将多机构的数据汇总起来公开发布也存在很大的障碍。除了需要以在硬放射学真实标签上训练的模型为特征的“诊断人工智能”之外，还需要根据潜在的更复杂的临床综合结果目标训练的 "疾病预测人工智能 "。具有标准化的图像采集协议和临床基本事实裁决的前瞻性数据收集，是构建具有配对临床结果的大规模多中心成像数据集的必要步骤。

大规模的多中心成像数据集会产生许多隐私和责任问题，这些问题与文件中嵌入的潜在敏感数据有关。医学数字成像和通信（DICOM）标准普遍被用来捕获、存储和提供医学图像的工作流程管理。成像文件（以.dcm文件或嵌套文件夹结构的形式存储）包含像素数据和相关元数据。众多的开源和专有工具可以帮助对 DICOM 文件进行去识别化。后端医院信息学框架，如Google Healthcare API，是一种清除可能包含敏感信息的元数据域的方法，也通过 "安全列表 "支持DICOM去标识化。

在面向用户方面，MIRC 临床试验处理器匿名器是一种流行的替代方法，尽管它需要使用某些遗留软件。有据可查的Python软件包（如pydicom）也可用于在使用或转给合作机构之前处理DICOM文件。然后可以提取成像数据并以各种机器可读格式存储。这些数据集可以迅速变得庞大且笨拙，虽然数据存储格式的细节超出了本观点的讨论范围，但医学成像 AI 的一个关键考虑因素是图像分辨率的保留。

自动去识别方法或脚本经常被提及的一个缺点是受保护的健康信息有可能被 "刻录 "在影像文件中。尽管有DICOM标准，但制造商的不同，使得难以通过 MIRC 临床试验处理器等工具来生成简单的规则，以屏蔽可能位于受保护健康信息的区域。我们建议使用一个简单的机器学习系统来屏蔽 "烧录 "的受保护健康信息。

以超声心动图为例，有一个预定义的扫描区域，在那里可以看到心脏。其他潜在的选择是基于机器学习的光学字符识别工具，以识别和屏蔽有印刷文本的区域。DICOM标签本身可用于提取扫描级信息和特定模式的标签。例如，在超声心动图和心脏磁共振成像 (MRI) 的情况下，可以轻松地从 DICOM 元数据中提取重要的扫描级别信息，例如采集帧速率和日期或 MRI 序列 (T1/T2)。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图1：基于云的协作式注释工作流程。基于云的工具可用于生成专家注释数据集，并通过安全连接与临床专家进行评估。图为MD.ai的一个实施方案，其中临床专家进行各种 2D 检测以测评心脏功能。

对于涉及人工智能系统与临床医生进行正面基准测试的研究工作，或在临床注释者的帮助下策划大型数据集，我们建议以DICOM格式存储扫描的副本。这样就可以通过可扩展和易于使用的云端注释工具进行部署。目前有几种解决方案用于分配扫描数据供临床专家评估。要求的范围可能从简单的扫描级标签到详细的特定领域的解剖学分割掩码。在我们的机构，我们部署了MD.ai (New York, New York)，这是一个基于云的注释系统，可原生处理存储在机构批准的云存储提供商（谷歌云存储或亚马逊 AWS）上的 DICOM 文件。替代品提供类似的功能，如ePadLite（Stanford, California），它可以免费使用。基于云的注释方法的另一个优势是，扫描可以保持原始的分辨率和质量，实时协作模拟 "基于团队 "的临床决策，注释和标签可以很容易地导出用于下游分析。最重要的是，其中许多工具都可以用任何网络浏览器远程访问，并且极易操作，极大地提高了用户体验并减轻了临床合作者的技术负担。

最后，较新的机器学习训练范式，如联邦学习，可能有助于规避许多与数据共享相关的障碍。Kaissis等人审查了联邦学习的原则、安全风险和实施挑战。这种方法的主要特点是在每个机构都训练本地算法副本，唯一共享的信息是神经网络在训练过程中学习到的特征。在预定的时间间隔内，从每个机构的算法中学到的信息（训练的权重）被集中起来并重新分配，高效地从一个大型的多中心数据集中学习，而不需要传输或分享任何医学成像数据。这有助于快速训练算法，从胸部计算机断层扫描中检测COVID-19的特征。

尽管在医学成像领域已经有了联合学习的成功示范，但在将这些方法用于常规临床使用时，仍然存在大量技术挑战。特别是在高维成像机器学习系统的背景下，从多个参与中心传输和更新训练的权重而引入的网络延迟，成为训练更大神经网络的基本速率限制步骤。研究人员还必须确保训练后的权重在参与机构之间的传输是安全和加密的，这进一步增加了网络延迟。此外，在设计研究时，如果不能访问源数据，策划数据集的质量和一致性可能极具挑战性。许多概念上类似的联合学习框架仍然假定对源数据有一定程度的访问。

计算架构

现代临床机器学习中使用的神经网络架构，主要来自于那些针对大型照片或视频识别任务28进行优化的架构。即使在细粒度分类的其他挑战性任务中，这些架构也非常稳健，其中类具有微妙的类内差异（狗的品种），而不是具有高类间差异的明显不同对象（飞机与狗）。通过对大型数据集（例如ImageNet）进行充分的预训练，这些 "现成 "架构的性能优于为其量身定做的细粒度分类器。其中许多架构可用于流行的机器学习框架，如TensorFlow和Pytorch。最重要的是，这些框架通常为各种不同的神经网络架构提供ImageNet预训练权重，使研究人员能够迅速将它们重新用于专门的医学成像任务。

不幸的是，绝大多数的临床成像方式都不是简单的静态 "图像"。例如，超声心动图是一种心脏的二维（2D）超声影像。这些 "视频 "可以从多个不同的视角拍摄，从而可以对心脏进行更全面的评估。CT和MRI扫描可以被认为是一堆二维图像，必须按图像顺序进行分析，否则医生有可能错过器官之间沿某一轴线的有价值的关系。

因此，这些 "成像 "模式更类似于视频。将其作为图像拆开分析，可能会导致空间或时间背景的丢失。例如，将视频每一帧作为独立的图像进行分析处理，会导致每一帧视频之间时间信息的丢失。在利用超声心动图、CT和MRI扫描的各种任务中，基于视频的神经网络算法比其 2D 算法有相当大的改进，但集成多个不同的视图平面带来了额外的维度，很难将其纳入当前框架。

与广泛的基于图像的预训练网络库不同，对视频算法的支持仍然有限。对部署新架构感兴趣的研究人员可能需要自己在大型公开的视频数据集（如Kinetics和UCF101（中佛罗里达大学101--动作识别数据集））上执行预训练步骤。此外，视频网络的训练计算成本可能要高几个数量级。虽然使用大型自然景物数据集进行预训练是开发临床成像机器学习系统的一个公认的策略，但不能保证性能的提升。关于预训练的性能改进的报告很常见，特别是在使用较小的数据集时，但随着训练数据集的增加，其优势会逐渐减少。

在2018年美国国家卫生研究院的路线图中，缺乏特定于医学成像的架构被认为是一项关键挑战。我们进一步延伸，提出训练这些架构的方法，对这些系统将转化为现实方面发挥着重要作用。我们认为，下一代的高维医学成像AI 将需要对更丰富、更有背景意义的目标进行训练，而不是简单的分类标签。

如今，大多数医学成像 AI 系统专注于从正常背景下诊断少数疾病。典型的方法是在训练这些算法时分配一个数字标签（疾病：1；正常：0）。这与临床受训人员学习从成像扫描中诊断不同的疾病的方式有很大不同。为了提供更多的 "医学知识"，而不是简单地对自然图像或视频进行预训练，Taleb等人提出了一系列使用大型无标签医学成像数据集的新型自我监督预训练技术，旨在协助开发基于3D医学成像的人工智能系统。

神经网络首先通过执行一组 "代理任务 "来学习 "描述 "作为输入的成像扫描。例如，通过让网络像拼图一样 "重新组合 "输入的扫描数据，它们可以被训练成 "理解 "在各种病理和生理状态下哪些解剖结构是相互一致的。将成像扫描的数据与放射学报告配对是另一个有趣的策略，基于胸部X射线的人工智能系统取得了相当大的成功。

本着提供更细微的临床背景并将更多的 "知识 "嵌入神经网络的精神，报告中的文本通过最先进的自然语言机器学习算法进行处理，随后训练视觉网络，以更好地理解让各种疾病 "不同"的原因。然而，最重要的是，他们表明使用这种方法可以将特定下游分类任务的标记数据量减少多达两个数量级。因此，未标记的成像研究，无论是单独的还是结合成对的文本报告，都可以作为有效预训练的基础。随后，对较小的高质量基础实况数据样本进行微调，以完成特定的监督学习任务。

尽管这些步骤有助于调整现有的神经网络架构，使其适用于医学成像，但为特定任务设计新的架构需要专业知识。模型架构类似于大脑，而训练后的权重（训练中优化的数学函数）类似于思维。进化搜索算法的进展利用机器学习方法来发现为特定任务定制的新架构，从而产生比人类构建的架构更高效和更高性能的架构。这些都为成像模式特定架构的发展提供了一个独特的契机。

训练深度学习算法依靠图形处理单元（GPU）来执行大规模的并行矩阵乘法运算。云计算 "随用随付 "的GPU资源和具有高内存容量的消费级GPU的可用性，都有助于降低对开发医学成像机器学习系统感兴趣的研究人员的准入门槛。尽管有了这些进展，但在大型视频数据集上训练复杂的现代网络架构需要多个GPU连续运行数周。

临床研究小组应该注意，虽然在相对便宜的计算机上训练单一模型可能是可行的，但要找到最佳性能的正确设置组合，几乎总是需要使用专门的硬件和计算集群来在合理的时间范围内返回结果。强大的抽象层（例如，Pytorch Lightning）还允许研究小组建立内部标准，以模块化的形式构建其代码。采用这样的模块化方法，神经网络架构和数据集可以很容易地被替换，有助于快速将过去为临床成像模式设计的系统重新用于新的用例。这种方法也有助于通过以新的方式集成子组件来扩展这些系统的功能。

时间-事件分析和不确定性量化

随着医疗人工智能系统从 "诊断 "转向更多的 "预后 "应用，时间到事件的预测（而不是简单的二进制预测）将在临床环境中发现更多的相关性。时间-事件分析的特点是能够预测作为时间函数的事件概率，而二分类器只能提供一个预定时间的预测。与二元分类器不同的是，时间-事件分析考虑到了数据的删减，以考虑到那些失去随访或在观察时间范围内没有经历相关事件的人。生存分析在临床研究中很常见，也是制定循证实践指南的核心。

用基于图像和视频的机器学习来扩展传统的生存模型，可以对组织切片或医学成像扫描中的特征的预后价值提供强有力的洞察力。例如，将Cox比例损失函数的扩展整合到传统的神经网络架构中，使得仅从组织病理学切片中预测癌症结果成为可能。我们不主张使用此类视觉网络来规定如何进行护理，而是主张将其用作标记临床医生遗漏晚期恶性肿瘤特征的病例的方法。

纳入时间-事件分析在临床上将越来越重要，因为在疾病不稳定或早期阶段具有的可检测特征，在一定时间后可能会迅速发展。

例如，可诊断为黄斑变性的视网膜特征往往需要数年时间才能表现出来。具有初期疾病特征的患者可能会被标记为“正常”，这让神经网络试图预测未来发生黄斑变性并发症的风险。纳入生存和审查的概念可能有助于训练系统更好地将正常人与那些轻度、中度和正在快速发展中的疾病个体分开。同样，训练视觉网络进行时间-事件分析可能会在用于肺癌筛查，有助于根据预期的侵略性扩散潜力进行风险分层。这种转化工作的关键是要有强大的、经过充分验证的Cox回归的深度学习扩展。在过去的几年里，已经描述了大量Cox模型的深度学习实现。Kvamme等人提出了一系列的Cox模型的比例和非比例扩展，过去还描述了更多的生存方法的实现，如DeepSurv和DeepHit46（图2）。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图 2：量化机器学习输出中的不确定性。

正如 Sensoy 等人所描述的那样，即使在不正确的情况下，使用标准方法训练的机器学习模型也可以非常自信。左图：当一个数字被旋转180°时，系统自信地分配了一个从 "1 "到 "7 "的标签。右图：然而，用考虑分类不确定性的方法，系统会分配一个不确定性分数，可以帮助提醒临床医生潜在的错误预测。

然而，从可操作的角度来看，时间-事件预测可能存在问题。在肺癌筛查的假设示例中，胸部计算机断层扫描中的可疑结节可能会产生一个预测，即在有或没有适当的治疗干预的情况下的中位生存率。对临床医生来说，了解机器学习系统对个体病人的预测的有多大的把握可能是很有意思的。当对一项任务没有把握时，人类往往会谨慎行事。机器学习系统也反映了这一点，其中输出是 0 到 1 范围内的“类别概率”或“正确的可能性”。然而，目前文献中描述的大多数医学影像机器学习系统，当提供给模型的输入数据超出分布范围时，缺乏说 "我不知道 "的隐含能力。例如，即使输入图像是猫的图像，训练用于从计算机断层扫描（例如）预测肺炎的分类器在设计上也被强制提供输出（肺炎或非肺炎）。

在他们关于深度学习中的不确定性量化的论文中，Sensoy等人用一系列的损失函数来解决这些问题，这些损失函数分配了一个 "不确定性分数"，以此来避免错误的、但有把握的预测。在项目的转化阶段，当人工智能系统被部署在与人类用户一起工作的环境中时，不确定性量化的好处就出现了。信心度量是AlphaFold2的一个关键因素，该蛋白质折叠机器学习系统在第14届蛋白质结构预测关键评估（CASP14）挑战中取得了无与伦比的准确性，给DeepMind研究团队提供了一种方法来衡量他们应该对正在生成的预测给予多大的信任。许多不确定性量化方法的实现都是在许可的情况下进行的，并且与常用的机器学习框架兼容。纳入不确定性量化可能有助于提高高风险的医学成像机器学习系统的可解释性和可靠性，并减少自动化偏差的可能性。

可解释性人工智能和伤害风险

除了量化某些机器学习系统的预测效果外，对于构建这些系统的工程师和使用它们的临床医生来说，他们更感兴趣的是了解这些机器学习系统是如何得出结论的。显著性图和类激活图实际上仍然是解释机器学习算法如何进行预测的标准。

Adebayo等人最近的研究表明，仅仅依靠显著性图的视觉外观可能会产生误导，即使乍一看它们与背景相关。在一系列广泛的测试中，他们发现，许多流行的生成事后显著性图的方法并没有从模型权重中获得真正的意义，而是与 "边缘检测器"（简单映射像素强度之间的尖锐过渡区域的算法）没有区别。此外，即使这些可视化方法奏效，除了机器学习算法正在寻找的 "位置 "之外，也几乎无法破译。在很多示例中，无论是正确还是错误的显著性图看起来几乎是一样的。当 "患病 "状态和 "正常 "状态之间的差异需要关注图像或视频的同一区域时，这些缺点就更加明显了。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图3：事后模型解释的误导性。

a, Adebayo等人用MNIST数据集的真实标签训练的模型（上）和随机噪声训练的模型（下）进行的实验。当通过大多数可视化方法进行评估时，在随机噪声上训练的模型仍然产生圆形形状。b，超声心动图视图平面的检测：错误的分类（左上）和正确的分类（右上）都产生类似的显著性图（下）。

临床医生应该注意，仅靠热图不足以解释 AI 系统的功能。在尝试用如上图所示的可视化方法来识别故障模式时，必须谨慎。一个更精细的方法可能涉及到连续遮挡测试，即在有意掩盖临床医生用来进行诊断或预测的区域后，评估图像的性能。这个想法非常直观：在已知对诊断某种疾病很重要的区域被遮蔽的图像上运行算法，例如，在试图诊断心力衰竭时遮蔽左心室，应该可以看到性能的急剧下降。

这有助于确认人工智能系统正在关注相关领域。特别是在高维医学成像研究的背景下，激活图可能为视频类成像研究的某些时间阶段的相对重要性提供独特的见解。例如，某些疾病可能在心脏收缩时表现出病理特征，而对于其他疾病可能需要人们关注心脏放松时的情况。通常这样的实验可能表明，机器学习系统从临床医生传统上不会使用的图像区域中识别出潜在的信息特征。除了收集关于这些机器学习系统如何产生其输出的信息外，严格的可视化实验可能提供一个独特的机会，可以从被评估的机器学习系统中学习生物学的见解。

另一方面，激活与临床上已知的重要区域的偏差可能预示着网络正在学习非特异性的特征，使它们不太可能很好地归纳到其他数据集。

机器学习系统学习的特征可能取决于架构的设计。更重要的是，机器学习系统会根据提供给它的训练数据和目标来学习和延续系统性的不平等。随着医疗保健人工智能系统不断向未来的疾病预测发展，必须更加谨慎地考虑到这些群体在获得医疗保健和结果方面的巨大差异。

在最近的评论中，Chen等人深入概述了从问题选择到部署后阶段的潜在偏差来源。在这里，我们重点讨论机器学习系统开发早期的潜在解决方案。一些人主张用一些方法来解释现代机器学习系统的其他 "黑箱 "预测，而其他人则主张一开始就限制使用更可解释的模型。除了在训练整个 AI 系统时结合结构化数据的输入之外，中间方法还涉及使用黑盒模型训练医学成像神经网络。

这可以通过建立 "融合网络 "来实现，其中表格数据被合并到基于图像或视频的神经网络中，或其他具有相同基本目标的更先进的方法（生成组合数据的低维表示的自动编码器）。即使没有将人口统计学输入纳入高维视觉网络，研究小组通过比较不同性别、种族、地域和收入群体的表现来审核他们的模型也很重要。

机器学习系统可能会无意中学会进一步延续和歧视少数民族和有色人种，因此在模型开发过程的早期了解这种偏见是至关重要的。对机器学习系统的信任对于更广泛的采用至关重要，正如探索特定的特征或变量如何以及为什么会导致预测一样，通过结合显著性图和估计特征重要性的模型无关的方法。

另一种方法是在训练逻辑中限制机器学习算法，确保发生优化步骤以控制感兴趣的人口统计学变量。这类似于多变量回归模型，其中感兴趣的风险因素的影响可以独立于基线人口统计学变量来研究。从技术角度看，这将涉及到在训练循环中插入一个额外的惩罚性损失，并牢记与稍低的模型性能的潜在权衡。例如，Fairlearn 是用于评估传统机器学习模型公平性的流行工具包，并且已经开发了基于 Fairlearn 算法 (FairTorch) 的约束优化，这是在训练过程中整合偏差调整的有希望的探索性尝试。有许多开源工具包可以帮助研究人员确定不同变量和输入流（图像预测，以及诸如性别和种族等变量）的相对重要性。这些技术可能允许开发更公平的机器学习系统，甚至可以发现没有预料到的隐藏偏见。

总结

尽管计算架构和获取高质量数据是构建良好模型的关键，但为高维成像模式开发可转换的机器学习系统方面还需要努力，以更好地代表数据的 "视频 "性质。此外还需要在模型开发的早期阶段建立有助于解决偏见、不确定性和可解释性的功能。对医学成像和人工智能的质疑是有益的，而且在大多数情况下具有一定道理。

我们希望，通过建立允许研究人员评估临床表现、医院工作流程中的整合、与临床医生的互动以及社会人口伤害的下游风险的功能，可以在改善人工智能的交付方面迈出有意义的步伐。我们希望研究人员会发现这个观点很有用，因为它概述了在临床部署方面等待他们的潜在挑战，并且在解决其中一些问题时可以发挥指导性意义。