当人类放射科医生检查扫描图像时,他们是在数十年的培训基础上进行工作的。从大学到医学院再到住院医师,最终成为一名能够解读X光片的医生,这一过程包括了成千上万小时的学术和实践教育,从准备执照考试到多年作为住院医师的经历。目前,AI系统用于解释医学影像的训练路径要简单得多:向AI展示带有感兴趣特征(如癌症病灶)标记的大量医学影像,使其能够在未标记的影像中识别出这些模式。尽管在过去十年中发表了超过14,000篇关于AI与放射学的学术论文,但结果充其量也只是中等水平。2018年,斯坦福大学的研究人员发现,他们训练的一个用于识别皮肤病变的AI错误地标记了包含尺子的图片,因为大多数恶性病变的图片中也有尺子。“神经网络很容易过度拟合虚假的相关性,”计算机与信息科学系助理教授Mark Yatskar说道,“它不会像人类那样做决策,而是会走捷径。”
在一篇即将在2024年NeurIPS会议上作为亮点分享的新论文中,Yatskar与计算机与信息科学系教授Chris Callison-Burch及第一作者、由Callison-Burch和Yatskar指导的博士生Yue Yang介绍了一种新的开发神经网络的方法,该方法通过模仿人类医生的培训路径来进行医学图像识别。
“通常情况下,对于AI系统,做法是向其提供大量的数据,然后它自己就能解决问题。这实际上与人类学习的方式非常不同——医生有一个多步骤的学习过程。”计算机与信息科学系助理教授Mark Yatskar说道。
研究团队的新方法实际上是让AI接受医学教育,通过从教科书、国家医学图书馆的学术数据库PubMed以及提供医学执业者练习考试题目的在线公司StatPearls中提取一套医学知识。“医生们在正式开始临床培训之前,在医学院里花费多年时间从教科书中学习并在教室里上课,”Yatskar指出,“我们试图模仿这一过程。”
新方法被称为知识增强瓶颈(KnoBo),基本上要求AI基于已建立的医学知识来做决策。“在读取X光片时,医学生和医生会问,肺部是否清晰,心脏是否正常大小,”Yang说,“模型将依赖于人类在做决策时使用的相似因素。”
最终的结果是,使用KnoBo训练的模型不仅在诸如基于肺部X光片识别COVID患者等任务上比目前最好的模型更准确,而且也更具可解释性:临床医生可以理解为什么模型做出了某个特定的决策。“你会知道系统为什么预测这张X光片是COVID患者——因为它有肺部不透明区域,”Yang说。
使用KnoBo训练的模型还更加稳健,能够处理一些现实世界数据的复杂性。人类医生的一大优势在于,你可以将他们置于多种不同的环境中——不同的医院和不同的患者群体——并期望他们的技能能够转移。相比之下,仅针对某一特定医院的特定患者群体训练的AI系统很少能在不同环境中良好工作。为了评估KnoBo帮助模型关注相关信息的能力,研究人员在一系列“混淆”的数据集上测试了广泛的神经网络,基本上是在一组患者上训练模型,其中所有生病的患者都是白人而健康的患者是黑人,然后再在具有相反特征的患者上测试模型。“以前的方法彻底失败了,”Yang说,“使用我们的方法,我们约束模型根据从医学文献中学到的知识先验进行推理。”即使在混淆的数据上,使用KnoBo训练的模型平均比仅在医学影像上微调的神经网络高出32.4%的准确性。
鉴于美国医学协会预计到2036年美国将出现80,000名医生短缺,研究人员希望他们的工作能够为AI在医学中的安全应用打开大门。“你真的可以通过这种方式为那些无法获得适当帮助的人提供帮助,”Yatskar说。
(全文结束)

