2022年,阿拉巴马州伯明翰的一位8岁女孩让她的医生们感到困惑。她被诊断出患有SHINE综合征,这是一种只有130例记录的神经发育疾病,但她还表现出一些不典型的症状,例如在给图画涂色时失去运动控制能力。由于SHINE综合征的罕见性,阿拉巴马大学伯明翰分校精准医学研究所的医生在寻找治疗方案时几乎没有资源可以借鉴。于是他们向美国国立卫生研究院推进转化科学中心(NCATS)主任乔尼·拉特及其团队求助。位于马里兰州罗克维尔的NCATS一直在开发一种称为生物医学数据翻译器(简称“翻译器”)的工具。该工具由人工智能驱动,通过患者的症状(表型)或特定基因,在庞大的数据库中搜索与患者档案相关的治疗方法。该数据库包括蛋白质、基因和代谢物的数据集。当女孩的症状被输入翻译器后,该工具建议使用胍法辛作为治疗选项,这是一种常用的降压药。在女孩服用该药物五个月后,她的母亲报告说女儿的行为和运动技能有了显著改善。
这种工作——创新技术迅速对患者健康产生影响——在历史上非常罕见。但这种类型的转化科学正处于一个转折点,拉特说。要使一项干预措施从实验室走向患者床边,首先必须经过一系列的临床前和临床试验,以测试其安全性和有效性。这说起来容易做起来难。十多年以来,新药一期临床试验的成功率一直略高于10%。而到了二期和三期试验,成功率也没有明显提高,拉特说。“多年来,我们一直难以预测药物化合物的成功率,”她说,“90%的情况下它们会失败,而且大多数是在二期或三期试验中失败。我们在这里做得不对。”
翻译器只是人工智能开始影响转化科学的一个早期例子。尽管它尚未准备好投入实际应用,但拉特表示,这只是时间问题,这种人工智能工具或类似的工具将发挥更大的作用。“这是一个有希望的概念验证,展示了人工智能如何真正塑造了这一领域的叙事,”她说,“无论准备与否,这一切都在发生。”
转化难题
根据世界卫生组织(WHO)2022年的报告,2021年全球仅有27种抗生素处于研发阶段,低于2017年的31种。截至2022年,现有类别的抗生素只有约1/15的机会通过试验并到达患者手中。对于新的抗生素,这一成功率已降至1/30。“我们没有时间再等了,创新的速度和成功远低于我们需要的水平,以保护现代医学的成果,对抗像新生儿败血症这样古老但致命的疾病,”时任WHO结核病防治部门协调员海莱耶苏斯·格塔胡在2013年代表该组织发表的演讲中说。
这种药物开发过程中的“死亡之谷”是转化医学专家公认的长期障碍。NCATS药物开发合作伙伴计划办公室主任克里斯汀·科尔维斯表示,许多复杂的药物化合物可能会产生难以预测的效果。“复杂性在于,有时药物会与设计目标以外的目标相互作用,”科尔维斯说,“这可能导致意想不到的副作用。”乔治华盛顿大学神经学家亨利·卡明斯基认为,缺乏标准化数据是导致临床试验失败的另一个因素。“对于任何人类管理的测试,无论是医生的体格检查还是协调员指导患者如何进行患者报告的结果测量,都存在性能上的差异,”卡明斯基说。他还指出,特定人群(如医学院的患者)收集的数据可能无法推广到更大规模的临床试验中。同样,动物模型中的临床前试验虽然通常很好,但并不完美,有时疾病根本无法在动物中建模。例如,卡明斯基说,啮齿动物的免疫系统与人类不同。因此,一些生物药物(如人源化抗体蛋白)无法成功测试。然而,仅研究人体细胞而不考虑动物生理模型提供的复杂性,使得研究人员难以确定药物对人体的影响。除了科学障碍,转化医学还面临行政障碍,卡明斯基说。在临床试验开始之前,必须经过多步骤的过程,包括试验管理者与研究人员签订合同、分析预算、评估利益冲突和培训现场人员。“这些步骤很重要,但也很耗时,”他说。
人工智能登场
研究人员正寄希望于技术,如人工智能,帮助转化医学克服这些成长的烦恼。尽管人工智能已与大型语言模型(LLMs)联系在一起,例如构成ChatGPT基础的模型,但其他形式的人工智能,包括深度学习和机器学习,已经在医学中发挥作用多年,拉特说。例如,翻译器使用机器学习从数百个数据库中筛选信息,并在SHINE综合征和降压药之间建立联系,拉特说。她对人工智能如何改进临床前和临床结果感到兴奋,例如从过去的临床试验错误中学习并设计改进方法,或帮助确定试验招募的患者群体。“临床研究人员面临的一个经典问题是‘假阳性’,这些试验总是显示出某种阳性反应,”拉特说。“人工智能可以帮助识别这些过程中的模式……然后筛选出这些[假阳性],从而使我们推动的化合物更具预测性。”
美国食品药品监督管理局(FDA)的凯尔·埃尔扎拉德在2024年的一次采访中表达了同样的希望,他表示机器学习工具可用于临床试验中改善患者监测和遵守研究协议。2021年在《Trials》和《Nature》上发表的论文也指出,人工智能可以在提高试验效率和评估患者资格方面发挥作用。人工智能还可以在医疗保健环境中发挥前线作用,俄勒冈健康与科学大学医学信息学和临床流行病学专家比尔·赫什说,大型语言模型可以用作医疗预约中的监听工具。“我们知道十年来,[记录笔记]电子健康记录会减慢医生的工作速度,”赫什说。“新的大型语言模型技术可以监听医生与患者的交流并生成笔记,从而加快这一过程。”Epic电子健康记录系统已经使用了这一系统,允许医生请求AI起草的笔记或个人健康记录摘要。通过使用Epic等系统中的模板,卡明斯基说,可以更有效地标准化信息,从而更容易被AI训练系统处理。“这些信息池可以用来教AI识别疾病的模式,”卡明斯基说。“经过一段时间的审查和优化,可能会有系统提醒医生潜在的诊断。这尤其对罕见疾病有重要意义,因为这些疾病往往需要数年才能确诊。”
数据问题
尽管人工智能展现出巨大潜力,但一些领域的专家强调需要谨慎。休斯顿德克萨斯大学健康科学中心生物医学信息学专家、该中心转化AI卓越与应用研究所首席研究员刘红芳说,尽管人工智能有潜力推进转化医学,但它遇到了与该领域普遍存在的相同问题:缺乏高质量数据。“现实世界的数据反映了我们在现实世界中面临的挑战,”刘红芳说。“数据质量与健康的社会决定因素密切相关,因此即使是一条数据记录也不能完全反映患者的情况。”这意味着当AI模型在健康记录上进行训练时,它们往往会获得较少且质量较差的信息,尤其是来自服务不足的患者的信息,刘红芳说,从而加强了模型对优势群体的偏见。同样,使用Epic等系统中的标准化模板可能会帮助AI更高效地消费数据。但到目前为止,拉特说,这导致AI模型更好地理解这些清晰的健康记录,而不是实际患者的证词,这意味着它们在临床诊断的实际世界中用处不大。“我认为这为我们提供了一个重要的机会,思考如何合乎伦理地使用AI,并确保我们满足不同患者和患者群体的需求,”拉特说。其他领域的研究人员通过创建合成数据来解决AI系统面临的数据稀缺问题,即AI创建的数据旨在模仿真实世界的数据输入。然而,科尔维斯说,我们对疾病本身的理解仍然太初级,无法有效重建合成形式。这些问题也是为什么研究数据的创建和质量很重要的原因,刘红芳说,以便识别影响数据收集的因素。
建立信任
除了数据问题外,还有一个老生常谈的问题始终伴随着人工智能,特别是大型语言模型(LLMs),那就是它们经常自信地犯错。最糟糕的错误发生在AI“幻觉”时,即在概念之间建立虚假或虚构的联系。如果未被人类用户注意到,这可能会引导研究人员进入危险和误导性的死胡同。2021年发表在《自然机器智能》上的一篇论文发现,多个试图通过胸部X光诊断COVID-19的AI工具存在系统性的缺陷和偏见。在文献综述中,研究人员发现,在他们评估的320篇论文中,有110篇未能满足至少三个用于确保结果可重复性和透明性的强制性标准。这些标准列在北美放射学会的医学影像人工智能检查清单中。提高对这些错误的认识的一种方法是设计能够解释其思考过程的AI,赫什说。不幸的是,这说起来容易做起来难,因为AI的“思考”过程通常是黑箱操作,结果是非线性和非符号化的推理过程。“自动化偏见是指我们过于依赖或过分信任技术,以至于如果技术说我们应该这样做,我们就去做,”赫什说。“这实际上是一个大问题。”这可能意味着AI更适合做一些不太“性感”的工作,而不是替代医生,赫什说。例如,AI可以帮助优化医生的工作,让他们有更多时间与患者互动。考虑到这一点,卡明斯基说,我们应该记住AI仍处于起步阶段,错误和改进都是意料之中的。“人们在刚开始学习时也会犯错,”他说,即使他们是其他领域的专家。最终,刘红芳说,重要的是要记住医学是一项“团队运动”,而AI只是这个团队的新成员。为了确保这一工具得到有效和合乎伦理的使用,她说,必须以人为本。“我认为AI有潜力,”刘红芳说。“但一切都必须以人为中心。不要为了AI而做AI,要为了护理而做AI。”
(全文结束)