根据《自然》杂志提供的信息,近期由参与开发这些系统的大学和科技公司研究人员发表的多项研究表明,在美国医院和诊所测试的人工智能模型在某些情况下已能够提供与医生相当的诊断结果。
研究结果表明,基于人工智能的工具可能会在医疗系统中变得越来越普遍,但专家警告称,关于其安全性、责任归属以及如何将其整合到日常临床实践中的问题仍然很多。
一个AI模型已超越医生
今年4月发表在《科学》杂志上的一项研究分析了OpenAI开发的人工智能模型o1在波士顿某急诊部门评估病例的表现。
研究人员将系统生成的诊断与两名参与实验的医生所作的诊断进行了比较。根据研究结果,AI模型在67%的病例中提供了正确或非常接近最终诊断的结果。相比之下,医生的准确率约为50-55%。
然而,该研究的作者强调,无论是医生还是AI系统,都仅基于患者病历中已有的信息进行工作。双方都没有直接接触患者,这限制了研究结论在实际医疗实践中的适用性。
谷歌测试了直接与患者对话的医疗聊天机器人
另一项研究发表在学术预印本平台arXiv上,在经过正式学术评审前,该研究分析了谷歌研究院开发的名为AMIE(医疗智能探索器)系统的性能。
该系统通过文本消息与波士顿某诊所预约急诊的人员进行交流。这些对话发生在患者与医生会面之前五天内。
基于收集到的信息,AMIE生成了可能诊断的列表。在75%的病例中,最终诊断位列系统建议的前三名,而在56%的情况下,它被列为首选建议。
其表现与后续接诊患者的医生相当。不过,研究人员注意到,人类医生提出的治疗计划更为实用且具有更高的成本效益。
专家呼吁在大规模应用前进行扩展临床测试
专家认为,近年来大型语言模型的发展令人瞩目。过去这些系统主要通过理论测试或标准化医学考试进行评估,如今它们已能够利用真实数据分析复杂病例。
然而,参与这两项研究的哈佛医学院医生亚当·罗德曼表示,目前仍缺乏足够证据证明这些技术可以安全地自主使用。
据他称,下一个关键步骤是开展大规模临床研究,以分析这些技术对患者和医疗系统的实际影响。
谷歌已在美国筹备一项全国性研究,以在更接近常规医疗实践的环境中测试AMIE。
错误建议的风险仍然是主要担忧
在评估性能的同时,研究人员也在尝试衡量在医疗中使用人工智能的相关风险。
哈佛医学院的住院医师兼AI研究者戴维·吴医生表示,他对这一主题的兴趣在测试期间因一个医疗AI系统向他提供他认为危险的建议而增加。
吴与其他专家一起开发了NOHARM(医学风险评估的多种选项危害评估)方法,用于评估AI模型建议可能产生的负面影响。
2025年底发布的初步结果显示,在分析的31个语言模型中,约22%的评估情况中出现了可能导致严重伤害的建议。
AI如何改变医疗系统
尽管目前存在局限性,研究人员仍认为人工智能可以减轻医疗人员的行政负担,并有助于改善医疗服务的获取。
AI系统已开始用于撰写医疗记录、分析临床文件,或提供初步的诊断和治疗建议。
加州大学圣地亚哥分校的医疗AI专家卡兰迪普·辛格认为,未来不属于完全自主的"虚拟医生",而是医疗专业人员与技术协同工作的医疗团队。
据他称,医患之间的信任关系是技术无法替代的关键要素。
【全文结束】

