哈佛医学院研究人员首次发现,一种新的开源人工智能工具在诊断患者案例的准确性上可与GPT-4等顶级专有模型相媲美。在两周前发表的一项研究中,Llama 3.1 405B开源模型在70个临床案例测试中,首次建议准确率和最终诊断准确率均超过GPT-4。
开源工具允许用户下载并操控模型,这意味着医院可以将患者症状信息输入技术系统,而无需将敏感数据暴露给外部网络。哈佛医学院人工智能医学博士项目学生、研究第一作者托马斯·A·巴克利(Thomas A. Buckley)表示:"开源模型解锁了新科学研究,因为它们可以在医院自有网络中部署。"
该研究的重要意义在于,研究人员"现在可以直接使用患者数据进行最先进临床AI研究",巴克利写道。"医院可以利用患者数据开发定制化模型(例如,使其更适配自身患者群体)。"
研究导师、哈佛医学院教授阿琼·K·马纳伊(Arjun K. Manrai)'08称开源模型能与GPT-4表现相当"相当了不起",但他指出医疗研究者此前因患者隐私担忧难以在现实场景中使用该技术。
巴克利受到2023年一篇论文启发,该论文显示GPT在《新英格兰医学杂志》最复杂病例中表现出色。"这篇论文引发极大关注,基本展示了ChatGPT这样的大语言模型能够解决这些极具挑战的临床案例,让医学界感到震撼。"他说。
"这些病例以难度著称",他补充道,"是麻省总医院遇到的最棘手案例,对医生来说都令人生畏,当AI模型能实现同样效果时更是令人不安。"
马纳伊表示该研究"解锁并开辟了大量新研究和试验",因为允许医院实时安全地使用患者数据。"通过这些开源模型,你可以将模型带到数据所在处,而非将数据发送给模型",马纳伊说道。
然而研究者强调,虽然AI诊断过程前景光明,但人类医生仍需验证结果。"我们的临床合作者至关重要,他们能审阅模型生成内容并进行定性评估",巴克利说,"这些结果必须经由医师评估才可信。"
在2025年3月14日的新闻稿中,马纳伊指出当AI工具"明智使用并负责任地整合到现有医疗体系"时,"可能成为忙碌临床医生的宝贵助手"。他补充道:"但确保AI真正服务于医疗从业者,仍需医生主导这些努力。"
【全文结束】

