AI委员会在美国医师执照考试中取得优异成绩An AI Council Just Aced the US Medical Licensing Exam

环球医讯 / AI与医疗健康来源:singularityhub.com美国 - 英语2025-10-13 00:56:19 - 阅读时长3分钟 - 1123字
约翰霍普金斯大学研究人员开发出一种创新AI“委员会”方法,让五个GPT-4模型通过结构化讨论共同解答问题,在美国医师执照考试(USMLE)三部分测试中分别取得97%、93%和94%的准确率,远超单个AI表现及人类通过标准;该系统利用AI响应的不确定性,通过算法引导的对话实现自我纠错,当初始答案分歧时能修正超半数错误,显著提升可靠性,为AI在医疗等高风险领域应用开辟新路径,但研究强调结果仅来自受控实验室环境,距离实际临床部署仍有较长距离,同时指出该方法可扩展至教育和其他专业领域。
AI委员会美国医师执照考试医学考试大型语言模型医疗应用协作对话准确性临床护理教育工具
AI委员会在美国医师执照考试中取得优异成绩

两个脑袋总比一个好——即使这些脑袋并非人类。

尽管大型语言模型(LLMs)具有实用价值,但其可靠性问题依然存在。一项新研究表明,由多个AI协同工作的团队能在美国医师执照考试中取得最高97%的分数,表现优于任何单一AI系统。

尽管近期大型语言模型的进展已使其能够通过专业和学术测试,但其表现仍不稳定。它们仍易产生“幻觉”——即听起来合理但错误的陈述——这限制了其在医疗和金融等高风险领域的应用。

然而,LLMs在医学考试中已取得令人瞩目的成绩,表明若能控制其不一致性,该技术可能在该领域发挥重要作用。如今,研究人员证明,让五个AI模型组成的“委员会”通过讨论而非单独工作来解答问题,可在美国医师执照考试(USMLE)中创下破纪录的分数。

约翰霍普金斯大学的亚希娅·谢赫(Yahya Shaikh)在新闻稿中表示:“我们的研究表明,当多个AI共同讨论时,它们在医学执照考试中达到了前所未有的最高表现。这展示了AI系统间协作与对话的力量,能够得出更准确可靠的答案。”

研究团队的方法利用了模型的一个特性,该特性源于其生成响应的非确定性方式。若向同一模型重复提问相同的医学问题,它可能产生两个不同答案——有时正确,有时错误。

在《PLOS医学》期刊发表的一篇论文中,团队描述了如何利用这一特性创建AI“委员会”。他们启动了五个OpenAI的GPT-4实例,并引导它们在算法主持的结构化交流中讨论每个问题的答案。

当响应出现分歧时,主持算法会总结不同推理并促使小组重新考虑答案,重复此过程直至达成共识。

在针对USMLE三个阶段共325道公开试题的测试中,AI委员会分别取得97%、93%和94%的准确率。这些分数不仅超越了任何单个GPT-4实例的表现,还超过了人类考生的平均通过标准。谢赫表示:“我们的工作首次明确证明,AI系统能通过结构化对话实现自我校正,集体表现优于任何单一AI。”

作为该方法有效性的佐证,当模型初始意见分歧时,讨论过程修正了超半数的早期错误。总体而言,当初始答案不一致时,委员会最终有83%的概率得出正确结论。

同为约翰霍普金斯大学的合著者齐尚·西迪基(Zishan Siddiqui)在新闻稿中指出:“本研究并非评估AI的USMLE应试能力。我们描述了一种将AI自然响应变异性视为优势的方法,通过多次尝试、比对笔记和自我校正来提高准确性,该机制应被整合到未来的教育工具及适当场景的临床护理中。”团队强调,其结果源于受控测试而非真实临床环境,因此AI委员会距离实际应用仍有很长的路要走,但他们认为该方法在其他领域同样可能发挥作用。

看来,那句“两个脑袋总比一个好”的古老谚语,即便应用于非人类的“脑袋”也依然成立。

【全文结束】

大健康

猜你喜欢

  • 新研究发现或可预防儿童花生过敏新研究发现或可预防儿童花生过敏
  • 协作式人工智能通过美国医师执照考试协作式人工智能通过美国医师执照考试
  • 谷歌要求员工向AI医疗工具共享数据引争议 迅速澄清称“意图未体现”谷歌要求员工向AI医疗工具共享数据引争议 迅速澄清称“意图未体现”
  • 医疗保健中负责任使用人工智能的新指南:健康科技公司应了解的关键要点医疗保健中负责任使用人工智能的新指南:健康科技公司应了解的关键要点
  • 人工智能将成就还是毁灭加拿大?创新者与研究者呼吁加强监管框架人工智能将成就还是毁灭加拿大?创新者与研究者呼吁加强监管框架
  • 能够应对劣质模型的框架:人类与AI协作用于临床试验能够应对劣质模型的框架:人类与AI协作用于临床试验
  • 不止是算法:构建医疗人工智能不止是算法:构建医疗人工智能
  • 营销人员在采用基于AI的工具前需明确AI的目的营销人员在采用基于AI的工具前需明确AI的目的
  • 微软发力医疗健康与哈佛合作,力图在AI领域追赶微软发力医疗健康与哈佛合作,力图在AI领域追赶
  • LogiPharma USA 2025:先进疗法推动医药供应链超越速度LogiPharma USA 2025:先进疗法推动医药供应链超越速度
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康