增强型大语言模型在USMLE考试中超越大多数医生和其他AI - AI与医疗健康

增强型大语言模型在USMLE考试中超越大多数医生和其他AIEnhanced LLM Aces the US Medical Licensing Examination

环球医讯 / AI与医疗健康来源：www.psychologytoday.com美国 - 英语2025-05-27 04:00:00 - 阅读时长5分钟 - 2359字

一项新研究表明，通过使用高质量的训练数据集和定制编码增强的大语言模型（LLM）在US医学执照考试（USMLE）中的表现优于大多数医生和其他现有的AI工具。研究人员强调，这种技术可以提高LLM在医疗领域的准确性和可靠性。

在人工智能（AI）和医疗保健交叉领域的一个新兴趋势是通过使用更高质量的训练数据集和定制编码来增强标准大语言模型（LLM）的能力。最近发表在《JAMA Network Open》上的一项研究显示，一种增强型的人工智能大语言模型（LLM）通过了美国医学执照考试（USMLE）的所有部分，并且其得分超过了大多数医生和其他现有的AI工具。

越来越多的趋势是评估LLM在医疗保健中的应用。根据Statista在2024年进行的一项调查，18%的医疗保健工作者使用LLM进行生物医学研究，至少有五分之一的人使用医疗聊天机器人和LLM来回答患者的问题。

“通过有针对性、最新的临床知识来提高LLM在医疗保健中的性能，是LLM实施和接受的重要一步，”首席作者Peter L. Elkin博士及其合著者Guresh Mehta、Frank LeHouillier、Melissa Resnick、Sarah Mullin、Crystal Tomlin、Skyler Resendez、Jiaxing Liu、Jonathan Nebeker和Steven Brown写道。

AI和LLM在医疗保健中的应用

人工智能正在迅速改变医疗保健。当OpenAI于2022年11月30日向公众发布其聊天机器人ChatGPT时，这个瓶子里的精灵被释放出来，再也无法回头。ChatGPT打破了记录，在一周内就获得了100万用户，据UBS的数据，两个月内用户数达到了1亿。LLM的例子包括Meta的Llama、Google的BERT、Bard、Gemini、LaMDA、Google AI的PaLM 2（Bison-001）、Anthropic的Claude、技术创新研究所（TII）的Falcon、Cohere、Microsoft的Orca、Guanaco、LMSYS的Vicuna、CalderaAI的30B Lazarus、前Google研究人员的Flan-T5、WizardLM、斯坦福大学的Alpaca 7B等。

目前，许多医院已经在使用AI或在全球范围内评估机器学习的使用情况。根据《2024未来健康指数》全球报告，该报告调查了来自14个国家的近3,000名医疗保健领导者，受访者报告称，AI已经被大约43%的医院用于院内患者监测，37%用于药物管理，37%用于治疗计划，36%用于放射学，36%用于预防性护理，35%用于病理学，33%用于远程患者监测，以及32%用于临床指挥中心。

例如，梅奥诊所拥有超过200个AI项目，包括创建早期检测焦虑、抑郁、神经肌肉疾病、乳腺癌、胰腺癌和心血管疾病的模型。约翰霍普金斯大学及医学院正在测试将AI作为临床工具，用于总结患者病历、临床文档、草拟对患者信息的回复以及对传入信息进行分类和分配。麻省总医院布里格姆的医生目前正在评估使用AI预测口腔病变恶性风险的可行性，以及使用ChatGPT为乳房疼痛和乳腺癌患者推荐影像服务并回答结肠镜检查患者的疑问。麻省总医院布里格姆的医生Vesela Kovacheva博士正在开发一种AI机器学习算法，以自动化为即将进行剖腹产的母亲提供麻醉。