妙佑医疗国际(梅奥诊所)的博士后研究员卡拉姆医生在佛罗里达州奥兰多举行的2025年更年期学会年会上指出,使用人工智能(AI)平台回答更年期和激素治疗相关典型问题时,测试的四种大型语言模型(LLMs)准确率普遍偏低。尽管广为人知的ChatGPT 3.5平台在回答患者常见问题时表现最佳,其正确率也仅略超一半,且对临床医生问题的正确率仅三分之一;谷歌的Gemini平台在患者和医生可能提出的问题上表现更差。
卡拉姆医生表示:“生成式人工智能发展迅速,正被探索作为医疗领域患者和临床医生教育的资源。随着大型语言模型日益用于回答医学查询,评估其提供准确可靠信息的性能至关重要。”加州大学旧金山分校名誉临床教授、Mid Health公司首席临床官戈德曼医生虽未参与该研究,但向《Medscape医学新闻》表示结果并不意外。她指出:“尽管医学界多数人已在某些场景使用AI,但我认为其回答准确性无法完全保证,临床医生应始终核查参考来源。即使使用OpenEvidence工具,我通常也会通过PubMed搜索类似文章来验证结果。”
戈德曼医生还进行了自主测试:她向某大型语言模型询问其准确性,收到回复称“生成式AI的准确性高度不稳定,因领域、任务复杂度和具体模型差异巨大”,并提到AI可能生成“看似合理但潜在错误的信息”以及“幻觉”——即完全虚构虚假或“想象”内容。她强调:“该研究提醒医护人员,在采信AI信息前需核查参考来源及更年期学会、美国妇产科医师学会(ACOG)等机构指南,并自行进行PubMed检索。同时,医生应教育患者勿轻信AI答案的100%正确性,建议参考更年期学会或ACOG等权威组织信息。切勿接受AI工具的简单回复!”
卡拉姆团队将35个问题——20个患者级问题和15个临床医生级问题——输入四种AI系统:免费版ChatGPT 3.5、付费版ChatGPT 4.0、谷歌Gemini及OpenEvidence(后者仅测试医生级问题)。四位不知晓模型来源的专家评审员依据临床指南评估答案:完全正确得2分,信息不全得1分,错误得0分。研究还通过字数和弗莱施阅读易读性评分(0-100分,分数越低表示内容越复杂难懂)评估患者级回答的可读性。
患者级问题中,ChatGPT 3.5准确率最高(55%),付费版ChatGPT 4.0仅40%,Gemini表现最差(30%)。三款模型字数相近(P = .12),但可读性差异显著:Gemini虽准确性最低,易读性评分达38.9;ChatGPT 4.0内容最复杂,评分仅26.5。医生级问题中,Gemini正确率仅20%;ChatGPT 3.5对患者问题表现最佳,但对医生问题正确率仅33%;ChatGPT 4.0和OpenEvidence均为40%,而OpenEvidence超半数答案(53%)错误,ChatGPT 3.5和Gemini错误率达40%,ChatGPT 4.0不准确率略低(33%)。各平台不完整回答比例在7%-40%之间,例如Gemini对患者问题无遗漏回答(全为正确或错误),但对医生问题的不完整与正确回答各占40%。
戈德曼医生表示:“鉴于技术尚新,模型仍在学习中。若近期重复该研究,结果可能略有不同。”她同时指出,研究样本较小,且假设专家评审员对测试问题的回答高度一致。
该研究未获外部资金支持,卡拉姆声明无利益冲突,戈德曼除任职Mid Health外亦无其他披露事项。塔拉·海尔勒系达拉斯科学与健康领域记者。
【全文结束】

