AI回答更年期问题准确率低 - AI与医疗健康

AI回答更年期问题准确率低AI Answers to Menopause Questions Show Low Accuracy Rate

环球医讯 / AI与医疗健康来源：www.medscape.com美国 - 英语2025-11-04 20:48:15 - 阅读时长3分钟 - 1444字

一项在2025年更年期学会年会上公布的研究显示，四种大型语言模型在回答更年期和激素治疗相关问题时准确率普遍偏低，其中ChatGPT 3.5对患者问题的正确率仅55%，对临床医生问题仅33%，谷歌Gemini表现更差；研究强调医护人员必须核实AI生成信息的参考来源并查阅专业机构指南，避免因AI幻觉或不准确内容误导患者，同时建议患者不应轻信AI工具的简单回答而应寻求权威健康组织如更年期学会和美国妇产科医师学会的信息。

妙佑医疗国际（梅奥诊所）的博士后研究员卡拉姆医生在佛罗里达州奥兰多举行的2025年更年期学会年会上指出，使用人工智能（AI）平台回答更年期和激素治疗相关典型问题时，测试的四种大型语言模型（LLMs）准确率普遍偏低。尽管广为人知的ChatGPT 3.5平台在回答患者常见问题时表现最佳，其正确率也仅略超一半，且对临床医生问题的正确率仅三分之一；谷歌的Gemini平台在患者和医生可能提出的问题上表现更差。

卡拉姆医生表示：“生成式人工智能发展迅速，正被探索作为医疗领域患者和临床医生教育的资源。随着大型语言模型日益用于回答医学查询，评估其提供准确可靠信息的性能至关重要。”加州大学旧金山分校名誉临床教授、Mid Health公司首席临床官戈德曼医生虽未参与该研究，但向《Medscape医学新闻》表示结果并不意外。她指出：“尽管医学界多数人已在某些场景使用AI，但我认为其回答准确性无法完全保证，临床医生应始终核查参考来源。即使使用OpenEvidence工具，我通常也会通过PubMed搜索类似文章来验证结果。”

戈德曼医生还进行了自主测试：她向某大型语言模型询问其准确性，收到回复称“生成式AI的准确性高度不稳定，因领域、任务复杂度和具体模型差异巨大”，并提到AI可能生成“看似合理但潜在错误的信息”以及“幻觉”——即完全虚构虚假或“想象”内容。她强调：“该研究提醒医护人员，在采信AI信息前需核查参考来源及更年期学会、美国妇产科医师学会（ACOG）等机构指南，并自行进行PubMed检索。同时，医生应教育患者勿轻信AI答案的100%正确性，建议参考更年期学会或ACOG等权威组织信息。切勿接受AI工具的简单回复！”

卡拉姆团队将35个问题——20个患者级问题和15个临床医生级问题——输入四种AI系统：免费版ChatGPT 3.5、付费版ChatGPT 4.0、谷歌Gemini及OpenEvidence（后者仅测试医生级问题）。四位不知晓模型来源的专家评审员依据临床指南评估答案：完全正确得2分，信息不全得1分，错误得0分。研究还通过字数和弗莱施阅读易读性评分（0-100分，分数越低表示内容越复杂难懂）评估患者级回答的可读性。

患者级问题中，ChatGPT 3.5准确率最高（55%），付费版ChatGPT 4.0仅40%，Gemini表现最差（30%）。三款模型字数相近（P = .12），但可读性差异显著：Gemini虽准确性最低，易读性评分达38.9；ChatGPT 4.0内容最复杂，评分仅26.5。医生级问题中，Gemini正确率仅20%；ChatGPT 3.5对患者问题表现最佳，但对医生问题正确率仅33%；ChatGPT 4.0和OpenEvidence均为40%，而OpenEvidence超半数答案（53%）错误，ChatGPT 3.5和Gemini错误率达40%，ChatGPT 4.0不准确率略低（33%）。各平台不完整回答比例在7%-40%之间，例如Gemini对患者问题无遗漏回答（全为正确或错误），但对医生问题的不完整与正确回答各占40%。

戈德曼医生表示：“鉴于技术尚新，模型仍在学习中。若近期重复该研究，结果可能略有不同。”她同时指出，研究样本较小，且假设专家评审员对测试问题的回答高度一致。

该研究未获外部资金支持，卡拉姆声明无利益冲突，戈德曼除任职Mid Health外亦无其他披露事项。塔拉·海尔勒系达拉斯科学与健康领域记者。

【全文结束】