专家建议：风湿病学学生使用AI和大型语言模型学习时应保持谨慎Rheumatology students should ‘take caution’ when using AI, LLMs

环球医讯 / AI与医疗健康来源：www.healio.com美国 - 英语2025-10-28 03:35:26 - 阅读时长2分钟 - 959字

在2025年美国风湿病学会年会上，范德堡大学凯瑟琳·德芬达尔医学博士展示的研究表明，谷歌Gemini和ChatGPT等AI工具生成的风湿病学执照考试题虽语法规范但事实错误率极高，两项平台在事实准确性评分中仅获3.53分（满分10分），错误选项识别得分3.87分，语法技术得分4.65分，总体质量评分5.5分处于中等水平，研究明确指出当前医学生因备考资源稀缺且昂贵而转向AI工具存在重大风险，专家强烈呼吁学习者在使用人工智能辅助医学教育时必须保持高度警惕，确保学习材料的可靠性和有效性以避免临床实践中的潜在危害。

专家建议：风湿病学学生使用AI和大型语言模型学习时应保持谨慎

主要发现：

研究人员要求Gemini和ChatGPT编写风湿病学医学执照考试风格问题
生成内容虽语法正确但存在事实性错误

芝加哥——根据2025年美国风湿病学会年会公布的数据，人工智能和大型语言模型创建的医学执照考试题往往语法正确但事实不准确。

"当前风湿病学专科培训医师普遍通过大量执照考试题进行备考，"范德堡大学(Vanderbilt University)凯瑟琳·德芬达尔医学博士(Catherine Deffendall, MD)表示。

"学习者在使用人工智能或大型语言模型学习时应保持谨慎，"德芬达尔医学博士在会上强调。她指出，现有备考资源数量有限且价格昂贵，同时AI工具的可靠性存在波动。

"我们需要确保这些工具既可靠又有效，"她补充道。

在本次试点研究中，德芬达尔团队评估了谷歌Gemini和ChatGPT免费版生成的医学执照考试题。研究人员针对糖皮质激素诱导性骨质疏松、疫苗接种、间质性肺病、类风湿关节炎及围手术期管理五大主题，向两个平台输入相同提示词，并建立多维度评分标准评估问题准确性与技术质量。

三位活跃于医学教育领域的认证风湿病学家参与评分，计算各AI工具的平均得分。Gemini和ChatGPT各生成5道题目，每题含4-5个选项，风湿病学家从10分制角度评估题目事实准确性。

研究显示，两项平台事实准确性综合得分为3.53分（Gemini 3.72分，ChatGPT 3.34分）。在错误选项是否反映临床常见误判的评估中，综合得分3.87分（Gemini 3.86分，ChatGPT 3.88分）。

"针对我们提出的所有问题，两种模型表现无显著差异，"德芬达尔表示。在语法等技术维度评估中，平台综合得分4.65分（Gemini 4.68分，ChatGPT 4.62分），"基于结构的问题正是大型语言模型表现较优的领域，"她解释道。

德芬达尔指出题目整体质量处于中等水平："1-10分制的综合评分约为5.5分，意味着这些题目整体尚可。"

她着重强调研究的核心结论："学习者在使用人工智能或大型语言模型进行医学学习时必须保持高度谨慎。"

【全文结束】

本文内容由家庭大健康团队所原创或整理，未经授权不得转载、摘编或利用其它方式使用。欢迎分享至朋友圈。
本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

AI内容声明：本页内容撰写过程部分涉及AI（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。

猜你喜欢

医疗试验参与率低使数百万年轻人面临健康风险
格里菲斯药物发现研究所并入生物医学与糖组学研究所开启新篇章
黑人医生揭露偏见性科学如何危及生命——以及必须改变之处
风湿病学与人工智能：时机已至
K.N.塞内维拉特尼教授演讲——2025
人工智能在癌症早期检测中的突破性进展
研究发现流行减肥药物可减轻酒精兴奋感
普渡工程师将与印第安纳大学医生在新中心开展肌肉骨骼健康合作
耶鲁大学以免疫系统为窗口洞察当前与未来健康
可解释人工智能模型在卵巢癌检测中实现突破性准确率

热点资讯

全站热点

全站热文