专家建议:风湿病学学生使用AI和大型语言模型学习时应保持谨慎Rheumatology students should ‘take caution’ when using AI, LLMs

环球医讯 / AI与医疗健康来源:www.healio.com美国 - 英语2025-10-28 03:35:26 - 阅读时长2分钟 - 959字
在2025年美国风湿病学会年会上,范德堡大学凯瑟琳·德芬达尔医学博士展示的研究表明,谷歌Gemini和ChatGPT等AI工具生成的风湿病学执照考试题虽语法规范但事实错误率极高,两项平台在事实准确性评分中仅获3.53分(满分10分),错误选项识别得分3.87分,语法技术得分4.65分,总体质量评分5.5分处于中等水平,研究明确指出当前医学生因备考资源稀缺且昂贵而转向AI工具存在重大风险,专家强烈呼吁学习者在使用人工智能辅助医学教育时必须保持高度警惕,确保学习材料的可靠性和有效性以避免临床实践中的潜在危害。
风湿病学医学执照考试人工智能大型语言模型学习谨慎GeminiChatGPT事实准确性医学学习健康
专家建议:风湿病学学生使用AI和大型语言模型学习时应保持谨慎

主要发现:

  • 研究人员要求Gemini和ChatGPT编写风湿病学医学执照考试风格问题
  • 生成内容虽语法正确但存在事实性错误

芝加哥——根据2025年美国风湿病学会年会公布的数据,人工智能和大型语言模型创建的医学执照考试题往往语法正确但事实不准确。

"当前风湿病学专科培训医师普遍通过大量执照考试题进行备考,"范德堡大学(Vanderbilt University)凯瑟琳·德芬达尔医学博士(Catherine Deffendall, MD)表示。

"学习者在使用人工智能或大型语言模型学习时应保持谨慎,"德芬达尔医学博士在会上强调。她指出,现有备考资源数量有限且价格昂贵,同时AI工具的可靠性存在波动。

"我们需要确保这些工具既可靠又有效,"她补充道。

在本次试点研究中,德芬达尔团队评估了谷歌Gemini和ChatGPT免费版生成的医学执照考试题。研究人员针对糖皮质激素诱导性骨质疏松、疫苗接种、间质性肺病、类风湿关节炎及围手术期管理五大主题,向两个平台输入相同提示词,并建立多维度评分标准评估问题准确性与技术质量。

三位活跃于医学教育领域的认证风湿病学家参与评分,计算各AI工具的平均得分。Gemini和ChatGPT各生成5道题目,每题含4-5个选项,风湿病学家从10分制角度评估题目事实准确性。

研究显示,两项平台事实准确性综合得分为3.53分(Gemini 3.72分,ChatGPT 3.34分)。在错误选项是否反映临床常见误判的评估中,综合得分3.87分(Gemini 3.86分,ChatGPT 3.88分)。

"针对我们提出的所有问题,两种模型表现无显著差异,"德芬达尔表示。在语法等技术维度评估中,平台综合得分4.65分(Gemini 4.68分,ChatGPT 4.62分),"基于结构的问题正是大型语言模型表现较优的领域,"她解释道。

德芬达尔指出题目整体质量处于中等水平:"1-10分制的综合评分约为5.5分,意味着这些题目整体尚可。"

她着重强调研究的核心结论:"学习者在使用人工智能或大型语言模型进行医学学习时必须保持高度谨慎。"

【全文结束】

大健康

猜你喜欢

  • 人工智能助力科学家修正医学研究中的错误人工智能助力科学家修正医学研究中的错误
  • 黑人医生揭露偏见性科学如何危及生命——以及必须改变之处黑人医生揭露偏见性科学如何危及生命——以及必须改变之处
  • 全球最大阿尔茨海默病认知提升活动将在锡耶纳大学举行全球最大阿尔茨海默病认知提升活动将在锡耶纳大学举行
  • 医疗试验参与率低使数百万年轻人面临健康风险医疗试验参与率低使数百万年轻人面临健康风险
  • K.N.塞内维拉特尼教授演讲——2025K.N.塞内维拉特尼教授演讲——2025
  • 耶鲁大学以免疫系统为窗口洞察当前与未来健康耶鲁大学以免疫系统为窗口洞察当前与未来健康
  • 2025年脑血管/中风研讨会2025年脑血管/中风研讨会
  • 可解释人工智能模型在卵巢癌检测中实现突破性准确率可解释人工智能模型在卵巢癌检测中实现突破性准确率
  • 研究发现流行减肥药物可减轻酒精兴奋感研究发现流行减肥药物可减轻酒精兴奋感
  • 培养医学生适应医疗人工智能培养医学生适应医疗人工智能
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康