医学中的过度概括问题——以及人工智能如何可能使其恶化Medicine's over-generalization problem—and how AI might make things worse

环球医讯 / AI与医疗健康来源:medicalxpress.com美国 - 英语2025-05-02 00:27:00 - 阅读时长4分钟 - 1883字
本文探讨了医学研究中过度概括的问题,指出研究人员和大型语言模型(LLMs)在总结研究结果时倾向于做出超出数据支持范围的广泛声明,这可能导致误解和误用。
医学研究过度概括健康传播人工智能大型语言模型泛化陈述精确性医学写作科学理解患者治疗
医学中的过度概括问题——以及人工智能如何可能使其恶化

在医学领域,有一条广为人知的原则:不要说超过你的数据所能支持的内容。这是临床医生和研究人员最早学到的一课。

期刊编辑期望这一点,审稿人要求这一点,而医学研究人员大多也遵守这一原则。他们会进行修饰、限定并缩小他们的主张——尽管这样做可能会牺牲清晰度。以一篇典型的临床试验报告为例:

“在一项针对498名欧洲复发或难治性多发性骨髓瘤患者的随机试验中,该治疗使无进展生存期中位数增加了4.6个月,3-4级不良事件发生率为60%,生活质量评分略有改善,但这些发现可能不适用于年龄较大或身体状况较差的人群。”

这是最精确但也最令人疲惫的医学写作。虽然准确,但并不容易理解。

因此,这些谨慎的结论往往会被简化成更干净、更自信的表述。上述例子可能会被简化为:“该治疗延长了生存期并提高了生活质量。”“该药物具有可接受的毒性。”“多发性骨髓瘤患者受益于新治疗方法。”这种表述清晰且简洁——但通常超出了数据所支持的范围。

哲学家称这类陈述为泛化陈述——没有明确量词的概括。像“该治疗有效”或“该药物安全”这样的说法听起来很有权威性,但它们并没有说明适用人群、数量、比较对象或条件。

医学研究中的泛化

在之前关于健康传播伦理的研究中,我们强调了医学研究中的泛化陈述如何抹去细微差别,将狭窄的、特定人群的研究结果转化为广泛的声明,读者可能会将其错误地应用于所有患者。

通过对顶级医学期刊上500多项研究的系统回顾,我们发现超过一半的研究做出了超出研究人群范围的泛化。其中超过80%是泛化陈述,而不到10%提供了这些广泛声明的任何依据。

研究人员倾向于过度概括可能是由于一种更深层次的认知偏见。面对复杂性和有限的注意力,人们自然会倾向于更简单、更广泛的声明——即使这些声明超出了数据的支持范围。事实上,解释数据、讲述连贯故事的愿望甚至会让谨慎的研究人员过度概括。

人工智能(AI)现在威胁要显著加剧这一问题。在我们的最新研究中,我们测试了10种广泛使用的大型语言模型(LLMs)——包括ChatGPT、DeepSeek、LLaMA和Claude——对顶级医学期刊摘要和文章的总结能力。

即使提示准确性,大多数模型仍经常删除限定词、简化研究结果,并将研究人员精心上下文化的声明重新包装为更广泛的陈述。

由AI生成的摘要

分析近5000篇LLM生成的摘要,我们发现某些模型的过度概括率高达73%。他们常常将非泛化声明转换为泛化声明,例如从“该治疗在本研究中有效”转变为简单的“该治疗有效”,从而误导了研究的真实范围。

值得注意的是,当我们比较LLM生成的摘要与人类专家撰写的摘要时,聊天机器人几乎五倍地更有可能产生广泛的泛化。但最令人担忧的是,较新的模型——包括ChatGPT-4o和DeepSeek——倾向于更多而不是更少地进行泛化。

这些发现的原因是什么?通过训练过泛化的科学文本,LLMs可能会继承输入中的人类偏见。通过从人类反馈中强化学习,它们也可能开始偏好自信、广泛的结论,而不是谨慎、上下文化的声明,因为用户通常更喜欢简洁、坚定的回答。

由此导致的沟通风险很高,因为研究人员、临床医生和学生越来越多地使用LLMs来总结科学文章。

在最近的一项全球调查中,近5000名研究人员中有近一半表示已经在他们的研究中使用AI——并且58%认为AI目前在文献总结方面比人类做得更好。有些人声称LLMs在临床文本总结方面可以超越医学专家。

我们的研究对此乐观态度提出了质疑。这些工具产生的过度概括有可能大规模扭曲科学理解。这在医学等高风险领域尤其令人担忧,在这些领域中,人群、效应大小和不确定性等细节非常重要。

精确性很重要

那么该怎么办呢?对于人类作者来说,更清晰的指南和编辑政策可以减少医学写作中的过度概括。此外,使用LLMs进行总结的研究人员应选择Claude——我们在研究中最准确的LLM——并保持警惕,即使善意的准确性提示也可能适得其反。

AI开发者可以在他们的LLMs中构建提示,鼓励在总结研究时使用更加谨慎的语言。最后,我们的研究方法可以帮助在实际部署前基准测试LLMs的过度概括倾向。

在医学研究中,精确性不仅在于我们如何收集和分析数据,还在于我们如何传达数据。我们的研究表明,人类和机器都有过度概括的共同倾向——说出超出数据支持范围的内容。

解决这一倾向意味着对自然和人工智能都提出更高的标准:不仅要审查研究人员如何传达结果,还要审查我们如何训练这些日益影响沟通的工具。在医学领域,谨慎的语言至关重要,以确保正确的治疗方法能够基于真正适用的证据,惠及正确的患者。


(全文结束)

大健康

猜你喜欢

  • 顶级医生呼吁暂停每年数百万次的CT扫描,因其可能引发癌症顶级医生呼吁暂停每年数百万次的CT扫描,因其可能引发癌症
  • 提高高风险场景下对人工智能的信任提高高风险场景下对人工智能的信任
  • Skin Analytics的皮肤科AI获准在NHS中使用Skin Analytics的皮肤科AI获准在NHS中使用
  • AI揭示基因中影响疾病易感性的隐藏模式AI揭示基因中影响疾病易感性的隐藏模式
  • 青少年微生物组变化可能决定痤疮风险青少年微生物组变化可能决定痤疮风险
  • 宏基因组学:一种革命性的诊断技术宏基因组学:一种革命性的诊断技术
  • 医生们会推荐医学职业吗?20位领导者的看法医生们会推荐医学职业吗?20位领导者的看法
  • 药房领导者在Asembia的AXS25峰会上讨论创新和以患者为中心的护理药房领导者在Asembia的AXS25峰会上讨论创新和以患者为中心的护理
  • AI在膳食规划中的应用:大型语言模型提升健康准确性AI在膳食规划中的应用:大型语言模型提升健康准确性
  • Humata Health助力实现首个无接触预授权——从下单到批准Humata Health助力实现首个无接触预授权——从下单到批准
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康