赫尔辛基——根据在第18届欧洲公共卫生大会上公布的新研究,大型语言模型(LLM)Gemini 1.0在提供抗微生物药物耐药性(AMR)健康信息的质量上优于主流模型,包括ChatGPT-3.5、4.0和Claude 2.0。米兰天主教圣心大学(UNICATT)公共卫生医学博士兼副教授马塞洛·迪·蓬波表示:“数据表明Gemini的设计优先考虑用户安全与可访问性,体现了信息与谨慎的刻意平衡,这一特性对健康传播尤为重要。”
迪·蓬波强调了全球AMR威胁的紧迫性以及公众日益依赖商业人工智能(AI)工具获取健康信息的趋势。“因此,了解这些模型能否在避免传播错误信息或过度自信的情况下恰当地沟通AMR问题至关重要。”他解释道,Gemini 1.0尽管仅在五次提示后触发自我抑制机制,但其输出内容可读性最高、情境敏感性强且词汇最为丰富。“它用‘我仅是聊天机器人,请咨询专家’等语句进行自我抑制,凸显了一种新兴的伦理保障机制,即模型主动规避高风险或不恰当建议。”然而,他同时指出所有LLM生成的健康信息均需专家审核:“尽管LLM是前景广阔的工具,但它们并非总能提供完美答案的魔法工具,强烈建议进行专家监督并转诊至医学专家。”
抗微生物药物耐药性信息质量的重要性
LLM广泛使用的公共卫生影响目前尚不明确。本研究评估了AI系统能否通过向普通用户提供可靠且易获取的信息来支持安全的抗菌药物使用。研究测试了三款商用LLM——ChatGPT-3.5、4.0、Claude 2.0和Gemini 1.0,从内容质量、可访问性及情境意识三方面比较其性能,并使用非专业用户的典型问题进行提示。迪·蓬波表示:“AI尤其是大型语言模型的兴起正开始改变健康传播方式。由于这些系统提供个性化、全天候的健康信息,它们对行为改变具有巨大潜力。早期研究已证明LLM在传递健康信息和引导用户参与预防实践方面的潜力,但其日益普及的准确性、可读性等特性需经专家评估。”研究采用双重分析法:计算文本分析测量字数、可读性、词汇多样性及情感倾向;临床专家则使用改良版DISCERN工具评估可靠性、AMR专项意识、说服力及整体质量。
Gemini整体领先但抗微生物药物耐药性知识仍薄弱
迪·蓬波报告称,所有模型均表现出过度积极的语调,虽具安抚作用却可能掩盖临床情境中的细微风险。Gemini整体表现最佳:“它不仅生成最长回复和最高词汇多样性,答案语调也最为积极。”相比之下,Claude的回复两极分化明显(极度消极或积极),表明其语调稳定性低于其他模型。如预期般,基于早期架构的ChatGPT-3.5表现最弱,ChatGPT-4.0在回复长度和详尽度上有所改进,答案更完整但可读性仍仅中等;Claude 2.0的回复时而过短时而冗长,语调多为积极或中性。
所有模型在AMR专项内容上表现最差。“AMR领域得分最低,表明其讨论抗微生物药物耐药性问题的能力持续薄弱(与专家对比)。”迪·蓬波指出,“Gemini表现最佳,早期版ChatGPT最差,Gemini与其他模型间差距显著,尤其早期ChatGPT严重落后。”所有模型均未生成易于阅读的输出,可读性仅相当于高中教育水平,限制了低识字群体的获取能力;此外,语言还反映出对英语训练数据的偏差倾向。迪·蓬波强调:“LLM有望变革健康传播,但专家监督必不可少,因为科学界尚未充分评估LLM所提供信息的公共卫生影响。”在未于会议展示的补充分析中,他向Medscape欧洲新闻透露,LLM或可“帮助全科医生提升与患者沟通AMR的能力,他们甚至可在常规场景中将聊天机器人作为对话三角验证工具(尤其支持语音时),但敏感情况除外。”
临床医生呼吁引导患者合理使用
英国布莱顿与苏塞克斯医学院流行病学与公共卫生医学教授、会议主持人安朱姆·梅蒙博士评论道:“这些工具在赋能患者了解AMR知识及促进自我护理方面非常有用,但不应完全依赖或鼓励自我治疗,务必咨询全科医生。”相关结果已发表于《BMJ健康与护理信息学》杂志。迪·蓬波与梅蒙均未披露相关利益冲突。
【全文结束】

