伊尔凡·艾哈迈德 2025年12月10日 下午12:08
研究发现,即使是存在缺陷的AI医疗回答,也可能与真实医生的建议一样具有说服力。
对机器建议的日益依赖
发表在《NEJM AI》上的一项新研究显示,人们常常对人工智能系统撰写的医疗回复过于信任,即使这些信息不准确。来自麻省理工学院、斯坦福大学和IBM的研究人员发现,参与者基本上无法区分由大型语言模型生成的建议和持证医生撰写的建议。更令人惊讶的是,他们往往认为AI的回答比医生的回答更值得信赖、更全面。
这些发现反映了生成式AI已迅速进入医疗保健领域。医院和软件提供商已经开始尝试使用自动化助手来处理患者查询和医疗文档。然而,这些系统虽然以流畅性给人留下深刻印象,但也可能产生自信但错误的答案,让普通用户难以确定何时应该信任它们。
研究是如何进行的
研究团队从HealthTap(一个真实医生回答公众咨询的在线平台)收集了150个匿名医疗问题和回答。这些问题涵盖了医学的六个主要领域,从诊断和治疗到康复和健康。研究人员使用GPT-3模型为每个问题生成了相应的AI回答。
四位独立医生对这些AI输出进行评估,判断其准确性,并将其分类为高质量或低质量。基于这一评估,研究人员创建了一个平衡的数据集,包含30个医生回答、30个高准确度AI回复和30个低准确度AI回复。这个数据集构成了三项涉及300名成年参与者的受控在线实验的基础。
参与者经历的情况
在第一个实验中,每位志愿者查看了针对十个医疗问题的医生和AI回答的随机组合。他们被要求猜测回答来源,并评估自己对问题和回答的理解程度。平均而言,参与者仅有一半时间能正确识别作者,大致相当于随机猜测。
当第二组评估相同材料但未被告知回答来源时,他们认为AI生成的回答更清晰、更有说服力。高准确度AI回复在有效性、可信度和完整性方面获得了最高评分。即使是包含事实错误的低准确度AI回答,评分也几乎与医生的回答相同。
第三个实验测试了标签是否会影响观点。参与者被告知每个回答来自三个可能的来源之一:医生、AI或由AI辅助的医生。有趣的是,"医生"标签提高了高准确度AI回答的感知可靠性,但并未提高对低准确度回答的信任度。这表明人们既受到感知到的来源权威性的影响,也受到语言自信程度的影响,而不考虑事实的准确性。
专家评估反映出公众偏见
为了探究专业人士是否也存在类似的偏见,研究人员还让其他医生在两种条件下评估相同的数据集:一种是知道文本是AI还是医生撰写的,另一种是隐藏了这些信息。当去除来源标签时,专家在所有指标上对AI和医生回答的评分几乎相等。但当标签可见时,他们认为AI回答的准确性和完整性较低。这一差异揭示了即使在专业人士中,一旦知道作者身份,也会存在无意识的偏见。
为什么信任可能有风险
这项研究突显了数字医疗中日益增长的困境。虽然语言模型可以生成清晰且富有同理心的文本,但它们偶尔的错误仍可能带来严重后果。研究发现,信任低准确度AI建议的参与者很可能遵循这些建议,包括当这些建议可能导致伤害或引发不必要的医疗就诊时。
因为AI表达方式往往听起来自信且结构清晰,读者可能会将流畅性解读为专业知识。这种组合(令人信服的语气与可能的不准确性配对)创造了一种可靠性的错觉。对于在网上寻找答案的患者来说,这种错觉可能会转化为错误的安心感或误入歧途的自我治疗。
AI在医学中的更广泛影响
研究团队使用了GPT-3这一早期模型,以避免来自最新系统的任何偏见。然而,这些结论也适用于更新的模型,因为即使是高级版本也可能产生自信但错误的答案。作者认为,随着医疗机构采用AI驱动的聊天工具,透明度和人工监督必须保持核心地位。
论文指出,这些发现不应阻碍AI在医疗保健中的使用,而应界定其应用方式。在专业人士监督下,语言模型可以帮助减少行政工作量、支持诊断并改善获取可靠信息的途径。然而,如果没有这种监督,用户可能会接受看起来精致但缺乏医学基础的错误信息。
需要人类判断
《NEJM AI》的结果强调了一个简单但至关重要的真理:人们重视清晰的答案,而AI现在以惊人的流畅性提供这些答案。然而,清晰并不等同于正确。随着人类与机器专业知识之间的界限继续模糊,提供安全指导的责任仍然掌握在合格的临床医生手中。人工智能可以协助,但医学中的信任最终必须通过人类判断赢得,而不是算法的华丽辞藻。
【全文结束】

