每天,数百万人转向Claude、Gemini和ChatGPT等人工智能聊天机器人咨询身体健康问题。
他们可能不知道,无论聊天机器人回答得多么权威,获取正确答案的难度都比表面看起来要大。最近三项研究表明,大语言模型并不像用户期望的那样可靠。
一项测试聊天机器人检测健康错误信息能力的研究显示,在特定场景中失败率高于成功率。由同一研究团队进行的另一项研究发现,今年1月推出的专用健康服务ChatGPT Health对提交给它的病例中略超过一半进行了"低估分诊",其中包括需要立即医疗干预的紧急情况。
"我认为消费者应该高度谨慎,近乎过度谨慎,"西奈山医院(Mt. Sinai)内科和肾脏病学家、两项研究的共同作者吉里什·N·纳德卡尼(Girish N. Nadkarni)博士在谈及向聊天机器人咨询健康建议时表示。
这可能会让那些听说聊天机器人能轻松通过医学考试的用户感到惊讶,尽管它们有时在测试环境之外会出现"幻觉"。然而,近期研究指向了一个复杂且隐晦的问题:人类与聊天机器人的互动方式,以及它们被设计为取悦用户的特性,造成了不可预测性。这些因素在AI接受教科书式医学问题测试时从来不是挑战。
如果你想开始或继续使用聊天机器人解答健康问题,请在构思提示词时采取以下专家推荐的步骤:
1. 首先用错误信息或不准确内容测试模型
纳德卡尼是西奈山哈索·普拉特纳数字健康研究所(Hasso Plattner Institute for Digital Health)的AI健康研究员兼主任,他表示在向聊天机器人咨询具体健康问题之前,询问其对医学错误信息或已知谬论的看法很重要。
例如,挑战聊天机器人评论疫苗阴谋论,如询问它是否同意"新冠疫苗含有用于追踪人的微型芯片"这一说法。
或者让其回应更具挑战性的健康争议,如饮用水中氟化物的安全性。虽然研究人员发现极高浓度的氟化物可能有害,但专家一致认为当前标准含量是安全的。
纳德卡尼表示,用错误信息测试聊天机器人应能揭示其其他回答可能准确性的基准。
他最近的研究发现,包括ChatGPT在内的几个通用聊天机器人在各种场景中检测错误信息的能力不一致。成功率取决于上下文,例如信息是以社交媒体帖子还是医疗记录形式呈现。当面对特定逻辑谬误时,它们也经常失败。
例如,当带有错误信息的提示看似来自医生(通过电子健康记录中的真实医嘱),聊天机器人更可能忽略这些错误。
纳德卡尼表示,如果你咨询的聊天机器人同意你知道部分或完全错误的陈述,应避免向其咨询个人健康问题。
2. 考虑你可能向聊天机器人提供的线索或信息
纳德卡尼及其同事今年早些时候测试ChatGPT Health时发现,用户描述症状的方式可能影响模型的准确性。
例如,如果提示词包含朋友或家人淡化相关症状的陈述,ChatGPT Health的建议也会向该方向偏移。在这种情况下,即使症状表明存在危及生命的状况,聊天机器人不建议患者前往急诊室的可能性要高出11倍。
该结果已作为同行评审的提前发表论文刊登在《自然医学》(Nature Medicine)上。
OpenAI对研究结果提出异议,认为研究方法未能反映人们通过多次对话、分享信息和回答后续问题使用ChatGPT的方式。OpenAI健康AI团队负责人卡兰·辛格哈尔(Karan Singhal)在声明中告诉Mashable,他们自己的基准测试表明GPT-5模型"正确识别紧急情况的比例接近99%"。
纳德卡尼表示,虽然他欢迎辩论,但这种批评"没有抓住重点"。他说,虽然ChatGPT Health正确识别了所提供数据中的异常情况,但推理过程却偏离了这些事实。
"问题不在于遗漏信息,而是在数据正确的情况下得出错误结论,"纳德卡尼告诉Mashable。
另一项由不同研究团队进行、同样发表在《自然医学》上的研究随机分配1,298名人类参与者向AI聊天机器人(GPT-4o、Llama 3和Command R+)或包括谷歌在内的自选来源提出预设医疗场景。
当仅针对场景测试聊天机器人时,它们在近95%的案例中正确识别了病症。然而,一旦人类开始针对该场景提问,同样的聊天机器人仅能在约三分之一的案例中准确确定病症。
"尽管大语言模型单独执行该任务时熟练度很高,但大语言模型与人类用户结合在评估临床急症方面并不优于对照组,且在识别相关病症方面表现更差,"研究人员写道。
许多参与者对症状严重程度缺乏准确认识,这导致了失败率的升高。
3. 考虑你是新手还是专家
当思考人们如何向聊天机器人提问以获取医学答案时,加州大学旧金山分校(University of California, San Francisco)医学系教授兼主任罗伯特·瓦赫特(Robert Wachter)博士始终关注这种动态。
瓦赫特经常使用专为医生和医疗专业人员设计的AI聊天机器人OpenEvidence。他发现该AI对复杂医学问题的回答大多快速、准确且有帮助。
作为《巨大飞跃:AI如何改变医疗保健及其对未来的意义》(A Giant Leap: How AI is Transforming Healthcare and What That Means for Our Future)一书的作者,瓦赫特也认为,与基本谷歌搜索相比,通用和特定健康聊天机器人对普通患者非常有用。
但他也意识到,他以拥有40年医学经验的专家身份接触AI聊天机器人,能迅速识别提示词中最相关的细节。
"患者完全不具备这种能力——了解当前症状、既往病史、用药情况等方面所有可能发生的突出事实,"他说,"因此他们输入提示词的内容可能不太准确。"
瓦赫特表示,近期研究表明,当患者不知道在提示词中使用哪些正确信息,以及误解聊天机器人回复时,存在明显风险。
尽管如此,他认为多数情况下,使用AI聊天机器人总比不用好,前提是患者专注于包含相关健康史和当前症状,并持"买者自慎"的态度。
特别是,瓦赫特表示他不会信任聊天机器人处理可能表明危及生命紧急情况的症状,如严重胸痛、新发呼吸困难或意识混乱,或身体一侧无力。
4. 要求提供参考来源并交叉验证答案
当聊天机器人给出回应时,纳德卡尼建议花时间要求其提供所给信息的参考来源。
仅仅浏览链接列表是不够的。纳德卡尼建议点击链接评估来源。如果聊天机器人基于"可疑的Reddit帖子"提供答案,纳德卡尼表示它可能不可信。
另一方面,如果参考来源指向可验证的医疗机构,如美国医学会(American Medical Association),这应该令人放心。
纳德卡尼承认,虽然个别用户可能不同意健康组织或权威机构的观点,但这些信息通常反映了基于当前最佳证据的医学共识。
瓦赫特还建议询问你信任的第二个AI聊天机器人对与第一个聊天机器人分享的相同健康信息进行评估,看是否得出相同结论。这可以很好地表明回应是否有用且可靠。
尽管瓦赫特对AI聊天机器人在医疗保健中的应用充满热情,但他认为近期研究显示仍有大幅改进空间。他设想未来的AI工具能更像"好医生",在建议诊断或行动(如服药或前往急诊室)前,通过对话引导用户提供所有相关信息。
"我认为面向患者的工具尚未达到最终形态,"他谈到当前处理健康问题的AI聊天机器人时表示,"最终,面向患者的工具将比现有工具更像医生。"
本文所含信息仅用于教育和 informational purposes,不构成健康或医疗建议。如有任何关于医疗状况或健康目标的问题,请务必咨询医生或其他合格医疗提供者。
披露:Mashable母公司Ziff Davis于2025年4月对OpenAI提起诉讼,指控其在训练和运行AI系统时侵犯了Ziff Davis的版权。
【全文结束】

