越来越多的人转向像ChatGPT这样的大型语言模型(LLM)寻求医疗建议。它们可以被信任吗?
“不完全错误,但也不精确。”科学家们对像ChatGPT这样的AI模型提供的医疗建议的质量和可靠性发表了看法。
更多的人正在转向像ChatGPT这样的大型语言模型(LLM)来寻求医疗建议。它们可以被信任吗?
“什么是红斑狼疮?” “流感会持续多久?” “如何治疗痔疮?” 这些是人们向ChatGPT询问的一些最常见的健康问题。
像ChatGPT这样的大型语言模型(LLM)提供个性化健康建议的流行度正在增长。根据2024年中期对约2,000名澳大利亚人的调查,现在每十个澳大利亚人中就有一个使用该平台来询问医疗问题。
周二发布的一项研究发现,使用ChatGPT寻求医疗建议的人中有61%问的是通常需要临床建议的问题。
“AI工具受欢迎是因为它们可以快速回答任何问题。然而,所有这些工具都有一个风险,即它们可能会给出错误的答案,”悉尼大学的研究作者朱莉·艾尔(Julie Ayre)说。
随着越来越多的人使用AI模型来询问他们的健康状况,它们可以被信任吗?DW展开了调查。
ChatGPT在诊断医疗问题上的可靠性如何?
研究人员正在围绕大型语言模型(LLM)提供的医疗建议的(不可靠性)建立科学共识,然而,随着新模型和更好算法的发布和更新,这些发现很快就会过时。
一项2024年的研究挑战了ChatGPT3.5,给它提供了150个医疗案例——包括病史、症状和医院测试数据——并要求AI做出诊断和治疗计划。
结果并不理想。ChatGPT只有49%的时间能正确给出正确的诊断和治疗计划,这使得它成为一个不可靠的工具。作者得出结论:“尽管ChatGPT接受了大量信息的训练,但它并不一定能提供事实上的正确性。”
DeepSeek的AI革命对你意味着什么
另一项研究得出结论,ChatGPT“不能可靠地提供适当和个性化的医疗建议”,但可以提供适合于医学问题的背景信息。
当研究人员在2023年评估ChatGPT上的医疗信息质量时,他们向ChatGPT3.5提出了一个问题:“为什么你需要治疗由胆结石引起的黄疸?” 它回答说,减轻黄疸可以改善患者的外观,从而提高自尊心。
“这并不是临床理由,”英国皇家自由伦敦NHS基金会信托的外科医生塞巴斯蒂安·施陶布利(Sebastian Staubli)说,他领导了这项研究。
更新后的ChatGPT4.0对这个问题给出了更好的答案,强调了防止器官损伤和疾病进展的重要性。
LLMs重复但不理解信息
ChatGPT的问题在于,虽然它的医疗建议并非完全错误,但也并不完全精确。
AI模型所训练的信息质量决定了其医疗建议的质量。问题是,没有人确切知道特定模型是基于哪些信息进行训练的。
施陶布利告诉DW:“像ChatGPT这样的LLM‘基本上使用数据爬虫收集的任何信息,这些爬虫从互联网上抓取信息。’”
这包括来自卫生机构如NHS或WHO等经过科学和医学验证的信息。但它也可以包含来自Reddit帖子、研究不足的健康文章和维基百科文章的不可靠信息。
“最大的问题是,如果你有很多错误或过时的信息,它们在AI模型中占有很大的权重,它会认为这是正确的答案。它无法理解新信息可能是正确答案,”施陶布利说。
LLM学习和处理信息的方式与人类智能根本不同
AI无法解决问题、进行演绎分析或像人类思维那样做出权衡判断。相反,AI“学习”了大量信息,然后在提示下重复这些信息。
“归根结底,LLM只是统计预测下一个最有可能出现的词。这就是为什么它们会重复在网上找到的最常见的信息,”施陶布利说。
网上坏信息和好信息一样频繁地得到强化,但AI模型无法区分两者的差异。
AI不会很快取代人类医疗专业人员
尽管存在缺陷,LLM对于想要更好地了解自己健康状况的人来说仍然非常有帮助。它们的优势在于简化健康信息和解释医学术语,而且它们对一般健康问题的准确性随着时间的推移有所提高。
艾尔表示,他们的澳大利亚研究发现,使用ChatGPT寻求医疗建议的比例较高的人群是那些在获取和理解健康信息方面面临挑战的人,例如“健康素养低的人和来自文化语言多样社区的人”。
施陶布利也表示,LLM“赋予患者权力,使他们对自己的健康状况更加了解”。
“然而,患者必须明白,大多数人也明白,信息的质量可能存在缺陷。”
AI无法告知用户哪些医疗信息是基于证据的,哪些是有争议的,甚至哪些信息代表了护理标准。
这就是为什么任何AI都无法取代与医疗专业人员的对话,施陶布利说。
当被问及ChatGPT的医疗建议的可靠性时,ChatGPT回应说:“虽然我可以提供关于医疗主题的一般信息并解释健康概念,但我不是专业医疗建议的替代品。”
(全文结束)