人工智能聊天机器人如ChatGPT能否比谷歌提供更好的医疗答案?一项新研究表明它们可以——但前提是必须以正确的方式提问。
在最近发表于《NPJ数字医学》上的一项研究中,西班牙研究人员调查了四个主要搜索引擎和七个大型语言模型(LLM),包括ChatGPT和GPT-4,在回答150个医学问题时的表现。研究结果揭示了准确性、提示敏感性和检索增强模型效果方面的有趣模式。
大型语言模型
一些最大的失败案例中,AI聊天机器人自信地给出了与医学共识相悖的答案,这些错误在医疗环境中尤其危险。
互联网已成为健康信息的主要来源,数百万人依靠搜索引擎寻找医疗建议。然而,搜索引擎经常返回的结果可能是不完整、误导或不准确的。
大型语言模型(LLM)作为传统搜索引擎的替代品,能够基于庞大的训练数据生成连贯的答案。然而,尽管近期的研究已经考察了LLM在专门的医学领域(如生育和遗传学)中的表现,大多数评估都只关注单一模型。此外,很少有研究比较LLM与传统搜索引擎在健康相关背景下的表现,也很少有研究探讨不同提示策略或结合检索证据对LLM性能的影响。
搜索引擎和LLM的准确性也取决于输入措辞、检索偏差和模型推理能力等因素。此外,尽管前景广阔,LLM有时也会生成错误信息,引发对其可靠性的担忧。
调查LLM的准确性
本研究旨在通过评估搜索引擎和LLM在回答健康相关问题以及检索增强方法的影响来评估其准确性和性能。
研究人员测试了四个主要搜索引擎——Yahoo!、Bing、Google和DuckDuckGo——以及七个LLM,包括GPT-4、ChatGPT、Llama3、MedLlama3和Flan-T5。其中,GPT-4、ChatGPT、Llama3和MedLlama3总体表现最佳,而Flan-T5表现不佳。评估涉及150个来自文本检索会议健康错误信息追踪的二元(是或否)健康相关问题,涵盖了多种医学主题。
搜索引擎经常返回的顶级结果并没有直接回答问题,但当它们确实回答时,这些答案通常是正确的——这突显了精确性问题而不是准确性问题。
对于搜索引擎,分析了排名前20的结果。使用段落提取模型识别相关片段,并使用阅读理解模型确定每个片段是否提供了明确的答案。此外,使用两种模型模拟用户行为:“懒惰”用户在找到第一个是或否答案后停止搜索,“勤奋”用户在决定前交叉引用三个来源。有趣的是,研究发现“懒惰”用户与“勤奋”用户的准确性相似,甚至在某些情况下表现更好,这表明顶级搜索引擎结果通常足够——尽管这在高排名错误信息的情况下引发了担忧。
对于LLM,测试了不同的提示条件:无上下文(仅问题)、非专家(提示用普通人使用的语言表述)和专家(提示引导响应朝向权威来源)。研究还测试了少量示例问题和答案以指导模型的少量示例提示,这改善了一些模型的性能,但对最佳性能的LLM影响有限。研究还探讨了检索增强生成,即在生成响应之前将搜索引擎结果输入LLM。
性能评估基于正确回答问题的准确性、对输入措辞的敏感性以及通过检索增强获得的改进。研究人员还使用统计显著性测试来确定模型之间的有意义的性能差异。虽然某些LLM优于其他模型,但统计测试显示,在许多情况下,领先模型之间的性能差异并不显著,表明顶级LLM在许多情况下表现相当。此外,研究人员分类了常见的LLM错误,如误解、歧义和与医学共识矛盾。研究还指出,虽然“专家”提示通常引导LLM走向更准确的回答,但它有时会增加答案的模糊性。
主要发现
COVID-19相关问题对LLM和搜索引擎来说都更容易回答,可能是因为大流行相关数据在其训练和索引期间占据了主导地位。
研究发现,LLM在回答健康相关问题方面总体上优于搜索引擎。虽然搜索引擎正确回答了50%至70%的问题,但LLM达到了约80%的准确性。然而,LLM的性能高度依赖于输入措辞,不同的提示产生了显著不同的结果。“专家”提示,引导LLM朝着医学共识的方向发展,表现最好,尽管它有时会导致不太明确的答案。
在搜索引擎中,Bing提供了最可靠的结果,但与Google、Yahoo!和DuckDuckGo相比并没有显著优势。此外,许多搜索引擎结果包含非响应或离题的信息,导致精度较低。然而,当仅关注回答问题的结果时,搜索引擎的精度上升到80%至90%,尽管这些结果中仍有大约10%至15%包含错误答案。
此外,与普遍假设相反,研究发现“懒惰”用户有时以较少的努力实现了类似的或更好的准确性,突显了信任初始搜索结果的效率和风险。
此外,研究人员观察到检索增强方法提高了LLM的性能,尤其是对于较小的模型。通过整合顶级搜索引擎片段,即使是轻量级模型如text-davinci-002也能与GPT-4表现相似。然而,研究指出,检索增强有时会降低性能,尤其是在将低质量或不相关的搜索结果输入LLM时——强调了检索质量的关键作用。对于某些数据集,例如2020年的COVID-19相关问题,添加搜索引擎证据甚至恶化了LLM的性能,可能是因为这些问题已经在LLM的训练数据中得到了很好的覆盖。
向AI聊天机器人提供搜索结果并不总是有帮助;在某些情况下,不相关或低质量的片段实际上使聊天机器人的答案变得更糟,表明更多的信息并不总是更好。
错误分析还揭示了LLM的三种主要失败模式,包括对医学共识的错误理解、对问题的误解和模糊的答案。值得注意的是,一些健康相关问题本身就很困难,LLM和搜索引擎都难以提供正确的答案。研究还发现,性能因数据集而异:2020年的问题主要集中在COVID-19上,对LLM和搜索引擎来说都更容易回答,而2021年的数据集提出了更具挑战性的医学问题。
总体而言,尽管LLM表现出更高的准确性,但它们对提示变化和错误信息的倾向突显了基于LLM答案进行医疗决策时需要谨慎。研究还建议,通过检索增强将LLM与搜索引擎结合起来可以产生更可靠的健康答案,但只有当检索到的证据准确且相关时才能实现这一点。
结论
总之,该研究突显了搜索引擎和LLM在回答健康相关问题方面的优缺点。虽然LLM总体上优于搜索引擎,但其准确性被发现高度依赖于输入提示和检索增强。尽管高级模型如GPT-4和ChatGPT表现良好,但在某些数据集和提示策略下,其他模型如Llama3和MedLlama3有时可以匹配甚至超越它们。
此外,尽管结合这两种技术看起来很有前景,但确保检索信息的可靠性仍然是一个挑战。研究人员强调,当小型LLM得到高质量搜索证据的支持时,可以与更大的模型表现相当——这引发了关于是否需要越来越大的AI模型的问题,因为检索增强可能是一种可行的替代方案。这些结果表明,未来的研究应探索提高LLM可信度和减少健康相关AI应用中错误信息的方法。
(全文结束)

