AI作为健康顾问的崛起
外周动脉疾病(PAD)是一种常见但严重的循环系统问题,其特征是动脉狭窄导致四肢血流减少。作为动脉粥样硬化的一种常见形式,PAD显著增加了心脏病发作和中风的风险。随着越来越多的人通过互联网和人工智能获取医疗信息,了解这些答案的准确性和易懂性变得至关重要。最近的一项研究旨在通过比较两种最强大的AI模型——OpenAI的ChatGPT和谷歌的Gemini,来找出答案。
对比AI巨头:研究设计
研究人员进行了一项直接比较,以评估AI生成的关于PAD的健康内容质量。他们从克利夫兰诊所(Cleveland Clinic)值得信赖的患者指南中选取了19个常见问题,并向ChatGPT 4.0和Gemini 1.0提出了这些问题。为了测试AI角色设定的影响,研究使用了三种不同的提示方式:中性提示、要求AI像对患者一样回答的提示,以及要求AI像对医生一样回答的提示。
随后,研究人员对回答进行了严格的分析,评估其准确性、完整性、可读性和长度。
结果:准确性和完整性
在提供正确信息方面,ChatGPT明显占据优势。研究发现,ChatGPT的回答中有70%完全正确,30%部分正确。更重要的是,它没有给出任何错误答案。
Gemini的表现也不错,但略逊一筹,有52%的回答完全正确,45%部分正确,3%的回答错误。两者的准确性差异具有统计学意义,表明在这次测试中,ChatGPT是更可靠的信息来源。
可读性:患者的障碍
虽然准确性至关重要,但如果患者无法理解信息,这些信息就毫无用处。国家健康指南建议,患者教育材料应写成适合6至8年级阅读水平的内容。
遗憾的是,两种AI模型都远远未达到这一标准。研究分析显示,ChatGPT和Gemini生成内容的平均Flesch-Kincaid(FK)等级约为10.8级——接近11年级水平。这种高级别的阅读难度可能成为许多试图了解自己病情的患者的重大障碍。
冗长与简洁:字数分析
研究还发现,回答的长度存在显著差异。ChatGPT的回答一贯比Gemini的要长得多。虽然更多的细节有时会有所帮助,但也可能导致更高的阅读难度,并让寻求简短直白答案的用户感到不知所措。
患者和医疗服务提供者的关键启示
那么,能否信任AI提供的健康建议?这项研究表明,答案是有条件的“可以”。ChatGPT和Gemini都可以作为患者教育的有用补充工具,其中ChatGPT在准确性上目前占据优势。
然而,它们不能替代专业的医疗建议。它们使用的复杂语言是一个主要问题,开发者需要解决这一问题。研究人员得出结论,目前AI最好用作与医疗服务提供者讨论的起点。随着AI不断发展,进一步的研究和改进将是确保其成为对所有人安全、便捷且有效的资源的关键。
(全文结束)

