即使ChatGPT的最新模型在15%的情况下也会给出错误的健康答案。当你询问症状、治疗方法或医疗决策时,某些AI系统的错误率会飙升至50%。宾夕法尼亚州立大学的一项新研究揭示了AI自信回答与实际医疗准确性之间的差距——这对于任何曾向聊天机器人输入"这个皮疹严重吗?"的人来说都是一个现实提醒。
顶级聊天机器人仍会遗漏关键健康细节
认证医师在测试212个真实健康问题时,发现所有主要AI模型都存在显著的准确性差距。
研究人员测试了四种流行的聊天机器人——ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b——这些问题通过大学竞赛形式收集。九位认证医师评估了这些回答,发现大约24%的回答未达到医疗标准。
ChatGPT-4o表现最佳,有效率为84.6%,而Llama3-8b仅能正确回答约一半的问题。一致性问题不仅仅涉及过时的模型——即使是OpenAI的旗舰产品也会犯下可能影响现实世界医疗决策的临床性错误。
医学专业决定AI表现
妇产科问题得分最高,而神经学和皮肤科暴露了所有聊天机器人模型的主要弱点。
问题类型极大地影响了准确率。妇产科和妇科查询表现最佳,而神经学、内科和皮肤科在所有模型中的得分都很低。
这种模式在临床上是有意义的:神经学通常涉及需要专业诊断知识的罕见疾病,而皮肤科则严重依赖视觉评估,纯文本聊天机器人根本无法执行。然而,这些系统仍会自信地提供皮肤状况的意见。研究人员还发现提示长度很重要,60到250个字符是获得准确回答的最佳范围。
增强型AI模型并不总能改善结果
检索增强生成未能一致提高性能,有时甚至使回答变得更差。
研究测试了检索增强生成(RAG),即聊天机器人访问经过整理的医学知识库以获得有根据的回答。这种方法并未在所有模型中持续提高性能。
对于Gemini-1.5 Pro和Llama3-8b,医师实际上更喜欢标准版本而非其RAG增强版本。这一发现表明,仅仅向AI系统提供更多医学数据并不自动转化为更好的临床建议——这对健康AI开发工作是一个令人清醒的现实。
医生看到希望但警告不要替代
医师确定了有用的应用场景,同时强调关键的安全限制,特别是在心理健康场景中。
后续访谈显示,医师认为AI在以下方面有潜力:
- 健康素养支持
- 帮助患者为医生就诊生成有见地的问题
- 判断症状是否需要专业关注
然而,他们强烈警告不要过度依赖、隐私风险,尤其是在心理健康场景中,错误的建议可能是灾难性的。
共识很明确:这些工具不应取代专业医疗建议,尤其是当错误答案可能影响诊断、分诊或治疗决策时。
【全文结束】

