错误答案、混淆建议与个性化信息处理困难困扰医疗AI聊天机器人
研究表明,AI聊天机器人正努力成为医疗保健领域的重大突破,它们在标准化测试中表现出色,为医疗问题提供建议。但发表于《自然·医学》的新研究显示,这些技术不仅远未达到应用标准,甚至可能带来危险。
由牛津大学多个团队主导的研究发现大型语言模型存在显著缺陷:尽管在医学知识理解方面技术先进,但在帮助用户解决个人医疗问题时严重不足。
“尽管存在大量炒作,AI尚未准备好承担医生角色,”该研究首席医疗专家丽贝卡·佩恩博士在公布研究成果的声明中表示,“患者必须意识到,向大语言模型咨询症状可能十分危险,它会给出错误诊断,且无法识别紧急医疗需求。”
研究邀请1300名参与者使用OpenAI、Meta和Cohere开发的AI模型识别健康状况。研究人员设计了一系列由医生制定的医疗场景,要求AI系统指导用户下一步处理措施。结果显示,AI的决策准确率不优于传统自诊方法,例如网络搜索甚至个人判断。
研究还发现用户与AI存在信息断层:用户难以判断大语言模型需要哪些信息才能提供准确建议。他们同时收到优质和劣质建议,导致后续行动难以确定。
佩恩博士向Decrypt表示:“作为医生,正确诊断远不止于事实记忆,医学既是科学也是艺术。倾听、探询、澄清、确认理解及引导对话至关重要。医生主动挖掘相关症状,因为患者常不知哪些细节重要。”她解释道,研究证明大语言模型“尚不可靠地管理与非专家的动态交互”。
研究团队总结认为,当前AI完全不适合提供医疗建议,若要在医疗领域正确应用,必须建立新的评估体系。不过,这并不意味着AI在医疗领域毫无价值。
佩恩指出,虽然大语言模型“在医疗领域确有作用”,但应定位为“秘书而非医生”。该技术擅长“总结和重组已接收的信息”,目前已被用于诊室“转录会诊内容,并将信息重新包装为转诊 specialist 的信函、患者信息表或医疗记录”。
团队强调,他们并不反对在医疗中应用AI,但希望此项研究能引导技术朝着正确方向发展。
【全文结束】

