由人工智能(AI)驱动的聊天机器人在提供患者药物信息方面可能不可靠,一项研究显示,这些聊天机器人提供了大量错误或可能有害的回答。
这项研究结果促使研究人员建议,患者和医疗保健专业人士在使用这些旨在模拟人类对话的计算机程序时应谨慎。研究人员发现,他们研究中使用的、嵌入搜索引擎中的AI聊天机器人的回答虽然质量较高,但仍不足以满足需求。根据《BMJ Quality and Safety》杂志上的研究,这些回答的可读性也较低,平均需要大学学位才能理解。
“在这项横断面研究中,我们观察到带有AI聊天机器人的搜索引擎总体上能提供完整且准确的答案来回应患者的问题,”德国埃尔兰根-纽伦堡大学的博士生瓦赫拉姆·安德里基扬(Wahram Andrikyan)领导的研究团队承认。“然而,聊天机器人的回答大多难以阅读,答案经常缺乏信息或存在不准确之处,可能威胁到患者和药物安全。”
研究人员指出,2023年2月,由于引入了AI聊天机器人,搜索引擎的格局发生了重大变化。微软的Bing聊天机器人和谷歌的Gemini(原名Bard)都承诺提供增强的搜索结果、全面的答案和全新的聊天体验。这些聊天机器人基于大型语言模型,这是一种神经网络架构,允许它们在互联网上的大量数据集上进行训练,从而能够讨论任何话题,包括医疗相关查询。然而,使用这些模型也可能存在风险,包括生成虚假信息、无意义或有害内容。
研究人员注意到,这些模型对药物信息的影响主要从医疗专业人士的角度进行了评估,因此他们从患者的角度进行了研究。该研究使用了微软的Bing AI聊天机器人,因为谷歌的聊天机器人通常拒绝回答医疗问题。聊天机器人被问及50种药物的10个问题,涉及药物的用途、作用机制、使用说明、常见副作用和禁忌症。
500个回答的平均Flesch Reading Ease得分仅为37多一点,表明需要大学学位才能理解这些回答。即使是可读性最高的回答也需要高中学历。与同行评审网站drugs.com(该网站提供最新的药物信息供医疗专业人士和患者参考)相比,聊天机器人回答的平均完整性为77%。
随后,七位药物安全专家评估了20个被认为准确性低、完整性差或存在潜在安全风险的聊天机器人回答。其中,超过一半(54%)与科学共识一致,39%与科学共识相矛盾,最后6%没有既定共识。在20个聊天机器人回答的子集中,42%被认为会导致中度或轻度伤害,22%可能导致死亡或严重伤害,如果患者遵循这些建议的话。
“尽管这些聊天机器人具有潜力,但患者仍需咨询医疗专业人士,因为聊天机器人可能无法始终生成无误的信息,”研究人员总结道。“在推荐使用AI驱动的搜索引擎之前,建议谨慎行事,直到出现准确率更高的引用引擎。”
(全文结束)

