研究人员警告不要依赖AI聊天机器人获取药物安全信息 - AI与医疗健康

研究人员警告不要依赖AI聊天机器人获取药物安全信息Researchers warn against relying on AI chatbots for drug safety information

环球医讯 / AI与医疗健康来源：www.news-medical.net英国 - 英语2024-10-11 09:00:00 - 阅读时长4分钟 - 1683字

研究人员在《BMJ质量与安全》杂志上警告，患者不应依赖AI驱动的搜索引擎和聊天机器人来获取准确和安全的药物信息，因为在他们的一项研究中发现，相当数量的答案是错误的或可能有害的。

研究人员在《BMJ质量与安全》杂志上警告，患者不应依赖AI驱动的搜索引擎和聊天机器人来获取准确和安全的药物信息，因为在他们的一项研究中发现，相当数量的答案是错误的或可能有害的。此外，提供的答案的复杂性可能会使患者在没有学位水平教育的情况下难以完全理解，研究人员补充道。

2023年2月，搜索引擎经历了一次重大转变，得益于AI聊天机器人的引入，这带来了增强的搜索结果、全面的答案和一种新的互动体验，研究人员解释说。虽然这些聊天机器人可以基于整个互联网的广泛数据集进行训练，能够讨论任何主题，包括医疗相关的查询，但它们也能够生成错误信息、无意义或有害的内容。

之前关于这些聊天机器人的影响的研究主要集中在医疗专业人员的角度，而不是患者的视角。为了弥补这一不足，研究人员探索了聊天机器人对美国2020年最常用的50种处方药的查询的回答的可读性、完整性和准确性，使用了具有AI聊天机器人功能的搜索引擎Bing Copilot。为了模拟患者咨询聊天机器人获取药物信息，研究人员查阅了研究数据库，并咨询了临床药师和药理学专家，确定了患者最常向医疗专业人员询问的药物问题。每个药物提出了10个问题，共生成了500个答案。这些问题涵盖了药物的用途、作用机制、使用说明、常见副作用和禁忌症。

聊天机器人提供的答案的可读性通过计算Flesch阅读易度分数来评估，该分数估计理解特定文本所需的教育水平。得分在0到30之间被认为是极难阅读，需要学位水平的教育。另一端，得分在91到100之间意味着文本非常容易阅读，适合11岁的孩子。为了评估聊天机器人的答案的完整性和准确性，研究人员将这些答案与同行评审和最新的药物信息网站（drugs.com）提供的药物信息进行了比较。

七位药物安全专家评估了当前的科学共识，以及如果患者遵循聊天机器人的建议可能造成的伤害的可能性和程度，使用了20个显示低准确度或完整性或潜在患者安全风险的聊天机器人答案的子集。美国卫生研究与质量署（AHRQ）的伤害量表用于评估患者安全事件，专家们根据验证的框架估计了可能伤害的可能性。

总体平均Flesch阅读易度分数略高于37，表明读者需要学位水平的教育。即使是聊天机器人答案中最高的可读性仍需要高中（中等）教育水平。总体而言，聊天机器人答案的最高平均完整性为100%，平均值为77%。10个问题中有5个得到了最高完整性回答，而第3个问题（服用药物时需要注意什么？）的平均完整性最低，仅为23%。

在484个答案中，126个（26%）与参考数据不匹配，16个（超过3%）完全不一致。对20个答案的评估显示，只有54%被评定为与科学共识一致。39%与科学共识相矛盾，剩余的6%没有建立科学共识。如果患者遵循聊天机器人的建议，有3%的可能造成高度伤害，29%的可能造成中度伤害，而三分之一（34%）被认为不太可能或根本不会造成伤害。但无论可能的伤害可能性如何，42%的聊天机器人答案被认为会导致中度或轻度伤害，22%可能导致死亡或严重伤害。大约三分之一（36%）被认为不会导致伤害。

研究人员承认他们的研究没有借鉴真实的患者经验，不同的语言或国家的提示可能会影响聊天机器人答案的质量。“在这项横断面研究中，我们观察到带有AI聊天机器人的搜索引擎总体上对患者问题提供了完整和准确的答案，”他们写道。“然而，聊天机器人的答案大多难以阅读，且答案反复缺乏信息或存在不准确性，可能威胁患者和药物安全，”他们补充道。一个主要缺点是聊天机器人无法理解患者问题的潜在意图，他们建议。

“尽管有潜力，患者仍然需要咨询医疗专业人员，因为聊天机器人可能不会总是生成无误的信息。在推荐AI驱动的搜索引擎之前应谨慎行事，直到出现准确率更高的引用引擎，”他们总结道。

来源：BMJ Group

期刊参考：Andrikyan, W., et al. (2024). 人工智能驱动的搜索引擎聊天机器人：一项关于患者药物信息质量和风险的横断面研究。《BMJ质量与安全》。doi.org/10.1136/bmjqs-2024-017476。

(全文结束)