国内健康环球医讯家医百科药品库医药资讯

研究发现人工智能聊天机器人可能传播医疗虚假信息,凸显加强监管的必要性 | 西奈山医院 - 纽约

AI Chatbots Can Run With Medical Misinformation, Study Finds, Highlighting the Need for Stronger Safeguards | Mount Sinai - New York

美国英文人工智能与医疗健康
新闻源:unknown
2025-08-08 01:16:35阅读时长3分钟1489字
人工智能聊天机器人医疗虚假信息监管安全机制内置警告信息医疗领域临床决策支持虚假术语检测法医疗AI应用健康安全

内容摘要

西奈山伊坎医学院研究显示,主流人工智能聊天机器人在医疗场景中存在严重误判风险,当用户提问中包含错误医学信息时,73%的AI响应会主动扩展这些不实内容,但通过添加简单警告提示可将错误率降低46%。该研究为医疗AI安全测试提供了创新性的"虚假术语检测法",相关成果发表于《自然》子刊《通讯医学》。

一项由西奈山伊坎医学院研究人员发表的新研究发现,广泛应用的人工智能聊天机器人在医疗场景中极易重复和扩展错误的医学信息,这揭示了在医疗领域部署AI工具前急需建立更强有力的安全机制。

研究团队同时证明,通过在提示中添加简单的内置警告信息,可显著降低这种风险,为快速发展的AI技术提供了实用的解决方案。相关研究成果已于8月2日发表在《自然》旗下开放获取期刊《通讯医学》(Communications Medicine)的在线版。

随着越来越多的医生和患者转向人工智能寻求医疗支持,研究团队旨在探究聊天机器人是否会盲目重复用户问题中包含的错误医学细节,以及简短的提示能否引导其给出更安全、准确的回应。

研究首席作者Mahmud Omar博士指出:"我们发现AI聊天机器人极易被错误医学信息误导,无论这些错误是蓄意还是无意造成的。它们不仅重复错误信息,还经常进行扩展,对不存在的疾病提供自信的解释。令人鼓舞的是,在提示中添加单行警告可显著减少这些幻觉现象,显示出小型安全措施能带来重大改观。"

研究团队创建了包含虚构医学术语(如虚构疾病、症状或检测)的虚拟患者案例,并将其提交给主流大语言模型。首轮测试未提供任何额外指导,第二轮则在提示中添加了单行警告,提醒AI用户提供的信息可能不准确。

在没有警告的情况下,聊天机器人常规性地扩展了虚假医学细节,自信地生成关于不存在病症或疗法的解释。但添加提示后,此类错误显著减少。

共同通讯作者、西奈山人工智能与人类健康系主任Eyal Klang博士表示:"我们的目标是验证聊天机器人是否会基于医疗问题中的虚假信息展开推理,结果证明确实如此。即使仅包含一个虚构术语,也可能触发完全基于虚构的详细回应。但我们也发现,适时的安全提示能产生重要影响,使错误减少近半。这表明只要重视提示设计和内置安全机制,这些工具可以变得更安全。"

研究团队计划将相同方法应用于真实(匿名化)患者记录,并测试更先进的安全提示和检索工具。他们希望提出的"虚假术语检测法"能成为医院、技术开发者和监管机构进行临床应用前压力测试的简便而强大的工具。

共同通讯作者、西奈山人工智能与人类健康系主席Girish N. Nadkarni博士强调:"本研究揭示了当前AI工具处理医疗信息时的盲点,尤其是在医疗保健领域。这凸显了当今AI系统在医疗环境下处理错误信息时的关键脆弱性。一个误导性短语可能引发自信但完全错误的解答。解决方案不是放弃医疗AI应用,而是开发能够识别可疑输入、谨慎回应并确保人工监督的核心工具。虽然我们尚未达到这个目标,但通过有意识的安全措施,这个目标是可以实现的。"

该研究题为《大型语言模型在临床决策支持中的广泛幻觉:多模型保证分析》(Large Language Models Demonstrate Widespread Hallucinations for Clinical Decision Support: A Multiple Model Assurance Analysis)。

研究作者包括Mahmud Omar、Vera Sorin、Jeremy D. Collins、David Reich、Robert Freeman、Alexander Charney、Nicholas Gavin、Lisa Stump、Nicola Luigi Bragazzi、Girish N. Nadkarni和Eyal Klang。

本研究部分受益于西奈山科学计算与数据资源中心提供的计算和数据资源及专家支持,并获得美国国立卫生研究院转化科学临床与转化科学奖(CTSA)UL1TR004419资助。同时获得美国国立卫生研究院研究基础设施办公室S10OD026880和S10OD030463资助。

【全文结束】

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜