信用:AI生成图像
如果您最近看过医生,您可能已经与AI互动过。当您向医生描述症状时,他们可能会征得您的同意,使用"AI记录员"将音频实时转换为医疗记录。或者,您可能已经将症状输入ChatGPT以获取可能的诊断——有时令人安心,有时令人担忧。
用于医疗保健的人工智能(AI)正越来越多地在医院、诊所甚至我们的手机上进行试验。
由大型语言模型驱动的聊天机器人被宣传为填补医疗保健缺口的一种方式,特别是在医生稀缺的地方。
但我们的最新研究发现,虽然ERNIE Bot、ChatGPT和DeepSeek等AI聊天机器人展现出潜力,但也带来重大风险——从过度治疗到加剧不平等。这些发现发表在《npj Digital Medicine》期刊上。
全球工具,本地风险
AI已经在医疗保健的许多领域发挥作用——从读取X光片到为分诊聊天机器人提供支持。
2024年上半年,超过10%的澳大利亚成年人报告使用ChatGPT查询与健康相关的问题——许多人寻求的是临床建议而非基本信息——这凸显了AI在医疗决策中日益增长的影响力。
但大多数研究集中在理论上它们的准确性如何,而不是它们在实践中如何与患者互动。我们的研究是首批严格测试聊天机器人在模拟真实世界咨询中表现的研究之一,这使得研究结果特别相关,因为各国政府和医院正竞相采用AI解决方案。
我们测试了广泛使用的中国聊天机器人ERNIE Bot,以及OpenAI的ChatGPT和DeepSeek,这两个最先进的全球模型。
我们使用模拟患者病例将其表现与人类初级保健医生进行了比较。
我们还通过系统地改变患者特征(包括年龄、性别、收入、居住地和保险状况)来测试差异,并分析聊天机器人的护理质量是否因这些群体而异。
我们呈现了常见的日常症状,如胸痛或呼吸困难。例如,一位中年患者报告在进行轻度活动后出现胸闷和呼吸急促。
机器人或医生应询问风险因素,安排心电图检查,并考虑心绞痛作为可能的诊断。
一位年轻患者抱怨运动时喘息和呼吸困难加重。预期的反应是确认哮喘并开具适当的吸入器。
相同的症状以不同的患者档案呈现——例如,年长与年轻患者,或高收入与低收入患者——以观察聊天机器人的建议是否发生变化。
准确性与过度使用及不平等
所有三种AI聊天机器人——ERNIE Bot、ChatGPT和DeepSeek——在正确诊断方面都高度准确——超过了人类医生。
但是,AI聊天机器人比医生更有可能建议不必要的检查和药物。
事实上,它在90%以上的病例中推荐了不必要的检查,在超过一半的病例中开具了不适当的药物。
例如,当面对哮喘引起的喘息患者时,聊天机器人有时会推荐抗生素或要求昂贵的CT扫描——这两项都不符合临床指南。
而且AI的表现因患者背景而异。
例如,年长和富裕的患者更有可能获得额外的检查和处方。
我们的研究结果表明,虽然AI聊天机器人可以帮助扩大医疗保健的获取范围,特别是在许多缺乏可靠初级保健的国家,但如果没有监督,它们也可能推高成本,使患者面临伤害,并加剧不平等。
医疗保健系统在广泛采用这些工具之前,需要设计安全措施——如公平性检查、清晰的审计追踪和高风险决策的强制人工监督。
鉴于全球对AI的兴奋与担忧,我们的研究恰逢其时。
虽然聊天机器人可以帮助填补医疗保健的关键缺口,特别是在中低收入国家,但我们需要在创新与安全和公平之间仔细平衡。
为安全与正义共同设计AI
迫切需要共同设计安全负责的AI聊天机器人,用于日常生活,特别是提供可靠的健康信息。
无论我们是否准备好,AI都将进入医疗保健领域。
通过识别其优势和风险,我们的研究提供了证据,指导我们如何安全、公平和负责任地使用这些强大的新工具。
我们希望继续在澳大利亚开展这一关键领域的研究,确保AI技术以公平和信任为核心开发,并为我们的社区带来益处。
【全文结束】

