如果您近期看过医生,可能已经与人工智能互动过。当您向医生描述症状时,他们或许会征得您同意,使用“AI记录员”实时将语音转换为医疗笔记。
又或者,您可能将症状输入ChatGPT以获取可能的诊断——结果有时令人安心,有时却令人担忧。
人工智能在医疗机构、诊所甚至智能手机上的应用正日益普及。基于大语言模型的聊天机器人被宣传为填补医疗缺口的工具,尤其在医生稀缺的地区。
但我们的新研究发现,尽管文心一言、ChatGPT和DeepSeek等AI聊天机器人展现出潜力,它们也带来显著风险——从过度治疗到加剧不平等。
全球工具,本地风险
人工智能已广泛应用于医疗领域,从解读X光片到驱动分诊聊天机器人。
2024年上半年,超过10%的澳大利亚成年人报告曾使用ChatGPT咨询健康问题,其中许多人寻求的是临床建议而非基础信息,这凸显了AI在医疗决策中日益增长的影响力。
但多数研究仅关注其理论准确性,而非实际患者互动中的行为表现。
我们的研究是首批严格测试聊天机器人在模拟真实诊疗中表现的成果之一,其发现对政府和医院加速采用AI解决方案的当下尤为关键。
我们测试了广泛使用的中国聊天机器人文心一言,以及全球先进模型OpenAI的ChatGPT和DeepSeek,并通过模拟患者案例将其表现与人类全科医生进行对比。
同时,我们系统性地调整患者特征(包括年龄、性别、收入、居住地和保险状态),分析聊天机器人的护理质量是否因群体差异而变化。
例如,我们呈现了胸痛或呼吸困难等常见日常症状:中年患者报告轻度活动后出现胸闷和气短,预期应询问风险因素、安排心电图并考虑心绞痛可能;年轻患者主诉运动后喘息和呼吸困难加剧,预期应确诊哮喘并开具合适吸入器。
通过变换患者档案(如年长者与年轻人、高收入与低收入者),观察聊天机器人的建议是否随之改变。
准确性伴随过度使用与不平等
文心一言、ChatGPT和DeepSeek三款AI聊天机器人在正确诊断上均高度准确,表现优于人类医生。
但相比医生,AI聊天机器人更倾向于建议不必要的检查和药物。
事实上,它们在90%以上的案例中推荐了非必要检查,在超半数案例中开具了不当药物。
例如,面对哮喘引发喘息的患者,聊天机器人有时建议使用抗生素或安排昂贵的CT扫描——这些均不符合临床指南。
此外,AI表现因患者背景而异:年长和富裕患者更可能获得额外检查和处方。
研究显示,尽管AI聊天机器人可帮助扩大医疗覆盖范围(尤其在缺乏可靠基础医疗的国家),但若无监管,它们可能推高成本、使患者面临风险并加剧不平等。
在医疗系统广泛采用这些工具前,亟需设计保障机制——如公平性审查、清晰审计追踪及高风险决策的强制人工监督。
为安全与公平协同设计AI
日常生活中的AI聊天机器人亟需通过协同设计确保其安全可靠,尤其在提供医疗信息方面。
无论我们是否准备就绪,AI都将进入医疗领域。
通过识别其优势与风险,本研究为安全、公平、负责任地应用这些强大新工具提供了实证依据。
我们希望在澳大利亚持续推进这一关键研究,确保AI技术以公平与信任为核心开发,最终惠及社区。
研究团队欢迎合作以深化此项工作。
【全文结束】

