人工智能(AI)在医疗行业取得了显著进展,从辅助诊断到管理患者数据。然而,像ChatGPT和Claude这样的AI模型虽然在医学知识评估中表现良好,但它们在支持现实世界中的患者互动方面的有效性仍然不确定。患者和护理人员不仅需要准确的医疗信息,还需要富有同情心、清晰且相关的指导,以帮助他们理解诊断、预后和治疗方案。
最近的一项研究题为“生成式AI能否支持患者和护理人员的信息需求?面向任务的AI系统评估”,由Shreya Rajagopal、Jae Ho Sohn、Hari Subramonyam和Shiwali Mohan进行,并发表在《ACM IUI研讨会联合论文集(2025)》上,探讨了这一关键问题。研究人员分析了两种最先进的生成式AI模型——ChatGPT-4o和Claude 3.5 Sonnet——在帮助患者和护理人员理解胸部CT扫描和放射学报告方面的能力。他们的研究结果突出了AI在解决现实世界医疗信息需求方面的优势和局限性。
在真实患者护理场景中评估AI
该研究首先承认医疗领域的一个基本问题:患者和护理人员往往难以理解复杂的医疗报告。虽然直接咨询医生是金标准,但这既耗时又不总是可行。许多患者转而求助于搜索引擎和在线论坛,这些平台常常提供碎片化或误导性的信息。AI驱动的聊天机器人有潜力填补这一空白——但它们能否可靠地做到这一点?
为了评估这一点,研究人员设计了一项面向任务的研究,参与者作为护理人员被呈现了一份虚构患者的胸部CT扫描及其相关放射学报告。然后,他们与放射科医生进行了实时对话,以澄清关键问题。通过主题分析,研究确定了从这些患者-放射科医生互动中出现的10个主要主题,包括:
- 解释医学术语
- 定位CT扫描中的问题
- 理解疾病预后
- 比较治疗方案
- 讨论诊断随访计划
利用这些主题,研究人员测试了ChatGPT-4o和Claude 3.5 Sonnet,评估它们提供准确、相关且富有同情心的回答的能力。
AI表现:患者沟通的优势与劣势
研究发现,在不同主题下,AI生成的回答质量存在显著差异。虽然这两种AI模型在定义医学术语方面表现得相当不错,但在需要视觉理解和细微推理的领域——如帮助患者定位CT扫描中的具体异常——它们显得力不从心。
AI模型的一个主要优势是能够提供简洁易懂的医学术语解释。这与它们在大量医学数据集上的训练相一致。然而,在更复杂的患者互动中,其局限性变得明显。例如,放射科医生会自然地将医学发现置于上下文中,而AI模型则经常提供通用的、教科书式的解释,未能完全解决患者的问题。
此外,AI生成回答的准确性并不一致。研究显示,ChatGPT-4o的错误率为20%,Claude 3.5 Sonnet的错误率为40%,这意味着AI生成的答案中有很大一部分包含错误或误导性信息。这尤其令人担忧,因为患者通常缺乏区分事实回应和AI幻觉所需的医学专业知识。
另一个重要发现是,AI模型倾向于生成过多冗余文本——经常包括与患者问题无关的多余阐述。与提供简明但信息丰富的回答的人类放射科医生不同,AI生成的回答常常使用户感到信息过载,或者未能聚焦核心问题。
面向患者的医疗应用中的挑战与未来
这项研究强调了在面向患者的医疗应用中部署生成式AI所面临的挑战。尽管AI模型正在改进,但它们尚不能替代直接的人类咨询。有三个关键领域需要进一步的研究和发展:
首先,AI模型必须提高处理多模态数据的能力——特别是在医学成像方面。研究表明,AI在整合视觉和文本信息方面存在困难,使得患者难以定位和理解CT扫描中的问题。未来的AI系统需要增强多模态推理能力,以更好地解释基于图像的医学报告。
其次,AI生成的医疗信息必须更加结构化和情境感知。与根据患者关切量身定制解释的放射科医生不同,AI往往依赖预先定义的模板。研究表明,AI模型应设计为参与动态、交互式的对话——根据实时用户反馈调整其回答。
第三,必须提高AI的安全性和可信度。鉴于AI生成回答的高错误率,患者可能收到误导性或错误的医疗建议的风险很高。未来的AI系统必须纳入更严格的事实核查机制、实时验证可信的医学数据库以及更好地与专家人类知识保持一致。
前景展望:AI作为补充而非替代
尽管存在这些挑战,该研究强调了AI作为医疗补充工具的潜力。与其取代医疗专业人员,AI可以作为患者和医生之间的桥梁,提供初步信息,帮助患者准备咨询。通过提供清晰的医学术语解释、总结治疗方案并回答基本的患者问题,AI可以提高健康素养并减少患者的焦虑。
然而,要将AI安全地集成到医疗中,开发人员、医疗专业人员和政策制定者必须共同努力,建立AI准确性、可靠性和道德使用的标准。AI系统必须设计为增强而不是取代人类的专业知识,确保患者获得准确、个性化且情境感知的医疗信息。
这项研究代表了从传统AI性能基准转向现实世界可用性和可靠性的重要一步。随着生成式AI的不断进化,未来的研究必须专注于开发与人类专业知识对齐、优先考虑安全性并真正满足患者和护理人员信息需求的AI模型。
(全文结束)

