医学中建立可信AI:可解释性和认知负荷的作用
AI辅助临床决策支持系统(CDSS)在临床实践中的有效性取决于医生的信任及其对AI推荐结果的接受度。AI模型通常作为“黑箱”运行,产生结果而不提供明确的推理过程,这可能导致医疗专业人士的怀疑态度。AI系统的可解释性——即提供清晰、可解释的输出理由的能力——已成为促进医生信任和接受的关键因素。
AI已成为医疗保健领域的变革力量,特别是在帮助医疗专业人员提高诊断准确性、工作流程效率和决策能力方面。在各种应用中,AI驱动的临床决策支持系统(CDSS)在乳腺癌检测中起着至关重要的作用,通过分析医学图像、识别异常并提供诊断建议来协助放射科医生和肿瘤学家。然而,尽管具有潜在的好处,AI的成功整合到临床工作流程中仍然取决于医生对这些系统的信任和接受。
最近的一项研究题为《可解释性和AI置信度在临床决策支持系统中的影响:对乳腺癌护理中信任、诊断表现和认知负荷的影响》,由Olya Rezaeian(史蒂文斯理工学院)、Alparslan Emrah Bayrak(利哈伊大学)和Onur Asan(史蒂文斯理工学院)撰写,探讨了不同水平的可解释性和AI置信度评分如何影响医生的信任、认知负荷和诊断表现。该研究发表于2025年1月,考察了医疗专业人员与基于AI的CDSS的互动方式,并提供了设计透明、可靠且无缝集成到医疗决策过程中的AI系统的见解。
可解释性和AI置信度在临床AI系统中的重要性
AI辅助CDSS在临床实践中的有效性取决于医生的信任及其对AI推荐结果的接受度。AI模型通常作为“黑箱”运行,产生结果而不提供明确的推理过程,这可能导致医疗专业人士的怀疑态度。AI系统的可解释性——即提供清晰、可解释的输出理由的能力——已成为促进医生信任和接受的关键因素。此外,AI置信度评分——指示系统对其预测的信心程度——也影响医生对AI生成建议的重视程度。
该研究旨在评估不同水平的AI可解释性和置信度如何影响医生的诊断决策。一项受控的基于网络的实验中,28名医疗专业人员(包括放射科医生和肿瘤学家)与一个提供不同解释和置信度水平的AI驱动CDSS进行了互动,以进行乳腺癌诊断。研究试图回答三个基本问题:(1)可解释性如何影响医生的认知负荷?(2)AI置信度评分如何影响信任和诊断表现?(3)人口统计因素如何塑造医生与AI驱动CDSS的互动?
评估医生与基于AI的CDSS的互动
该研究采用了中断时间序列设计,医生在独立和不同水平AI辅助的情况下评估乳腺组织的超声图像。参与者在五种条件下完成了诊断任务,逐步体验不同水平的可解释性和置信度提示。
基线条件(独立诊断)要求医生在没有任何AI辅助的情况下分析乳腺超声图像,并将其分类为健康、良性或恶性。在干预I(仅分类)中,AI仅提供诊断分类而无额外解释。在干预II(概率分布)中,AI显示每个诊断的概率分布,使参与者了解系统的置信水平。干预III(肿瘤定位)引入了视觉肿瘤定位,帮助医生理解哪些区域的图像贡献了AI的决策。最后,在干预IV(增强定位+置信度)中,结合了局部肿瘤检测和置信度指示,标记AI高度或中等置信的区域。
在整个研究过程中,通过调查和系统交互测量了参与者的AI信任度、认知负荷、压力水平和诊断准确性。这种方法允许全面分析可解释性和置信度水平如何影响医生行为和决策。
可解释性、AI置信度和医生信任
AI可解释性影响认知负荷和压力水平
研究发现,虽然增加可解释性通常减少了心理需求,但也导致更高的压力水平,尤其是在肿瘤定位和概率估计条件下。当解释过于详细或与医生预期不一致时,医生会经历更大的认知负担。
简单的解释,如仅提供分类推荐或概率分布,对认知负荷几乎没有影响。然而,当AI系统引入带有概率估计的局部肿瘤检测时,压力水平显著增加。这表明,虽然视觉解释可以增强理解,但如果设计不当,也可能引发认知过载。研究结果强调了需要设计简洁明了的AI解释,提供有意义的信息而不压倒医生。
AI置信度评分影响信任、一致性和诊断表现
研究表明,AI置信度评分在塑造医生对AI推荐的信任和依赖中起着重要作用。低置信度的AI输出降低了信任和一致性,导致医生花费更多时间进行诊断并更多依赖自己的判断。相反,高置信度的AI输出增加了信任,但有时会导致过度依赖,从而略微降低诊断准确性。
当AI预测伴随低置信度评分时,医生表现出更谨慎的行为,质疑AI建议并延长诊断时间。相反,高置信度评分增加了医生对AI的依赖,有时导致自动化偏差,即医生在不批判性评估其准确性的情况下默认接受AI建议。这些发现表明,AI置信度指标必须精心设计,以鼓励适当的人类监督和决策。
人口统计因素塑造对医疗AI的看法
研究还考察了年龄、性别和专业角色如何影响医生对AI的信任、压力水平和对AI可用性的看法。年长的医生比年轻的医生更可能信任AI并认为它有用,年轻医生报告在与基于AI的CDSS互动时压力水平和认知需求更高。性别差异也显现出来,女医生认为AI驱动的任务更为复杂和认知上更具挑战性。
专业角色显著影响AI采用情况,放射科医生普遍认为AI是一个有价值的诊断工具,而肿瘤学家则发现基于AI的决策更具挑战性和压力。这些发现强调了设计AI系统以适应不同医生群体的不同专业知识、经验和认知偏好的重要性。
对基于AI的临床决策支持系统的启示
该研究为希望将基于AI的CDSS整合到临床工作流程中的AI开发者、政策制定者和医疗机构提供了若干重要见解。可解释性功能应设计为增强理解而不引入认知过载,确保AI生成的解释清晰、相关并与医生的心理模型一致。
AI置信度评分必须校准以防止过度依赖,确保医生继续积极参与诊断决策。此外,设计基于AI的CDSS时必须考虑人口统计差异,因为不同医生群体对AI的信任、认知负荷耐受性和采用准备程度各不相同。
(全文结束)