应对古德哈特定律困境及医学中的人工智能未来Navigating Goodhart’s Law dilemma and the future of AI in medicine

环球医讯 / AI与医疗健康来源:kevinmd.com美国 - 英语2024-12-13 04:00:00 - 阅读时长5分钟 - 2299字
随着人工智能系统越来越多地渗透到医疗保健行业,医生需要积极评估这些新技术的有效性、可靠性和伦理应用,同时警惕古德哈特定律可能导致的负面后果。
人工智能医疗保健有效性可靠性假阳性假阴性准确性准确率悖论古德哈特定律眼镜蛇效应校准均等化
应对古德哈特定律困境及医学中的人工智能未来

随着人工智能(AI)系统越来越多地渗透到我们的医疗保健行业,医生们必须积极评估这些新型技术。AI驱动的工具正在重塑诊断、治疗计划和风险评估,但这种变革也带来了确保这些系统有效、可靠和合乎伦理部署的责任。对关键概念如有效性、可靠性以及AI性能指标的局限性的清晰理解,对于在临床环境中做出明智的AI采用决策至关重要。

有效性是指某事物正确或真实的质量——换句话说,人工智能系统是否以及如何准确地测量(即分类或预测)其预期测量的内容。可靠性指的是人工智能系统输出的一致性,即在相同条件下是否获得相同(或高度相关的)结果。两者都需要测量,且都需存在,人工智能系统才能值得信赖。

在二元分类中,假阳性是指测试结果错误地指示了某种条件(如疾病)的存在,而实际上该疾病不存在;而假阴性则是相反的错误,即测试结果错误地未能指示某种条件的存在,而实际上该条件存在。这两种错误是在二元测试中出现的两种错误,与两种正确的结果(真阳性与真阴性)相对。医疗保健AI预测中的错误很常见,尤其是在只有两个可能结果(例如,有病或无病)的二元分类中。假阳性发生在AI预测某种条件(如疾病)存在时,而实际上该疾病不存在;而假阴性则发生在系统未能识别现有条件时。这些错误在统计假设检验中被称为I型和II型错误,它们之间的平衡在确定AI的整体性能方面起着关键作用。

医生需要意识到这些风险,并批判性地评估某个AI工具是否适当平衡了假阳性和假阴性。一个最小化一种错误类型的AI系统可能会无意中增加另一种错误,这在不同的临床背景下可能产生严重后果。

评估AI系统最常用的性能指标之一是准确性,即模型正确预测的比例。然而,医生应谨慎不要过分依赖这一指标,并应了解准确率悖论,这突显了仅依赖准确率的风险,特别是在医疗保健领域,疾病患病率在不同人群中可能差异显著。例如,如果一个医疗保健AI模型设计用于检测罕见病症,它可能通过预测大多数患者没有该病症而达到高准确率,但这在临床上几乎没有用处。相反,医生应考虑其他性能指标,如精确度和召回率。精确度衡量正向预测中实际正确的比例,而召回率评估AI系统识别所有真正阳性案例的能力。这些AI指标提供了更细致的视角,特别是在某些结果(如识别罕见但致命的病症)比其他结果更为关键的情况下。

医生在评估医疗保健人工智能时的一个重要考虑因素是所谓的古德哈特定律,即“当某个指标成为目标时,它就不再是好的指标”。这在医疗保健AI中尤其相关,开发人员可能优化算法以在特定基准上表现良好,有时会以牺牲AI系统的整体临床实用性为代价。例如,一个在公共数据集上优化以实现高准确率的医疗保健AI模型,在现实世界临床环境中可能表现不佳。

著名的古德哈特定律例子是眼镜蛇效应,即善意的政府政策意外地加剧了它们旨在解决的问题。英国殖民政府在印度担心德里毒眼镜蛇数量增加,开始对每条被交付的死眼镜蛇提供赏金。最初,这一策略取得成功,当地人带来了大量被杀的眼蛇。然而,随着时间的推移,一些有创业精神的人开始繁殖眼镜蛇以获取额外收入。当政府取消赏金时,眼镜蛇养殖者将眼镜蛇释放到野外,导致德里蛇类数量激增。

眼镜蛇效应提醒我们,努力控制问题可能导致意外且往往更糟糕的结果。如果开发人员或医疗机构过于狭隘地关注特定的AI性能指标,他们可能会削弱系统的整体效果,导致次优的患者结果。医生必须确保医疗保健AI系统不仅在性能指标上优化,而且在实际临床应用中真正有益。

医疗保健AI评估必须超越简单的基准,防止系统在特定政府目标上变得“太好”,而是确保它们在解决设计初衷的更广泛挑战方面保持稳健。古德哈特定律警告我们,仅依赖单一AI性能指标可能导致低效甚至危险的结果。因此,医生必须理解,虽然AI可以成为强大的医疗工具,但其性能必须通过坚实的实证证据仔细评估,以避免背离其初衷。

医生还必须意识到AI在医疗保健中的伦理影响,其中一个关键挑战是AI模型中的系统性偏见,这可能对某些患者群体产生不成比例的影响。努力在不同人口群体中平等化错误率可能会损害医疗保健AI系统的校准,导致对不同人群预测结果的准确性不平衡。

在人工智能中,校准指的是模型的预测如何准确反映现实结果。一个校准良好的AI系统确保预测概率与事件的实际可能性相匹配。另一方面,均等化涉及确保不同群体(如种族或性别群体)经历相似类型的错误率,如假阳性和假阴性。平衡这两者具有挑战性,因为提高校准可能会导致不同群体之间的错误率不平等,而均等化错误可能会降低整体准确性,从而导致公平与精确之间的伦理困境。

例如,如果一个用于风险评估的AI工具对不同种族或族裔群体的表现不同,可能会导致不平等的医疗待遇。这在医疗保健领域尤为令人担忧,因为AI模型中的偏见可能会加剧现有的健康不平等。医生应倡导透明地了解医疗保健AI系统的训练和校准过程,并要求这些工具进行持续评估,以确保它们公平地服务于所有患者群体。

在医疗保健AI背景下,过度优化特定AI指标可能导致意外后果,即改善某一领域(如降低假阳性)会导致另一领域的激增(如假阴性),可能对患者造成伤害。

最终,医生必须在医疗保健中AI工具的评估和部署中发挥关键作用。通过理解有效性、可靠性、精确度、召回率、古德哈特定律和准确率悖论等概念,他们可以更好地评估某个AI系统是否适合临床使用。此外,通过倡导这些系统的设计和应用中的透明度和公平性,医生可以帮助确保AI以合乎伦理和有效的方式改善患者护理。随着AI继续发展并融入医疗保健,医生必须走在这些变化的前列,引导这一变革技术的负责任和深思熟虑的使用。

Neil Anand是一名麻醉师。


(全文结束)

大健康

猜你喜欢

  • 人工智能革新医疗保健人工智能革新医疗保健
  • RSNA24:人工智能在医学影像领域的重大进展RSNA24:人工智能在医学影像领域的重大进展
  • 简单任务已自动化,初创公司聘请专家训练AI模型简单任务已自动化,初创公司聘请专家训练AI模型
  • 研究揭示:ChatGPT在诊断准确性上超越医生研究揭示:ChatGPT在诊断准确性上超越医生
  • 医疗领域的革新:AI能否超越医生?医疗领域的革新:AI能否超越医生?
  • 独家:人工智能如何革新全科医生工作流程和患者护理独家:人工智能如何革新全科医生工作流程和患者护理
  • AI如何颠覆医疗保健法规的未来AI如何颠覆医疗保健法规的未来
  • 研究显示人工智能可预测三阴性乳腺癌预后研究显示人工智能可预测三阴性乳腺癌预后
  • 人工智能突破将革新心脏病学及其他医疗领域人工智能突破将革新心脏病学及其他医疗领域
  • 人工智能在医疗保健中的作用:改变患者护理人工智能在医疗保健中的作用:改变患者护理
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康