AI系统越来越多地被部署在关键安全的医疗保健场景中。然而,这些模型有时会产生错误的信息、做出有偏见的预测或因意外原因而失效,这可能会对患者和临床医生产生严重后果。在今天发表于《自然计算科学》的一篇评论文章中,麻省理工学院副教授Marzyeh Ghassemi和波士顿大学副教授Elaine Nsoesie认为,为了减轻这些潜在的危害,AI系统应该附带负责任使用的标签,类似于美国食品药品监督管理局(FDA)要求放置在处方药物上的标签。MIT News与Ghassemi讨论了为何需要这样的标签、它们应传达的信息以及如何实施标签程序。
问:为什么我们需要在医疗环境中为AI系统添加负责任使用标签?
答:在医疗环境中,我们面临一个有趣的情况,即医生经常依赖于他们并不完全理解的技术或治疗方法。有时这种不理解是基础性的——例如对对乙酰氨基酚的作用机制——但有时这只是专业知识的限制。我们不期望临床医生知道如何维护MRI机器。相反,我们通过FDA或其他联邦机构的认证系统来认证特定环境下的医疗设备或药物的使用。
重要的是,医疗设备还具有服务合同——如果MRI机器校准不当,制造商的技术人员会进行修复。对于批准的药物,有上市后的监测和报告系统,以便处理不良反应或事件,例如许多人服用某种药物后似乎出现了某种病症或过敏。模型和算法,无论是否包含AI,都规避了许多这些审批和长期监测过程,这是我们需要注意的问题。许多先前的研究表明,预测模型需要更仔细的评估和监测。对于最近的生成式AI,我们引用了研究工作,证明生成不一定适当、稳健或无偏见。由于我们对模型预测或生成的监控水平较低,捕捉到模型的有问题响应会更加困难。医院目前使用的生成模型可能存在偏见。使用标签是一种确保模型不会自动化从人类从业者或过去不准确的临床决策支持分数中学到的偏见的方法。
问:您的文章描述了AI负责任使用标签的几个组成部分,遵循FDA创建处方标签的方法,包括批准用途、成分、潜在副作用等。这些标签应传达哪些核心信息?
答:标签应明确说明模型预期使用的时间、地点和方式。例如,用户应知道模型是在特定时间用特定时间点的数据训练的。例如,它是否包括或不包括新冠疫情期间的数据?新冠疫情期间的卫生实践非常不同,可能会影响数据。这就是我们主张披露模型“成分”和“已完成研究”的原因。
对于地点,我们从先前的研究中知道,一个地点训练的模型在转移到另一个地点时性能往往会变差。了解数据来源以及模型在该人群中的优化情况,可以帮助用户意识到“潜在副作用”、“警告和预防措施”以及“不良反应”。
对于一个训练用于预测特定结果的模型,了解其训练时间和地点可以帮助您做出明智的部署判断。但对于许多生成模型来说,它们非常灵活,可以用于多种任务。在这种情况下,时间和地点可能不太有信息量,因此关于“标签条件”和“批准用途”与“未批准用途”的更明确指导就显得尤为重要。如果开发人员已经评估了一个生成模型用于读取患者的临床笔记并生成未来的计费代码,他们可以披露该模型对某些病症的过度计费或对其他病症的低识别率。用户不会希望使用同一生成模型来决定谁可以获得专科医生的转诊,即使他们可以。这种灵活性是我们主张提供更多关于模型使用方式细节的原因。
总体而言,我们提倡使用可用工具训练最佳模型。但即便如此,也应有很多披露。没有一个模型是完美的。作为社会,我们现在理解没有一种药丸是完美的——总是存在一些风险。我们应该对AI模型有同样的理解。任何模型——无论是否包含AI——都是有限的。它可能为您提供现实、训练良好的未来预测,但要根据适当的程度来对待。
问:如果要实施AI标签,谁来进行标签,标签如何监管和执行?
答:如果您不打算在实践中使用您的模型,那么您只需为高质量的研究出版物提供足够的披露即可。但一旦您打算将模型部署在面向人类的环境中,开发者和部署者应基于一些已建立的框架进行初步标签。在关键安全环境如医疗保健中,部署前应有对这些声明的验证;许多卫生与公共服务部的机构可能会参与其中。
对于模型开发者而言,知道自己需要对系统的局限性进行标签会促使他们更加谨慎地考虑整个过程。如果我知道在某个时候我必须披露模型训练的人群,我就不希望披露它只用男性聊天机器人用户的对话进行了训练,例如。
思考数据收集的对象、时间段、样本量以及如何决定包含或排除哪些数据,可以让你在部署时意识到潜在的问题。
(全文结束)

