宾夕法尼亚大学LDI(卫生政策与技术中心)举办的“用生成式AI重写医疗保健的未来”会议于10月22日开幕。会上,美国卫生与公共服务部代理首席人工智能官Micky Tripathi博士接受了LDI高级研究员兼Tradeoffs播客执行编辑及主持人Dan Gorenstein的采访。(照片:Hoag Levins)
LDI高级研究员、沃顿商学院医疗管理教授Marissa King博士在会议开幕式上指出,尽管生成式人工智能(AI)已经在医疗保健领域广泛渗透,但在考虑如何利用它来提高护理质量和效率、降低成本的同时,我们必须意识到这些巨大的可能性伴随着许多风险。今天的项目旨在探讨如何利用这些可能性,同时减轻风险。
在同一风险管理的精神下,第一小组的主持人Dan Gorenstein,LDI高级研究员兼Tradeoffs播客执行制作人及主持人,采访了美国卫生与公共服务部代理首席人工智能官Micky Tripathi博士,并提到了两周前《纽约时报》上的一篇文章。该文章详细描述了150多个医疗系统中的15万名医生和助手正在使用EPIC的MyChart患者门户中的AI功能来草拟他们对患者的初步回应。《纽约时报》指出,这一趋势让一些专家感到担忧,他们担心医生可能不够警惕,无法发现AI草拟的医学重要消息中可能存在的危险错误。
Gorenstein进一步解释说,《柳叶刀》的一项小型研究发现,如果不进行编辑,这些消息约有7%的时间会构成严重伤害的风险。他请Tripathi向观众介绍像MyChart AI功能这样的产品在进入现实的患者护理世界之前需要经过的联邦审批过程。
“实际上并没有一个它必须通过的联邦审批过程,”Tripathi说,“根据FDA的定义,它并不属于医疗器械……在电子健康记录软件中,也没有要求它必须通过某种审批过程。”
为了帮助观众了解大型语言模型(LLM)的确切性质,Gorenstein请ChatGPT当场解释,它立即在屏幕上给出了答案。Tripathi告诉观众,他使用LLMs,并且在活动前曾要求一个LLM告诉他接受记者Dan Gorenstein采访时应该注意什么。
第一小组的成员包括:埃默里大学医学院副教授Ravi Parikh博士;Equality AI首席执行官Maia Hightower博士;Layer Health首席执行官兼麻省理工学院教授David Sontag博士;以及Abridge首席技术官兼卡内基梅隆大学副教授Zachary Lipton博士。
Emory大学医学院的Ravi Parikh博士主持了“伦理创新:患者、医生和大型语言模型”小组讨论,他指出,会议的目标是“扩大AI炒作和大型语言模型在医疗保健中积极实施的故事范围,同时也关注一些警示故事和监管方面,以及我们如何谨慎地实施这些技术。”
小组讨论了在医疗保健中创建和使用LLMs所涉及的复杂伦理挑战,特别是与预测决策支持干预措施(预测DSIs)相关的问题——即通过分析数据并生成临床预测、分类或建议来辅助医疗决策的人工智能系统。
Equality AI首席执行官兼联合创始人Maia Hightower博士强调了透明度的重要性,尽管用于医疗保健目的的AI系统的复杂性巨大。她强烈支持卫生与公共服务部(HHS)国家卫生信息技术协调办公室(ONC)于12月发布的AI透明度法规。
该ONC透明度规则要求医疗保健AI开发者提供有关其算法的详细信息,使医疗保健提供者能够评估这些系统的公平性、适当性、有效性、有效性和安全性。开发者必须披露的信息包括用于训练的数据来源、性能指标、验证过程以及如何管理与LLM输出相关的风险。
“我们确实存在一个历史问题,即临床决策支持工具未受监管,且未提供数据来源、在不同人群中的表现以及是否考虑了健康公平性的透明度,”Hightower说。
前宾夕法尼亚大学人类算法合作实验室主任Ravi Parikh是将AI应用于医疗保健领域的领先研究人员,特别是在肿瘤学和晚期疾病护理方面。
Maia Hightower博士解释说:“大多数医疗系统在AI治理的初期就需要帮助,了解AI风险的含义以及如何负责地减轻这种风险,因为这不同于应用程序风险、隐私安全风险或《健康保险流通与责任法案》(HIPAA)安全风险。”
“Drafting the LLM Playbook: Key Questions for Health Systems”小组的成员包括:主持人Hamsa Bastani博士,沃顿医疗分析实验室的副教授兼联合主任;Julia Adler-Milstein博士,加州大学旧金山分校医学教授兼临床信息学与改进研究中心(CLIIR)主任;I. Glenn Cohen博士,哈佛大学法学院法学教授;以及Sanmi Koyejo博士,斯坦福大学可信AI研究(STAIR)的助理教授。
“我们在这里要问一些关于使用生成式AI和大型语言模型改善医疗保健交付的棘手问题,”主持人兼LDI高级研究员Hamsa Bastani博士说。“其中一个是,您认为谁应该承担这些模型犯错的责任,尤其是在将这些系统从顶级机构转移到安全网医院时?”
“如果您对创意写作应用感兴趣,那么LLM的幻觉是非常好的。它是艺术性的,”Sanmi Koyejo博士说。“但如果您现在关注的是决策环境,这非常令人担忧。我认为部分差距在于这项技术并不是为前者设计的,我们现在不得不回来修补这些问题,以处理我们需要正确检索并做出我们认为准确的决策的需求。”
由于LLM驱动系统的规划、实施、运营和日常管理和质量控制的巨大规模,医疗保健系统将需要一个新的管理层,由首席医疗AI官领导,加州大学旧金山分校医学院的Julia Adler-Milstein博士说。她的机构已经创建并填补了这一角色,作为其AI治理过程的一部分,得到了指导委员会和医疗AI监督委员会的支持。
“这确实是一个如此庞大的工作范围,我们需要一个专门的人来监督它,”Adler-Milstein说,她是CLIIR的主任。“我们的AI指导委员会做了一些今天会议上没有太多提到的重要事情,那就是讨论我们试图用AI解决什么问题。我们几乎走进房间时假设AI是好的,但它是为了解决什么问题和什么目的?我们最大的痛点是什么?哪些问题可能最适合通过AI解决,我们如何对所有可用工具进行全面评估,以确定是否有任何工具看起来准备好让我们购买?”
“AI往往是一面镜子,我们并不总是喜欢我们在镜子里看到的东西,”斯坦福大学可信AI研究(STAIR)的计算机科学助理教授兼首席研究员Sanmi Koyejo博士说。“但有时当镜子反映出我们在决策中的一些个体理性但集体偏见的缺口时,实际上是很有用的。一项斯坦福研究评估了许多AI模型,并询问它们在与公平性相关的问题上是如何失败的。其中一个有趣的失败模式涉及肾衰竭和EGFR测量值,该测量值有一个种族修正,后来在现实世界的文献和科学中被修正,但不一定在技术中。当研究人员评估AI模型时,发现有些模型仍然使用种族修正。”
当被问及什么AI问题让他夜不能寐时,哈佛大学Petrie-Flom健康法律、政策、生物技术和生物伦理中心的教务主任I. Glenn Cohen博士表示,他担心的是“你可以以一种方式构建LLM系统,使其在AI方面具有可扩展性,但审查过程是否可扩展?如果你是一家安全网医院,也想让你的人群受益于这些工具,你听说了很多关于这些工具的好事,我们如何知道这些工具是否适合这个人群?我们如何进行持续审查?以及医疗系统如何在不因诽谤而被起诉的情况下分享信息,当他们在谈论一个对患者产生糟糕结果的模型时?”
“Keeping Pace: Regulatory Imperatives for Large Language Models in Health Care”小组的成员包括:主持人兼LDI高级研究员Gary Weissman博士,佩雷尔曼医学院助理教授;Elizabeth Edwards律师,国家健康法律项目的高级律师;Jennifer Goldsack女士,数字医学协会(DiMe)首席执行官;以及Jenny Ma律师,美国卫生与公共服务部首席副部长。
在关于联邦法规如何与AI相关的小组讨论中,美国卫生与公共服务部民权办公室首席副部长Jenny Ma律师强调,根据《平价医疗法案》第1557节修订的非歧视原则将于2025年7月正式适用于医疗保健AI。第1557节禁止在联邦财政援助活动中基于种族、肤色、国籍、性别、残疾、年龄或宗教的歧视,包括健康保险计划、医疗保健提供者、医疗保健设施以及它们使用的AI系统。
“这些非歧视原则适用于您,如果您是违反1557节的覆盖实体,无论您是否将其归咎于AI,”Ma说。“我们只是想确认这一点。”
数字医学协会(DiMe)创始人兼首席执行官Jennifer Goldsack女士强调了医疗保健AI领域需要强有力的非歧视措施的原因。她指出了最近《STAT News》的一系列调查报告“嵌入偏见”,详细描述了基于种族的算法在医疗保健交付系统中的广泛应用以及为何很难改变它们。
DiMe一直在与纽约市卫生与心理卫生局运行的纽约市消除临床算法种族主义联盟(CERCA)合作。Goldsack说,该项目的独特之处在于CERCA跨纽约市五个区与临床医生交谈,这些临床医生通常能够识别他们每天使用中熟悉的算法响应中的歧视性方面。
“我们学到的一件事是,识别这些问题将很少涉及技术,而更多涉及我们如何与使用AI的临床医生和管理人员互动。因此,当我们谈到透明度时,我想说纯粹的技术问题是不准确的,”Goldsack说。“思考如何创建一个剧本以创造激励机制并扩大CERCA的方法,给每个公共卫生部门和每个医疗系统一个在全国范围内实施相同方法的理由,这是非常有趣的。”
主持人兼LDI高级研究员Gary Weissman博士指出,“今天早些时候,我们听到了很多关于AI的炒作、用例、已部署的AI模型和大量热情,但我们听到的关于AI系统在医疗保健领域使用的实际和潜在危害却很少。部分原因是关于AI系统的证据并不多,而且我们确实拥有的大部分证据并未涉及安全性和危害问题。”
“国家健康法律项目专注于Medicaid和低收入医疗保健项目,”该组织的高级律师Elizabeth Edwards律师说。“我想谈谈关于‘AI部署后我们再解决问题’的评论。这是不可接受的,因为有许多使用医疗系统的人无法承受任何程度的伤害。”
(全文结束)

