数据健康助力人类健康Data Health for Human Health

环球医讯 / AI与医疗健康来源:theharvardpoliticalreview.com美国 - 英语2025-02-01 22:00:00 - 阅读时长8分钟 - 3654字
本文探讨了人工智能在医疗领域的潜力及其面临的挑战,特别是数据偏差问题,并介绍了旨在提高数据质量和多样性的新举措,强调了这些努力对于改善医疗保健的重要性。
数据健康人类健康人工智能医疗领域数据集偏见数据质量评估医疗数据监管扩大数据集AI使用数据可访问性
数据健康助力人类健康

从分类脑肿瘤的磁共振成像(MRI)到筛查糖尿病视网膜病变,再到自动转录医生的电子病历笔记,人工智能无疑具有改变医疗领域的潜力。哈佛医学院教授David Blumenthal对《哈佛政治评论》表示:“我认为我们尚未充分认识到数字化信息这一巨大资源中蕴含的价值,而这些信息正在以天文数字的速度增长,形成了一个未被充分利用的资源。人工智能将使我们比以往更好地理解这些数据。”

然而,利用人工智能的潜力也伴随着一系列风险。特别是在医疗领域,人工智能的偏见构成了重大挑战。由于人工智能只能用现有数据进行训练,这往往导致历史上样本不足的人群(如罕见病患者或少数族裔)缺乏代表性。这可能在AI算法中产生偏见。正如国家非营利组织“数据营养项目”(DNP)的项目负责人Kasia Chmielinski在接受《哈佛政治评论》采访时所说:“你会失去这部分数据的代表性。因此,你构建的AI在训练数据集上表现很好;但对于其他人群,它表现不佳。”

为应对潜在的数据集偏见,一些新的举措旨在揭示并解决这些问题,从而推动不会加剧普遍医疗不平等的AI技术的发展,而是提高所有人的医疗质量。

评估数据质量

DNP成立于2018年,是哈佛大学和麻省理工学院联合Assembly Fellowship的一部分,其使命是促进不延续根深蒂固刻板印象的技术发展。Chmielinski回忆说,DNP的成立源于这样一个认识:许多最终AI产品中存在的问题,在投入大量成本和努力之后,可以追溯到最初训练数据集的局限性。“如果你有偏见的数据,就会有偏见的结果,”Chmielinski指出,“没有所谓的无偏见数据集,但在AI开发过程的初期,用于探索性数据分析的工具却非常少。”为了填补这一空白,DNP设计了一个公开可访问的平台,创建“数据集营养标签”,以便那些希望使用数据集的人能更好地了解它适用于哪些研究。

鉴于不同格式的数据集和广泛的应用场景,设定通用标准或严格定量的“健康”数据指标既困难也可能误导。此外,Chmielinski指出,数据科学家通常会记录和检查数据分布等可计算特征。因此,DNP的标签突出了个体在简单查看数据时不易察觉的数据集属性。

为了识别这些属性,DNP向数据集创建者收集广泛的信息,例如他们的动机、构建数据集的预期用途以及任何已知的问题或限制,这些都应包含在数据集营养标签中。关键问题是询问考虑了哪些人群及其原因,缺失了哪些数据及如何处理,以及删除数据的标准是什么。

最终,这些特性和描述帮助潜在用户评估数据集是否适合其应用,考虑其边界,并根据需要寻找其他数据集。Chmielinski表示:“我们在承认和认识到需要有关数据质量的讨论方面产生了更广泛的影响,这些讨论解释了数据来源、谁被代表在数据集中以及数据应该如何和不应该使用。”

例如,DNP正与Memorial Sloan Kettering癌症中心的研究人员合作,获得Burroughs Wellcome Fund的资助。他们正在研究美国食品药品监督管理局(FDA),该机构目前将AI软件归类为医疗器械,如何监管用于开发基于照片的皮肤癌诊断应用程序的皮肤病学数据集。

Chmielinski对这类应用程序持谨慎乐观态度:“某些地区缺乏皮肤科医生,这种应用程序可以为无法获得医疗服务的人们提供帮助。”然而,她指出,这些应用程序在某些人群中的准确性可能受到影响,因为“底层训练数据集并未很好地代表所有肤色和类型,明显偏向较浅肤色和西方背景。”因此,对于DNP而言,这一合作的关键在于调查使用的数据集,并考虑如何建立更广泛的群体在AI训练数据中的代表性要求。

医疗数据监管:考虑和挑战

鉴于许多现有数据源未能充分包括多样化的人群,研究人员、医疗专业人员和AI开发者必须努力生成公平的数据集。

在美国联邦层面,针对医疗AI培训的数据收集法规相对薄弱,除1996年的《健康保险可移植性和责任法案》(HIPAA)外,几乎没有其他监督。HIPAA规定,某些“覆盖实体”,包括医疗提供者及其商业伙伴,不得处理或共享患者数据用于实体之外的目的。要豁免这一规定,允许数据被披露或购买用于训练AI模型,覆盖实体可以通过去除HIPAA规定的18个受保护健康信息(PHI)元素来去标识化数据,这些元素包括IP地址、社会安全号码和指纹等关键标识符。

对于收集患者健康数据的人来说,另一个考虑因素是1991年的《联邦保护人类受试者政策》,即《共同规则》。该政策规定了在涉及可识别的人类受试者数据研究中,如何通过知情同意(参与者在审查其优势和风险后自愿选择参与)来获得同意。然而,一旦数据被去标识化,HIPAA和《共同规则》便不再适用。根据密歇根大学教授Nicholson Price在接受《哈佛政治评论》采访时的说法,随着基于AI的再识别方案的出现,去标识化的概念变得越来越难以界定。

然而,创建新的数据集,尤其是大型的去标识化数据集或涉及复杂同意书的数据集,通常需要大量的时间和资源,而在许多医疗系统中并不容易获得。这些努力可能会进一步加剧AI训练数据中的偏见,因为目前只有少数资金充足的医院能够投入人员正确记录、结构化和去标识化患者数据。

在2015年至2019年间发表在PubMed上的56项研究中,用于开发AI算法的训练数据主要来自三个州——加利福尼亚州、马萨诸塞州和纽约州,超过70%的研究包括来自这三个州之一的数据来训练模型。其他34个州,甚至一些人口最多的州如佛罗里达州、伊利诺伊州和乔治亚州,在所有56项研究中均未出现。这三个州的患者队列可能无法准确代表全国人口,从而形成模型在广泛应用时的障碍。

扩大AI使用的数据集

为克服这些障碍,最近一些大规模提案启动,旨在创建具有代表性的、去标识化的高质量数据集。例如,国家卫生研究院(NIH)的“我们所有人”研究计划已公布超过24.5万名志愿者的基因序列数据。截至2024年2月,超过四分之三的志愿者来自传统上在医学研究数据中被边缘化的群体,该研究目标是吸引超过100万参与者。对这一数据集的分析发现了超过2.5亿个新发现的基因序列。百万退伍军人项目也进行了类似的尝试,以了解遗传和环境因素如何影响人类健康结果。

Price称赞这些计划,告诉《哈佛政治评论》:“我们需要多样化的高质量数据。我们认识到这对地方来说不容易做到,而且存在谁倾向于收集和提供数据的偏见。”实现这些目标需要资助协作和集中化的倡议,以收集可靠和准确的数据。

此外,AI系统本身也可以用于促进高质量数据集的创建。例如,它们可以自动化数据去标识化过程或简化同意书以增加患者的理解度。应用能够自主一致地去除保护标识符的AI系统可以显著降低创建数据集的成本,并为更多包容性的数据去标识化和用于训练AI模型打开大门。例如,Integral公司专注于提供这样的自主系统,取代昂贵的手动去标识化实践,特别是在医疗环境中,并遵守HIPAA和PHI指南。然而,从法律角度来看,围绕AI去标识化系统在隐私泄露情况下的责任和问责制定法律可能是复杂的,可能需要广泛的讨论。

AI工具还可以支持按照《共同规则》但无需去标识化的更广泛人类受试者研究数据集的扩展。在2024年布朗医学院的一项研究中,GPT-4在一些人类监督下被用来增强同意书的可读性,使参与者真正理解他们同意的条款。复杂语言的同意书平均可读性水平为大学一年级,通过简化降低了五个年级以上的阅读水平,同时保持准确性,并得到了医生和医疗事故律师的评估。虽然这项研究主要集中在手术同意书上,但类似技术可以应用于澄清其他类型的医疗文本和同意书,以促进患者对研究参与的舒适度。

在这方面,Blumenthal强调了“知情同意”和“有意义的同意”之间的明确区别。“有意义的同意可以通过AI本身得到增强,因为专业人士并不擅长为普通人写作,”他建议,“目标应该是获得有意义的同意,认识到在某些领域消费者无法有意义地同意,这时需要法规来超越他们所能做的。”

AI和数据可访问性

尽管AI应用在推进医疗决策和护理方面显示出前景,但训练数据缺乏多样性反而可能传播偏见,加剧不同患者群体之间的医疗不平等。实现有效途径以普遍应用具有代表性和包容性的数据集可能具有挑战性。然而,作为一般框架,Chmielinski认为“应该要求了解用于训练系统的数据,并应提供对底层数据的某种访问权限。”她建议,可以提供给审计人员和相关领域的专业人士访问权限——尽管不是广泛开放的访问,因为可能存在机密商业信息——以调查和增强我们对涉及AI形成的机制的理解。

尽管如此,正如Price总结的那样,“我希望看到的未来世界是绝大多数人都愿意分享他们的数据,认识到不良使用将被禁止,而良好使用将改善他们和其他人的医疗保健。我们离这个目标还很远。”然而,像DNP和“我们所有人”项目这样的努力提供了机会和框架,朝着这个方向前进,带来了希望,有一天这样的环境能够成为现实。


(全文结束)

大健康

猜你喜欢

  • 扩展非洲人类肠道微生物组图谱扩展非洲人类肠道微生物组图谱
  • 联影医疗在阿拉伯健康展2025上推出创新产品并加强中东和非洲的战略合作联影医疗在阿拉伯健康展2025上推出创新产品并加强中东和非洲的战略合作
  • Tempus AI:以可持续性和公平性为先,重新定义医疗保健Tempus AI:以可持续性和公平性为先,重新定义医疗保健
  • 深度伪造的积极应用案例深度伪造的积极应用案例
  • Freigeist Capital 投资瑞士初创公司 Akina 推动人工智能物理治疗Freigeist Capital 投资瑞士初创公司 Akina 推动人工智能物理治疗
  • 人工智能正在革新数字健康人工智能正在革新数字健康
  • FDA数字健康中心负责人特洛伊·塔兹巴兹辞职FDA数字健康中心负责人特洛伊·塔兹巴兹辞职
  • Quibim Corrals筹集5000万美元以推进医学影像的人工智能分析Quibim Corrals筹集5000万美元以推进医学影像的人工智能分析
  • 智能医疗市场预计在2024-2028年间增长1257亿美元,远程健康监测需求推动市场发展,AI重新定义趋势——Technavio智能医疗市场预计在2024-2028年间增长1257亿美元,远程健康监测需求推动市场发展,AI重新定义趋势——Technavio
  • FDA数字中心主任特洛伊·塔兹巴兹离职FDA数字中心主任特洛伊·塔兹巴兹离职
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康