哈佛大学计算机科学教授Finale Doshi-Velez近日接受了《十五分钟》的采访,谈论了人工智能在医疗决策中的应用、无聊AI的危险性以及她可能创作的第一部小说。以下是采访内容:
FM:你在麻省理工学院本科时主修航空航天工程和物理学。我很好奇你是如何从这个背景转向AI和决策制定的。
FDV: 回顾过去,很容易找到一个共同的主题,那就是什么让你兴奋。作为本科生,真正让我兴奋的课程是关于概率、机器学习和AI的。当时已经有一些与我现在研究相关的课程,只是应用领域不同,无论是更侧重于航空航天还是机器人技术。在某个时候,我想为NASA工作,从事卫星信息融合的研究。如果你考虑数学方面,你会发现“如何定位卫星并融合它们之间的信息”和“如何收集患者的传感器数据并融合这些数据”之间有很多相似之处。我觉得贯穿始终的是概率推理和不确定性下的决策方法。
FM:你的研究领域是AI在医疗中的应用,特别是帮助医生解释不同的疾病症状和表型。你是如何在这个领域脱颖而出的?
FDV: 我的博士研究并没有应用于任何特定的问题。我最初是一名机器人学家,然后转向了概率方法和强化学习。在我博士生涯的后期,我开始思考,如果将来退休时回顾我的生活,我是否会满意只做我现在正在做的事情?我觉得“我需要一些更具体地触及现实生活的研究”。当时,我与40个不同实验室进行了交流,涉及我关心的领域:健康、教育、能源和气候、发展中国家和社会公益等。恰好有一个与健康相关的博士后职位在方法上很适合我。所以,这十年来我一直在这个领域工作。
FM:自你开始研究以来,这个领域发生了巨大的变化。现在,AI和大型语言模型通过ChatGPT和生成式AI嵌入到我们的生活中。你预料到这种变化吗?这种变化是如何影响你的工作的?
FDV: 我认为我们非常需要密切关注这些模型,因为它们的能力已经非常接近人类生活——但又不完全一样。在这个领域,很多事情可能会出错。我还担心存在许多“无聊AI”,比如决定信用评分的AI,决定不同类型刑事司法决策、住房福利、判断是否欺诈的AI。这些领域正逐渐被这些“无聊”AI工具自动化。这些AI对人类的影响可能是积极的也可能是消极的,如果处理不当,可能会使边缘群体无法获得应有的资源。但如果处理得当,这些工具可以非常有帮助。它们可以处理简单的情况,帮助提高一致性。
FM:展望未来,你希望看到哪些法规来解决这些AI模型的局限性,这些模型虽然不完美,但可以用于关键决策,尤其是在多样化的群体中?
FDV: 许多行业已经有了一套规则,规定什么是可以接受的,什么是不可以接受的。目前的主要挑战是如何将特定于AI的检查清单和法规(这些检查清单和法规已经相当完善)或特定领域的法规与特定用例联系起来。因为法规仍然会说“它必须公平或无偏见”,或“数据必须代表将要应用的人群”。如何衡量这一点?如何知道某件事是“公平的”、“无偏见的”或数据是“代表性的”?我认为这是当前最大的差距。
FM:你负责计算机科学系的数据转行动知识小组,其中一个目标是利用AI模型解开复杂、异构的数据集。能否举一个你们小组在这方面工作的具体例子?
FDV: 我给你举一个我目前非常兴奋的具体例子。当我们分析健康数据时,一种常见的方法是从医院获取一批数据。我们首先关注的是医生意见分歧的地方。尝试识别那些条件非常相似但最终接受了不同治疗的患者。这简化了两件事情。首先,数据非常混乱,但如果你真的专注于识别这些分歧区域,最终会发现相对较少的情况。通过对ICU重症监护数据库进行分析,我们发现只有大约15种情况存在分歧。这对医生来说是一个很好的展示,可以告诉他们“这里是你和你的同事做法不同的地方”。首先,这非常易于理解,医生可以参与其中。其次,我们现在可以做一些优化,比如“选择第一种方案的人和选择第二种方案的人分别发生了什么?”
FM:AI模型的一个常见问题是“黑箱”问题,即不知道模型内部究竟发生了什么。我想知道你对确保我们确切了解模型在做什么有多重要有何看法?
FDV: 这引发了这样一个问题:“系统应该做些什么?”多年来,我意识到,刚开始时,很多努力都集中在“哪个治疗方案适用于哪个患者?”但随着工作的深入,我意识到AI还可以做其他事情。与其只提供一个选项,不如提供三个或五个选项的预期优点和缺点。使用AI工具,如果你能做出一个预测,你就能做出三个预测。这都是相同的数学。然后有人可以查看这些信息。当你在考虑选择选项而不是被告知该做什么时,你的思维状态是不同的。因为如果你被告知该做什么,你可能会因为AI看起来非常权威而照做。你也可能因为责任问题而照做,因为如果不这样做,你必须向雇主解释如果出现问题该怎么办。但如果你得到几个选项和一些优缺点,这就会邀请你与系统互动。人类医生会互相讨论他们的决策和理由。如果我们能找到需要呈现的信息,使其他人有信心信任或不信任我们,我觉得也可以用同样的方式与AI互动。
FM:我很好奇你是如何与医生沟通的。如何将这些最佳实践传达给将要使用这些工具的人,尤其是他们非常忙碌的情况下?
FDV: 我认为你不能仅仅告诉人们如何行为。你需要设计一个系统,使其能够吸引人们的参与。例如,我们构建了一个系统的原型,允许你切换条件。系统从健康记录中填充“我认为你有的条件”。但由于它是可切换的,你可以更改它。假设你有一些睡眠问题,但从未被诊断为失眠。你可以打开失眠选项,因为你不想使用会影响你睡眠的药物。如果你让系统具有交互性,人们就更有可能与之互动。
FM:你研究中的一个概念是“反事实解释”——即如果我们稍微改变输入,模型的输出会发生什么变化。如果这些建议如此依赖于输入并且对变化非常敏感,我们如何确保输入系统的数据尽可能准确,特别是像患者记录这样杂乱的数据?
FDV: 当涉及到数据中的噪声时,有许多正则化方法和概率方法可以处理这个问题。一种干净的数学方法是假设存在一个真实值,然后假设测量值是真实值的某种噪声版本,再假设真实值影响某些结果。我认为这一部分相对容易处理。更难处理的是系统性因素。例如,一家医院可能会为所有进入急诊室的人测量某些指标,而另一家医院可能只对认为有某种病症或处于某种风险的人进行测量。突然间,缺失的测量变得具有信息量。如果医生没有测量某人的某些指标,这意味着医生并不担心。这些数据中的含义往往不明确,需要人类的帮助来解读。
FM:这让我想起你们团队发表的一篇论文,强调了上下文在AI模型中的重要性,认为我们不能用一个通用模型来解决所有问题,因为上下文非常重要。我们如何思考AI模型的实施,同时仍然将上下文纳入其中?
FDV: 我认为我们必须接受这样一个事实,即AI系统需要不断监控。这不像你买一次设备就可以一劳永逸——你需要每年进行检查。你需要监控系统,还需要根据新数据不断调整系统。有许多研究试图找出如何微调或适应模型的方法。我认为主要瓶颈在于医院并没有为此类对象做好准备。
FM:医院如何为增加的AI使用做好准备?
FDV: 医院是非常复杂的系统。它们也是企业,不仅需要关注利润,还需要关注合规性和违规的后果,因为这可能会带来巨大的成本,无论是罚款还是声誉损失。我认为在美国,文化上并不鼓励安全地进行实验和变革。美国的监管环境和支付结构使得这些变革非常困难。
FM:另一方面,对于那些开发这些模型并希望在诊所中实施的人,你认为他们是否取得了足够的进展,是否意识到了AI的局限性?
FDV: 我仍在进行回顾性数据分析,但实际上我也将实验室的重点转向了移动健康和可穿戴设备。这更加直接面向个人,因为在那里,你不会受到所有行政结构的阻碍,这些结构可能会阻止你接触到用户。我试图找到一个平衡点,一方面进行非常临床的研究,如分析血管造影等,另一方面也涉足健康和个性化发展等领域。这是一个有趣的不确定性和强化学习问题,旨在帮助你找出最适合自己的方法。我们还处于早期阶段,但我正在努力使我的研究组合多样化,包括一些更直接面向用户的研究。
FM:这些可穿戴设备的一些例子是什么?是像健康手表这样的东西吗?
FDV: 我们收到了几款Garmin设备的捐赠,并与LabFront合作,后者帮助进行许多低级别的数据管理。我们从这些设备中获得了相当好的数据。我们正处于实验的早期阶段,但已经发现了一些有趣的现象。例如,自我报告为内向和外向的人在社交互动中的生理信号非常不同。我认为这非常有趣,能看到这些差异。
FM:我注意到你的数据转行动知识小组的标志是一只彩虹独角兽,你还称自己为独角兽爱好者。独角兽有什么特别之处?
FDV: 需要澄清的是,是我的一名研究生在实验室网站上写我是独角兽爱好者,不是我自己。我觉得这已经成为了一种自我实现的预言。
FM:它是如何成为吉祥物的?
FDV: 我的电子邮件收件箱一团糟。所以我曾经在网站上写过“如果你读了这段话,在主题行中加上‘紫色独角兽’”。这完全是随口一说,我问孩子们“说出一个随机词”。这背后并没有太多深意。成为独角兽爱好者可能并不是独角兽成为标志的原因。但现在它已经是标志了,我完全支持。
FM:我还看到你正在写你的第一部小说《沙线》,你在大学时辅修创意写作。你能谈谈创作小说的过程吗?
FDV: 我一直很喜欢写作。从小我就喜欢制作书籍。这是我的第三或第四部小说——我认为这是第一部可以出版的小说。我喜欢扮演和主持角色扮演游戏,这给了我很多灵感,因为你会花大量时间沉浸在角色的内心世界,规划思想和观察事件的发生。这部小说最初就是从这种体验中获得灵感的。
FM:你还在YouTube频道Bayesonce上发布了你的作品的音乐视频。我注意到你对科学有一种非常有趣和玩味的表达方式。为什么你觉得这些创造性的表达科学的形式很重要?
FDV: 我一直是Weird Al的粉丝,我喜欢恶搞的艺术。有些人喜欢做数学,这很棒。但对我来说,我更广泛。我喜欢阅读文学并讨论它;我喜欢听不同类型的音乐或去看戏剧表演。我有很多方面的兴趣,我觉得能够将这些结合起来很有趣。社会鼓励我们将自己归类到某个特定的类别中。你是STEM人士,或者是戏剧孩子,或者是分析师,对吧?我认为我们大多数人可能并不完全适合任何一个类别。至于音乐视频,我一直是个狂热的粉丝。有一次研究生参观日,实验室提议“我们为什么不拍个音乐视频呢?”有人自告奋勇负责拍摄,另一个人说“我可以跳舞”,而我则写了歌词。
(全文结束)

