如今,在大多数医生的办公室里,你会发现一个模式:每个人都在不停地使用Google。医生们搜索诊断线索或最佳治疗方案的提醒,患者则通过WebMD输入症状并浏览一长串可能的问题。但这些频繁的搜索仍存在不足之处。医生没有时间筛选大量的结果,而患者也没有能力消化医学研究。每个人都难以找到最可靠的信息。
乐观主义者认为,人工智能可以帮助解决这些问题,但这些聊天机器人可能还不适合正式场合。在最近的一篇论文中,华盛顿大学环境与职业健康科学系及医学院神经学系的研究教授加里·富兰克林博士描述了他与谷歌Gemini聊天机器人的令人担忧的经历。当富兰克林询问Gemini关于特定手术(减压臂丛神经手术)的结果时,聊天机器人给出了详细的答案,引用了两篇不存在的医学研究。
富兰克林写道:“使用AI聊天机器人提取准确的科学信息或循证指导时,需谨慎对待。”他建议AI专家开发专门的聊天机器人,仅从经过验证的来源获取信息。
致力于解决这一问题的专家之一是露西·卢·王,她是华盛顿大学信息学院的助理教授,专注于使AI更好地理解和传达科学信息。王开发了工具,用于从医学研究论文中提取重要信息、验证科学声明,并使盲人和低视力读者能够访问科学图像。
华盛顿大学新闻采访了富兰克林和王,讨论了AI如何增强医疗保健、面临哪些障碍,以及将医学研究民主化是否有负面影响。
你们都研究过AI在医疗保健领域的可能性和风险,包括患者向聊天机器人咨询医疗信息的经历。在最好的情况下,你如何设想AI在健康和医学中的应用?
加里·富兰克林:医生经常使用Google,但他们也依赖UpToDate等服务,这些服务提供了非常出色的医学信息和研究总结。大多数医生根本没有时间,只想快速阅读有充分依据的内容。因此,从医生的角度来看,如果这项技术能有意义地帮助寻找真实答案、提高工作效率、更好地协调事务,那将是极其伟大的。
我不确定医生会多大程度上使用AI,但多年来,患者带着他们在互联网上找到的问题前来就诊,比如在WebMD上看到的内容。AI只是患者这样做的一种新步骤,获得一些关于如何处理他们得到的建议的指导。例如,如果患者见到一位过于激进的外科医生,建议进行大型手术,患者可以询问AI工具更广泛的文献有何推荐。对此我也有顾虑。
露西·卢·王:我将从临床医生和患者的两个角度来回答这个问题。
从临床医生的角度来看,我同意加里的观点。临床医生希望快速查找信息,因为他们承受着巨大的压力,治疗患者的时间有限。你可以想象,如果我们现有的这些聊天机器人在搜索信息和准确引用方面表现得更好,它们可以成为像UpToDate这样的工具的更好替代品。UpToDate很好,它是人工策划的,但并不总是包含你可能需要的最详细的信息。
这些工具还可以帮助临床医生与患者的沟通,因为往往没有足够的时间跟进或以患者能理解的方式解释事情。这是临床医生工作的一部分,我认为在理想情况下,语言模型和这些工具可以非常有益。
最后,从患者的角度来看,开发这些工具来帮助患者教育并提高整体人口的健康素养,超越WebMD或Google所能做的,将会非常棒。这些工具可以让患者更多地参与自己的健康和医疗护理。
从个体到系统的层面来看,你认为AI能否让整个医疗系统运行得更顺畅?
加里·富兰克林:我很好奇这些工具是否可以用于改善医疗系统内部及医生之间的协调。这很糟糕。有一本书叫《跨越质量鸿沟》,书中指出美国医学的主要问题是专科之间或初级保健与其他方面的协调不佳。这种情况依然很糟糕,因为医学领域实际上没有专门负责协调的功能。所以另一个问题是:这种技术在协调医疗保健方面是否有作用?
露西·卢·王:已经有很多研究集中在可以总结患者病史的工具上,这可能是不同专科之间沟通的一种方式。还有另一个方面:如果患者可以直接与系统互动,我们可以构建更好的患者体验时间线及其与临床医疗的关系。
我们对医疗寻求者的定性研究表明,人们有一些不愿意直接问临床医生的问题,但更愿意向这些模型提问。因此,这些模型本身可能解决了患者不愿直接与医生分享的需求。
实现这些最佳情况的障碍有哪些?
露西·卢·王:我认为既有技术上的挑战,也有社会技术上的挑战。从技术挑战来看,许多模型的训练目前并不适用于科学搜索和总结任务。
首先,当前的聊天机器人主要是作为通用工具训练的,因此它们试图在所有方面都表现良好,但在任何方面都不出色。我认为将会有更多针对这些特定任务的定向开发,例如加里提到的带有引用的科学搜索。当前的训练方法倾向于生成指令跟随的模型,并在其输出中表现出极大的正面响应倾向。这可能导致生成带有支持答案的引用的答案,即使这些引用在现实世界中并不存在。这些模型还被训练成对其响应过于自信。如果模型的沟通方式积极且过于自信,那么在医疗保健等领域就会引发很多问题。
当然,还有社会技术问题,例如这些模型应该以支持科学搜索的具体目标进行开发。事实上,人们正在朝这个方向努力,并已展示了初步的良好结果。
加里·富兰克林:那么你们领域的专家是否相信这些问题可以在相对较短的时间内克服?
露西·卢·王:我认为引用问题已经在研究演示案例中得到了克服。例如,如果我们把一个大型语言模型连接到PubMed搜索,并允许它只引用PubMed索引的文章中的结论,那么这些模型对引用非常忠实。但是如果你使用Gemini和ChatGPT,这些工具并不总是连接到这些研究数据库。
加里·富兰克林:问题在于尝试使用这些工具的人不知道这一点。
露西·卢·王:没错,这是一个问题。人们倾向于信任这些工具,因为例如我们现在在Google搜索顶部看到的是AI生成的答案,而人们历来信任Google搜索只会索引人们撰写的文章,可能会将更可信的文章放在顶部。但AI生成的响应可能充满错误信息。结果是一些人开始失去对传统搜索的信任。即使我们改进了技术,重建这种信任也将非常困难。
我们真的处于这项技术的初期阶段。互联网上有意义资源的开发花费了很长时间,例如维基百科或PubMed。目前,这些聊天机器人是通用工具,但已经开始出现底层模型的混合体。未来,它们将更好地将人们的查询路由到正确的专家模型,无论是连接到PubMed的模型还是由与医疗保健相关的各种协会发布的可信文件。我认为在未来几年里,这可能是我们的方向。
撇开信任和可靠性问题不谈,广泛部署这些工具是否有潜在的负面影响?我可以看到人们使用聊天机器人自我诊断的问题,这可能不如看医生好。
露西·卢·王:你可以想到像WebMD这样的资源:它的存在是利大于弊还是弊大于利?在它存在之前,患者确实很难找到任何信息。当然,与临床医生面对面交流的时间有限,人们实际有机会提出这些问题。因此,对于每一个在WebMD上错误自我诊断的患者,可能还有数百个患者找到了快速答案。我认为这些模型也会类似。它们将有助于解决临床护理中的一些资源不足问题。
(全文结束)

