AI辅助医学的未来 - AI与医疗健康

人工智能领域的先驱和领导者们一致认为，医学和医疗保健领域的进展是其最重要且无可争议的积极影响。正如杰弗里·辛顿所言："我总是将医学作为例证来说明它能带来的所有好处，因为几乎它在此领域所做的每件事都将是有益的。"同样，谈到疾病终结时，德米斯·哈萨比斯表示："我认为这触手可及。也许在未来十年左右，我没有理由不相信这一点。"还有达里奥·阿莫代，他相信人工智能将治愈大多数癌症、预防阿尔茨海默病并将人类寿命延长一倍；山姆·奥尔特曼则预言："我们将看到疾病以史无前例的速度被治愈，这要归功于人工智能。"穆斯塔法·苏莱曼表示："我最期待的应用之一就是医疗超级智能的探索。我认为在未来几年内，我们将构建出在诊断方面优于任何学科中绝大多数专家临床医生的模型。"

这些宣言令人鼓舞，但人工智能如何最终彻底改变医学的具体细节仍不明确。本文旨在填补这些空白，提供一个前瞻性视角，阐述人工智能如何通过提高诊断准确性、恢复医患关系的人性化本质以及预防疾病，在医学实践和患者健康结果方面实现深刻改进。

医疗界往往淡化其错误。然而，约翰霍普金斯大学研究人员的一份重要报告显示，每年近八十万美国人因重大诊断医疗错误而遭受永久性残疾或死亡。这还不包括治疗错误，这是另一个严重问题。"精准医学"这一常用术语并没有承认，如果你反复犯同样的错误，从某种扭曲的角度来说，这是非常"精准"的。我们迫切需要在医学中促进诊断准确性。

如今我们正在取得进展，特别是在医学影像解释方面。迄今为止规模最大的医疗AI随机试验比较了使用AI支持的放射科医生与未使用AI的放射科医生在十多万名接受乳腺X光检查的女性样本中的表现。使用AI支持的放射科医生比未使用AI的放射科医生多检测出约30%的乳腺癌病例和25%的侵入性肿瘤。同样，在胃肠病学领域的四十项随机试验中，机器视觉支持的结肠镜检查（与无机器视觉的结肠镜检查相比）使腺瘤和息肉的总体检出率提高了20%以上。

除这些随机试验外，还有支持改进各种类型医学影像（包括X光、超声波、正电子发射断层扫描(PET)、CT扫描和MRI）准确性的证据。下一步是将初始图像审查过程完全自动化，AI系统不仅能够筛查特定特征，还能综合信息生成综合报告，由监督医师进行审查。研究人员最近在医学影像最复杂的领域之一——超声心动图方面做到了这一点。心脏运动以及获取和解释不仅静态图像而是超声视频的多个视图的需要，创造了一个数据丰富且复杂的环境，用于开发基础AI模型。通过使用跨越二十三个心脏结构和功能基准的超过一千二百万个超声心动图视频和配对文本报告进行训练，EchoPrime模型在解读心脏特征和诊断方面达到了最先进的性能。目前正在开展类似工作，旨在将此应用于所有医学扫描，以提高诊断准确性和简化工作流程。

这带来了"超人视觉"的概念。传统的医学影像解释——回答特定问题——可能会过时。例如：胸部X光片显示肺炎吗？通过计算机视觉，我们现在可以检测胸部X光片中嵌入的关于2型糖尿病存在、未来十年动脉粥样硬化风险、冠状动脉钙化评分、射血分数和骨质疏松症的信息。乳腺X光片准确检测心脏病风险或胸部CT扫描发现胰腺癌的情况也是如此。这种"机会主义"医学扫描解释反映了数字眼睛"看到"专家临床医生无法察觉事物的能力。

超人视觉不仅限于放射学扫描。最非凡的例子可能是视网膜图像，无论是照片还是光学相干断层扫描(OCT)。各种研究，以及最近使用庞大而多样化数据集进行广泛任务的AI基础模型，表明视网膜的信息量如何惊人。AI对视网膜成像的解释可以告诉我们患者的血压、血糖控制以及心脏病、肾脏病、肝病和胆囊疾病的风险。这些图像是无症状人群未来阿尔茨海默病和帕金森病风险的窗口。在视网膜中，AI还可以检测亚临床（无症状、无限制血流的狭窄）冠状动脉粥样硬化和静默性脑损伤的可能性，以及中风风险。

前述的12导联心电图同样适用于此前仅通过影像无法获得的AI洞察。它们包括确定患者的年龄和性别；贫血、糖尿病或肾脏疾病的存在；左心室射血分数；心脏充盈压；预测心房颤动；以及中风风险。或者，通过AI，可疑癌症组织的病理切片可以确定肿瘤的基因组驱动突变、其恶性状态、原发部位和患者预后。不同类型医学影像中编码的所有内容的可能性似乎是无限的， certainly not envisioned before the advent of deep learning and generative AI. Whether and when all this information will move from research publications to medical practice is uncertain, and will require further validation, but it is fair to say we won't be leaving so much data on the table thanks to the power of AI superhuman vision.

人工智能在提高诊断影像的准确性和全面性方面取得了巨大进展，但促进准确性的AI贡献远不止于此。特别调整的大型语言模型已经证明能够简洁而准确地综合患者的所有数据，这些数据可能相当广泛且来自多个来源。改进的AI性能还延伸到改善患者沟通和管理计划。在一项涉及150个案例场景和患者演员的研究中，AI在32项任务中的30项上表现出优于专科临床医生的性能。虽然该研究不能代表医学实践的真实世界，但随后在来自四大洲的真实医疗中心进行的随机试验证实了在眼科护理中使用AI在诊断七种主要眼病和患者管理方面的优势。AI的临床益处也不仅限于高收入国家：在内罗毕十五家诊所进行的近四万次患者就诊的初级护理随机试验表明，临床医生使用AI咨询工具减少了诊断和治疗错误。在低收入和中等收入国家，针对结核病、儿童癌症、糖尿病视网膜病变和风湿性心脏病等许多其他医疗任务也出现了类似结果。

几十年来，医患关系一直在稳步削弱，部分原因是诊所就诊和医院床边查房分配的时间非常有限。医学的商业化和对临床医生生产力的追求让医生感到无法为患者提供足够的护理——这是他们进入该行业的主要原因。如今典型的医患接触仅持续几分钟，几乎没有（如果有的话）面对面接触——法律和道德要求的进展记录迫使医生从床边转向键盘，履行数据文员职责。患者感知到医生的缺席，这反过来导致缺乏信任、关怀和关注。几十年前亲密的人与人之间的纽带已经滑向疏远的遭遇，缺乏同情心，通常身体检查非常有限且很少接触患者。在我2019年的著作《深度医学》中，我写道AI有潜力在医学中培养人性。许多人认为这个想法违反直觉：技术如何能让医学再次变得人性化？

从键盘解放出来可以显著改善医生与患者的就诊体验。通过使用能够综合笔记并具有许多下游功能的AI速记员，医生可以将注意力重新集中到患者身上，恢复面对面沟通。同时，环境对话可以生成带有音频链接的优秀笔记，供患者就诊后回顾。此外，AI助手可以安排实验室检查、后续就诊和扫描；运行与保险公司的预先授权并提交处方；进行编码和计费；甚至在就诊后提醒患者是否正在跟进计划的行动，如测量血压或散步。通过这种方式，AI的行政使用是人道主义的。自动化是减轻临床医生数据文员负担并使他们能够更充分地专注于患者的重要一步。此类系统已被证明可以节省临床医生时间并减少倦怠——这是全球医疗工作者的危机。这项技术的采用速度出奇地快；不久之后，自动记笔记和AI支持耗时的行政任务将成为常态。

患者正在获得赋权。即使在生成式AI之前，算法诊断已经改变了患者监测健康的方式，使他们能够通过智能手表测量异常心律，在杂货店筛查糖尿病视网膜病变，通过非处方试剂盒检测尿路感染，或通过应用程序分类皮肤皮疹或病变。现在，患者正在使用AI聊天机器人进行诊断（其中一些连医生和检查都未能发现）、获取第一和第二意见、输入实验室数据、获得最佳治疗建议或为就诊做准备。这一趋势反映在《纽约时报》最近一篇题为"富有同理心、可用、便宜：当AI提供医生无法提供的服务时"的文章中。

我未曾想过同理心可以通过机器来促进。但在一项比较患者对同理心感知的十五项研究的系统综述中，除两项研究外，所有研究都显示，患者在与基于AI的聊天机器人的文本对话中报告的同理心水平高于与临床医生的文本交流。虽然AI并不具备同理心，但它通过适当语言培养同理心感知的能力非常重要，因为同理心感知能促进更好的患者结果。未来，这种能力很可能会导致AI对临床医生进行辅导，使他们成为更好、更有同理心的沟通者。更进一步，考虑AI如何审查医生的自动笔记可能导致富有成效的提问："为什么你在九秒后打断了琼斯太太？为什么你不给她表达真正担忧的机会？"虽然这肯定没有被设想为AI的角色，许多临床医生会对这种想法感到反感，但这种辅导成为医学执业年度许可要求的一部分并不奇怪。临床医生要实现改进AI准确性的益处，认识其缺点，并促进与患者的信任，必须接受这些新系统的特定培训。

改善医患关系需要时间的礼物；这是更深入的医患讨论和仔细身体检查的起点。但AI也引入了医疗管理者利用该技术提高生产力和盈利能力的可能性：这些工具可能不会为有意义的医患互动创造更多时间，而是允许临床医生在更短时间内接诊更多患者。这种对技术的方法将具有破坏性，并使AI帮助恢复医疗保健中基本人性的机会落空。为应对这一风险，我呼吁临床医生团结起来对抗管理者。临床医生应利用其议价能力增加面对面门诊就诊的分配时间，将这一宝贵的会面保留给重要事项，同时在适当情况下利用包括AI聊天机器人、远程医疗和虚拟教练在内的替代患者服务。

癌症、心血管疾病和神经退行性疾病是三种主要的年龄相关疾病。它们通常在60岁以后开始发病，累积起来是人类健康寿命——健康生活的年数——缩短的主要原因。除了随年龄增长的发病率增加外，它们还有两个重要特征：1）症状出现前大约二十年的长期潜伏期；2）免疫系统功能失调和保护丧失，伴随着不良炎症。"免疫衰老"和"炎症老化"这两个术语用于描述后者。

"初级预防"是一种采取先发制人步骤来预期和解决个人风险并在疾病发生前阻止它的治疗方法。尽管经常被讨论，但在医疗实践中，三种主要年龄相关疾病的初级预防仍然罕见。通过乳腺X光检查、结肠镜检查和前列腺特异性抗原进行大规模癌症筛查，但这些测试充其量仅用于检测，而非预防癌症。一旦通过扫描检测到癌症，体内已经存在数十亿个癌细胞，并且癌症在体内扩散的可能性增加。但现在通过基因组学可以了解谁有患癌风险，包括多基因风险评分和全基因组测序。此外，我们完整的免疫系统对于预防癌症的发生至关重要，我们最近才找到确定我们免疫反应健康和功能的方法。直到现在，令人惊讶的是，临床上没有任何测试来衡量我们免疫系统的健康状况。但器官时钟——一组追踪身体每个器官和我们免疫系统衰老速度的血液蛋白质——的最新进展提供了一条前进道路。

尽管过去二十年中心脏病发作明显减少，但美国每年仍有超过八十万人未得到预防。最近的重点已转向识别易受伤害的患者，这些患者在可能发生的灾难性事件发生前就存在炎症性动脉粥样硬化斑块。

对于阿尔茨海默病，被称为p-tau217的突破性血液测试现在可以在轻度认知障碍症状出现前几年检测该疾病的风崄。有家族史、一个或两个APOE4等位基因以及高多基因风险评分的人患阿尔茨海默病的风险也会增加。像p-tau217这样的大脑生物标志物，类似于心脏病的LDL胆固醇，具有双重用途：定义风险并测量生活方式改变和药物带来的变化。

对于每种这些年龄相关疾病，能够识别高风险个体的长跑道使实现初级预防的可能性比以往任何时候都更加现实和可行。但这需要拥有患者的"全栈"数据，包括电子健康记录、生活方式因素、实验室检查、影像、视网膜扫描、基因组学、蛋白质（器官时钟）、相关血液生物标志物、环境暴露和可穿戴传感器数据。我们了解到，虽然医生和患者通常将正常范围内的实验室测试视为不重要，但AI可以捕捉重要趋势并将这些结果与医疗记录联系起来。AI还可以从笔记本身提取重要数据，包括结构化和非结构化组件，例如在否则难以诊断的胰腺癌发生前几年检测到高风险。我回顾了医学扫描和视网膜成像在预测心血管和神经退行性疾病风险方面的机会主义能力。此外，AI模型现在可以区分"正常"乳腺X光片，将其中一些重新分类为显示未来五年内乳腺癌高风险。

总体而言，这些数据层为多模态AI设定了确定每个人一种或多种主要年龄相关疾病风险状态的能力，并跟踪干预是否降低了风险。干预措施不仅包括健康生活方式因素——如抗炎饮食、定期锻炼和良好睡眠——还包括药物治疗。AI药物发现领域备受关注，该领域有数十家公司活跃，其中一些与主要制药公司合作。我们倾向于将药物视为仅用于治疗症状和疾病，但在未来几年，将转向预防性药物。也许胰高血糖素样肽(GLP-1)家族药物的多效作用，其益处已从治疗糖尿病和肥胖扩展到预防心脏、肾脏、肝脏和成瘾障碍（在某种程度上独立于体重减轻），将被视为预防性药物的转折点。虽然优化生活方式将始终被视为基础且低成本，但显然需要更多才能实现三大年龄相关疾病的预防。

除了预测疾病的新能力外，还发布了第一个大型健康模型，称为Delphi-2M。研究人员从英国生物银行四十万参与者和丹麦近两百万人的电子健康记录和生活方式数据构建并验证了Delphi-2M。通过对每个人过去数据进行标记，基于GPT-2（一种相对低参数和早期生成式AI前身）的模型能够以惊人的准确性预测未来二十年内的疾病——既是"疾病或健康事件"也是"何时"。当引入多基因风险评分作为额外数据层时，预测性能得到提高。未来，更先进的大型健康模型将使用上述全栈数据进行验证，将预测能力提升到更高的准确水平。

数字孪生资源预测疾病也有相当大的潜力。此前，计算机科学家兼投资者李开复和我设想了一个全球数据资源，包含数十亿个体及其完整的医疗和健康数据堆栈，以及在延长随访期间捕获的所有数据。凭借这样一个数据集——其隐私和安全必须通过联邦学习和加密来保护——我们将能够使用最近邻分析为任何人找到数字孪生体。这种数据分析将补充个体的多模态AI和大型健康模型，作为预测健康事件和疾病风险的另一种手段，达到最高级别的准确性，实现初级预防。目前尚不存在这样的资源，但促进人类健康寿命的潜力太大而不能忽视，这很可能是不可避免的。随着美国人口显著老龄化，减轻这些年龄相关疾病负担的巨大经济收益，加上对这些AI工具和资源以及初级预防理想的投入，极具吸引力。

虽然AI在未来促进医疗准确性、人道主义和预防方面具有巨大潜力，但挑战也不少。目前，大型语言模型尚未准备好广泛用于医疗，压力测试和代表性医疗基准确定了明显的缺陷。我提到了数据隐私和安全的重要性，这是我们迄今为止没有良好记录的方面。但转向个人在安全平台上拥有自己的医疗数据，其中还可以包含当前不属于我们电子健康记录的传感器和基因组学数据，可能会带来改进。至于这些和其他输入的内在文化偏见，我们必须充分审查它们以避免其传播。我认为AI可以减少健康不平等，但事实是，如果没有优先考虑公平性的刻意举措，AI系统很可能会加剧这些不平等。当然，AI引起的医疗错误也是一个问题，特别是在生成式AI系统与患者直接连接且临床医生监督不足的情况下。我们必须在将任何面向患者的模型公开之前，进行专门的努力来审查和改进它们。到目前为止，我们没有关于直接患者访问在效益和危害方面的客观数据；这需要持续捕捉和监测。对于主要依赖低门槛清除而非正式批准AI算法应用的宽松监管监督方法，也存在重大风险和问题。医疗保健市场中AI的报销标准尚未适应正在取得的进展：利益相关者的激励措施仍然不一致，这导致停滞和延迟采用有用技术。我们必须行动并建立在我们已有的如何最好地前进的建议之上。最重要的是，我们需要在医学界和公众中建立信任，这源于透明度和强有力的医学研究来识别效益和危害。如今如此多的医学AI研究被孤立起来，未能在医学实践中实施。研究与实践之间的这一巨大鸿沟需要弥合。

医学AI未来的影响力将是变革性的，特别是如果它关注并最终克服前方的许多障碍和挑战。我相信，预防年龄相关疾病，从而显著延长人类健康寿命，将是AI在医学领域未来几十年中最重要的一项贡献。

【全文结束】