为了确定癌症的类型和严重程度,病理学家通常会在显微镜下分析肿瘤活检的薄片。但要找出驱动肿瘤生长的基因组变化——这些信息可以指导治疗方式——科学家们必须对从肿瘤中分离出来的RNA进行基因测序,这个过程可能需要几周时间,并花费数千美元。
现在,斯坦福大学医学院的研究人员开发了一种基于人工智能的计算程序,可以根据标准显微镜图像预测肿瘤细胞中数千个基因的活性。这项工具于11月14日在《自然通讯》杂志上在线描述,是使用来自超过7,000个不同肿瘤样本的数据创建的。研究团队展示了他们可以使用常规收集的活检图像来预测乳腺癌中的基因变异,并预测患者的预后。
“这种软件可以用来快速识别患者肿瘤中的基因特征,加快临床决策,并为医疗系统节省数千美元。”该论文的资深作者、生物医学数据科学教授奥利维尔·热瓦尔特博士(Olivier Gevaert, Ph.D.)说。这项工作还由斯坦福大学研究生玛丽亚·皮祖里卡(Marija Pizuria)、博士后研究员余安娜·郑(Yuanning Zheng, Ph.D.)和弗朗西斯科·佩雷斯(Francisco Perez, Ph.D.)领导。
基因组驱动的治疗选择
临床医生越来越多地根据不仅患者的癌症影响哪个器官,还包括哪些基因被肿瘤用于促进其生长和扩散,来选择癌症治疗方法,包括化疗、免疫疗法和激素疗法。某些基因的开启或关闭可能会使肿瘤更具侵略性,更有可能转移,或对某些药物更敏感或不敏感。
然而,获取这些信息通常需要昂贵且耗时的基因组测序。热瓦尔特和他的同事知道,单个细胞内的基因活性会以人类肉眼难以察觉的方式改变这些细胞的外观。他们转向人工智能来寻找这些模式。
研究人员从16种不同类型的癌症中收集了7,584个癌症活检样本。每个活检样本都被切成薄片,并使用一种称为苏木精和伊红染色的方法进行处理,这是用于观察癌细胞整体外观的标准方法。关于这些癌症转录组的信息(即细胞正在积极使用的基因)也已提供。
工作模型
研究人员整合了新的癌症活检样本以及其他数据集,包括转录组数据和数千个健康细胞的图像后,他们命名的AI程序——SEQUOIA(基于切片的线性注意力表达量化)——能够从染色图像中预测15,000多个不同基因的表达模式。
对于某些癌症类型,AI预测的基因活性与真实基因活性数据的相关性超过80%。一般来说,初始数据中包含的任何给定癌症类型的样本越多,该模型在该癌症类型上的表现就越好。
“经过多次迭代,模型才达到了我们满意的性能水平,”热瓦尔特说。“但最终,对于某些肿瘤类型,它达到了可以在临床上有用的程度。”
热瓦尔特指出,医生在做出临床决策时,通常不是一次查看一个基因,而是查看包含数百个不同基因的基因特征。例如,许多癌细胞会激活与炎症相关的数百个基因,或与细胞生长相关的数百个基因。与预测单个基因表达相比,SEQUOIA在预测这些大型基因组程序是否被激活方面更加准确。
为了使数据易于访问和解释,研究人员编程了SEQUOIA,使其以肿瘤活检的视觉地图形式显示遗传发现,让科学家和临床医生可以看到肿瘤不同区域的遗传变异有何不同。
预测患者预后
为了测试SEQUOIA在临床决策中的实用性,热瓦尔特和他的同事确定了模型可以准确预测表达的乳腺癌基因,这些基因已经用于商业乳腺癌基因组测试中。例如,FDA批准的MammaPrint测试分析了70个与乳腺癌相关的基因水平,为患者提供其癌症复发风险的评分。
“乳腺癌有许多经过深入研究的基因特征,过去十年的研究表明这些特征与治疗反应和患者预后高度相关,”热瓦尔特说。“这使它成为我们模型的理想测试案例。”
研究团队展示,SEQUOIA仅使用染色的肿瘤活检图像就能提供与MammaPrint相同的基因组风险评分。这一结果在多个不同的乳腺癌患者群体中得到了重复验证。在每种情况下,被SEQUOIA识别为高风险的患者预后更差,癌症复发率更高,复发前的时间更短。
虽然目前AI模型还不能在临床环境中使用——它需要在临床试验中进行测试,并获得FDA的批准才能用于指导治疗决策——但热瓦尔特表示他的团队正在改进算法并研究其潜在应用。他指出,未来SEQUOIA可以减少对昂贵基因表达测试的需求。
“我们展示了这种方法对乳腺癌的有用性,现在我们可以将其应用于所有癌症,并查看任何可用的基因特征,”他说。“这是一个全新的数据来源,我们以前从未拥有过。”
罗氏诊断公司的科学家也是这篇论文的作者之一。
更多信息: Marija Pizurica等人,《从组织学图像中通过线性注意力数字谱型化基因表达》,《自然通讯》(2024)。DOI: 10.1038/s41467-024-54182-5
期刊信息: 自然通讯
来源: 斯坦福大学医学院
引用: AI工具从活检图像预测癌症基因活性(2024年11月14日),2024年11月14日从 获取。
(全文结束)

