自人类基因组计划完成 20 多年以来,研究人员不断开发和完善基因组领域的流程,以更好地理解人类健康。此类研究也影响着精准医学(又称个性化医学)的发展,其旨在根据患者的特定基因、环境和生活方式来治疗患者。这是整个行业向更全面的护理方式转变的一部分,例如考虑患者健康的社会决定因素等其他因素。
在华盛顿市中心举行的 NVIDIA AI 峰会上,研究人员讨论了加速计算如何更好地改变他们工作的移动性、访问和存储,使其能够覆盖更广泛的组织和合作伙伴网络。
美国国家标准与技术研究所(National Institute of Standards and Technology)主持了一个名为“瓶中基因组”(Genome in a Bottle)的公私财团,以开发关于人类基因组测序用于临床实践的惯例和资源。NIST 生物标志物和基因组科学小组的联合负责人 Justin Zook 讨论了该项目数据的意外用例。
“在 12 或 13 年前我们开始‘瓶中基因组’时,我们确实没有预见到的一个用例是,这些数据也可以用于训练机器学习模型或深度学习模型,”Zook 说。
例如,由谷歌开发并在 NVIDIA Parabricks 中实现的 DeepVariant 可以更轻松、更快速地在 GIAB 基准上进行训练和测试。“深度学习方法真正有助于采用新技术,”他补充道。
美国国家癌症研究所弗雷德里克国家癌症研究实验室的计算科学家 Laura Egolf 讨论了现代化工作流程如何支持关于 COVID-19 和其他疾病的重大研究。
“较新的技术使我们能够进行全基因组测序,这可以捕获更多变异,并使我们能够研究更多的变异,”Egolf 说。“幸运的是,自 21 世纪初第一个人类基因组被测序以来,全基因组测序的成本已大幅下降。”
她说,COVNET 就是这样一项大规模的基因组研究,希望确定与不同个体和人群中 COVID-19 严重程度相关的常见和罕见遗传变异。
该研究收集了数千个样本,这引发了有关存储成本和可用性以及分析所有数据的计算能力的问题。使用基于标准 CPU 的管道处理数据,每个样本可能需要一天或更长时间。
随着基于 Parabricks 的加速、云可移植管道的发展,某些步骤的运行时间可以减少到仅三到四个小时。
“不断增长的基因数据规模需要加速、云兼容的解决方案,”Egolf 说。“这些加速管道正在推动 COVID-19、儿科癌症、辐射暴露和其他人类健康领域的大规模遗传研究。”

