加州大学圣地亚哥分校医学院的研究人员已经证明,大型语言模型(LLMs),如GPT-4,可以帮助自动化功能基因组学研究,该研究旨在确定基因的功能及其相互作用。这项工作发表在《自然方法》杂志上。
功能基因组学中最常用的方法称为基因集富集分析,其目的是通过将实验鉴定的基因集与现有的基因组数据库进行比较来确定这些基因集的功能。然而,更有趣和新颖的生物学往往超出了现有数据库的范围。
利用人工智能(AI)分析基因集可以节省科学家们大量的密集劳动时间,并使科学更接近于自动化这一最广泛使用的方法,以理解基因如何协同影响生物学。研究人员测试了五种不同的LLM,发现GPT-4最为成功,识别常用基因组数据库中整理的基因集常见功能的准确率达到73%。
当要求分析随机基因集时,GPT-4在87%的情况下拒绝提供名称,这表明GPT-4具有最小的幻觉分析基因集的潜力。GPT-4还能够提供详细的叙述来支持其命名过程。
尽管进一步的研究仍需进行,以充分探索LLM在自动化功能基因组学中的潜力,但这项研究强调了继续投资开发LLM及其在基因组学和精准医学应用中的必要性。为此,研究人员创建了一个门户网站,帮助其他研究人员将其功能基因组学工作流程中整合LLM。更广泛地说,这些发现还展示了AI通过综合复杂信息生成新的、可测试假设的能力,从而在短时间内革命化科学过程。
该研究由加州大学圣地亚哥分校医学院和加州大学圣地亚哥分校雅各布斯工程学院的教授Trey Ideker博士、Ideker团队的软件架构师Dexter Pratt博士以及Ideker团队的生物医学科学博士候选人Clara Hu领导。
更多信息:Mengzhou Hu等,《大型语言模型在基因集功能发现中的评估》,《自然方法》(2024)。DOI: 10.1038/s41592-024-02525-x
(全文结束)

