加州大学圣地亚哥分校医学院的研究人员已经证明,大型语言模型(LLMs),如GPT-4,可以帮助自动化功能基因组学研究,该研究旨在确定基因的功能及其相互作用。功能基因组学中最常用的方法称为基因集富集,通过将实验鉴定的基因集与现有的基因组数据库进行比较,来确定这些基因集的功能。然而,更有趣和新颖的生物学通常超出了已建立数据库的范围。使用人工智能(AI)分析基因集可以节省科学家们大量的高强度劳动,并使科学更接近于自动化这一最广泛使用的方法,以了解基因如何协同工作影响生物学。
测试了五种不同的LLMs后,研究人员发现GPT-4最为成功,其在识别常用基因组数据库中策划基因集的常见功能方面的准确率达到73%。当要求分析随机基因集时,GPT-4在87%的情况下拒绝提供名称,这表明GPT-4具有分析基因集的潜力,同时最小化幻觉现象。GPT-4还能够提供详细的叙述来支持其命名过程。尽管仍需进一步研究以充分探索LLMs在自动化功能基因组学中的潜力,但这项研究强调了继续投资开发LLMs及其在基因组学和精准医学中应用的重要性。为了支持这一点,研究人员创建了一个门户网站,帮助其他研究人员将LLMs纳入其功能基因组学工作流程中。更广泛地说,这些发现也展示了AI通过综合复杂信息生成新的、可测试假设的能力,从而在短时间内彻底改变科学过程。
这项研究发表在《自然方法》上,由加州大学圣地亚哥分校医学院和加州大学圣地亚哥分校雅各布斯工程学院的教授Trey Ideker博士、Ideker团队的软件架构师Dexter Pratt博士以及Ideker团队的生物医学科学博士候选人Clara Hu共同领导。该研究部分由美国国立卫生研究院资助。
(全文结束)

