加州大学圣地亚哥分校医学院的研究人员成功展示了大型语言模型(LLMs),如GPT-4,可以助力自动化功能基因组学研究。
功能基因组学中常用的一种方法称为基因集富集分析,涉及通过将实验确定的基因集与现有的基因组数据库进行比较来确定其功能。然而,许多新颖和有趣的生物学见解超出了这些已建立数据库的范围。利用人工智能(AI)进行基因集分析可以为研究人员节省大量时间和精力,使科学更接近于自动化这种广泛使用的方法,用于研究基因如何协同作用影响生物过程。
研究人员测试了五种不同的大型语言模型,发现GPT-4最为有效,能够在识别来自广泛使用的基因组数据库的精心策划基因集的功能方面达到73%的准确性。在分析随机基因集时,GPT-4在87%的情况下拒绝为其命名,展示了其在分析基因集时的低错误率和低幻觉率。此外,GPT-4还展示了提供详细解释以支持其命名决策的能力。
尽管进一步的研究仍需进行,以充分了解大型语言模型在自动化功能基因组学中的潜力,但该研究强调了继续投资开发这些工具及其在基因组学和精准医学中应用的重要性。为了帮助研究人员将大型语言模型纳入其工作流程,研究团队创建了一个网络门户。从更广泛的层面来看,这些发现突显了人工智能如何通过综合复杂信息来快速生成新的可测试假设,从而改变科学过程。
该研究发表在《自然方法》杂志上,由加州大学圣地亚哥分校医学院和雅各布斯工程学院的教授Trey Ideker博士、Ideker小组的软件架构师Dexter Pratt博士以及生物医学科学博士生Clara Hu领导。研究部分资金由美国国立卫生研究院提供。
(全文结束)

