一项名为resLens的基因组语言模型可帮助研究人员发现常规数据库匹配工具可能遗漏的抗生素耐药基因,为追踪新兴耐药性提供了更快途径,同时突显了仔细验证的必要性。
研究:resLens:增强抗生素耐药基因检测的基因组语言模型。图片来源:nepool / Shutterstock
最近发表在《npj Antimicrobials and Resistance》上的一项研究开发了一种新型基因组语言模型(gLM)家族,即resLens,旨在改进抗生素耐药基因(ARGs)的检测。
致病微生物中抗生素耐药性的上升需要开发更先进的工具来研究ARGs及其进化。大多数现有的基于比对的工具,如k-mer方法、最佳匹配算法和隐马尔可夫模型(HMM)方法,都有几个局限性,包括当变体和参考ARGs不完全匹配时性能较差。
此外,数据库仅代表耐药组(resistome)的一小部分,可能无法跟上耐药性演变的规模和速度。虽然深度学习方法比基于比对的工具更动态,并试图解决这些限制,但许多早期方法必须从头开始学习其ARG和蛋白质功能表示,而resLens则使用来自预训练DNA语言模型的迁移学习。
ARG数据集和resLens模型设计
在本研究中,研究人员提出了resLens以增强ARG检测和分析。研究从美国国家生物技术信息中心(NCBI)病原体检测RefGene和ResFinder数据库获取ARGs。这些数据集被合并,并排除了与其他赋予相同抗生素类别耐药性的基因完全重复或完美子序列的基因。
随后,保留了数据集中实例≥20的抗生素耐药类别,并通过Prodigal工具确保仅存在开放阅读框(ORFs)。这种预处理产生了跨越12种抗生素类别的7600多个ARGs。此外,还从GenBank查询了与ARGs长度相当的细菌非耐药基因,排除了与任何ARG序列具有>90%序列同一性的基因。
ARG数据集与随机选择的等量非耐药基因合并。该数据集用于微调长读长(LR)模型。对于短读长(SR)数据集,整个基因序列被分割为150碱基对(bp)的读段。数据集被分为80%训练集和20%测试集。总体而言,微调了四个模型:两个用于SR数据,两个用于LR数据。其中一个模型对每个数据集执行非ARG和ARG的二元分类。
第二个模型随后将预测的ARGs分类为特定类别的ARGs。研究团队将resLens模型与五种基于比对的工具(AMR++、基于k-mer的抗生素基因耐药分析器[KARGA]、ResFinder、Meta-MARC和耐药基因标识符[RGI])以及两种深度学习模型(DeepARG和ARGNet)进行了评估。研究人员指出,resLens在LR数据集上的表现优于其他模型。
resLens基准测试和性能结果
然而,resLens与KARGA或RGI之间存在细微差异。值得注意的是,RGI和KARGA在SR数据集上的表现优于resLens。此外,与其他模型相比,resLens模型更准确地复制了LR测试集中的类别分布。resLens在测试集上也显示出具有竞争力的实际推理时间,尽管在LR测试集上仅比ARGNet慢,在SR测试集上比DeepARG和KARGA慢。
此外,研究团队旨在评估模型在新型ARGs上的性能。为此,确定了两个分别赋予氨基糖苷类(氨基糖苷类核苷酸转移酶; ANT)和β-内酰胺类(blaADC)耐药性的基因家族,它们与其他赋予相同抗生素耐药性的基因家族具有较低的序列相似性。接下来,研究团队创建了一个仅包含ANT和blaADC家族基因的LR测试集,以及另一个包含其他基因的LR训练集。
该模型在新的训练和测试集上进行了微调和评估。该模型准确分类了从训练集中排除的基因,尽管性能因基因家族而异,对blaADC的性能强于ANT。为与基于比对的方法进行比较,ResFinder数据库被重新创建,不包含ANT和blaADC基因,并在排除序列的新测试集上评估了ResFinder。ResFinder表现不佳,识别了86%的ANT基因,但没有识别出blaADC。
研究人员还进行了更严格的聚类分割分析,以测试更不相似的序列。性能下降,特别是对于二元ARG检测,表明resLens可以推广到接近数据库匹配之外,但在更强的分布偏移下仍会失去准确性。
全基因组测试和筛选限制
最后,研究团队使用LR模型分析了具有已验证耐药表型的生物体的全基因组测序(WGS)数据。同样测试了RGI和ResFinder进行比较。过滤和将抗生素类别映射到resLens预测类别,产生了79个具有已验证耐药表型的基因组,每个生物体有一到三类抗生素。RGI和resLens比ResFinder更频繁地识别出至少一个与给定基因组标记表型相对应的基因。
然而,作者强调,这种WGS分析是探索性的,而不是确定性的基准测试,因为数据集样本量有限,实验室测试不详尽,并且缺乏对每个耐药表型潜在机制的基因级注释。对resLens预测的手动验证识别出许多真阳性,但也发现了假阳性和模糊或错误的分类,突显了将此类工具用于筛选和假设生成而非最终结论的必要性。
基因组语言模型改进ARG筛选
研究结果表明,gLMs可以高保真度和高速度对ARGs进行分类,并且比其他深度学习或基于比对的工具对数据库的依赖性更低。resLens模型优于深度学习工具,并与顶级基于比对的工具表现相当。总体而言,结果突显了gLMs改善ARG检测的潜力,包括对参考数据库中表示有限的ARGs,同时减少对精选参考数据集的依赖,但并未完全消除这种依赖。
【全文结束】

