填充我们身体、土壤、海洋和大气的微生物在人类健康和地球生态系统中扮演着至关重要的角色。然而,即使借助现代DNA测序技术,确定这些微生物的种类及其相互关系仍然极其困难。
亚利桑那州立大学的研究人员在两项新研究中介绍了功能强大的工具,使这项工作变得更加容易、更准确且更具可扩展性。其中一种工具改进了科学家构建微生物家谱树的方法,另一种则为全球生物数据分析提供了软件基础。
这些进展共同加强了微生物组研究、疾病追踪、环境监测以及精准医学等新兴领域的科学基础。
"我们团队开发开源软件工具是因为我们相信,当每个人都能访问和扩展科学工具时,整个科学界都将受益,科学发现也会加速。"新研究的主要负责人朱启云(Qiyun Zhu)表示。
朱启云是亚利桑那州立大学生物设计基础与应用微生物组学中心的研究员,也是该校生命科学学院的助理教授。他与亚利桑那州立大学的同事及国际合作者共同完成了这项研究。
第一项研究关于改进标记基因,发表在《自然通讯》(Nature Communications)期刊上。第二项研究描述了一个名为scikit-bio的开源软件库,发表在《自然方法》(Nature Methods)期刊上。
家族关系
构建详细且准确的进化树对于理解微生物如何进化及其对世界的影响至关重要。更好的进化树可以改进疾病追踪,帮助科学家跟踪有害微生物如何随时间变化。它们还能增强环境研究,显示微生物群落如何应对污染或气候变化。更清晰的微生物识别也有助于加强肠道微生物组及其在健康中作用的研究。
揭示微生物之间的关系始于选择正确的标记基因——这些DNA中的"路标"可以追溯它们的进化历史。
多年来,科学家一直依赖于相同的一小套传统标记基因。但在日益发展的宏基因组学领域,研究人员现在处理的是数百万个基因组,通常直接来自环境样本。宏基因组学使科学家能够一次性采集环境中所有的DNA并进行测序,揭示整个隐藏的微生物群落。
这些基因组极具价值,但往往不完整或质量参差不齐。这使得使用固定的一组标记基因并期望获得准确的进化结果变得困难。
为了解决这个问题,朱启云及其同事帮助开发了TMarSel(基于树的标记选择的缩写)。TMarSel不再手动选择基因,而是自动搜索数千个可能的基因家族,并选择能构建最可靠的进化树的组合。它评估每个基因的普遍性、信息量以及对构建稳定、有意义的微生物关系图的贡献。
结果是一种灵活的、数据驱动的方式来构建微生物树,即使对于大型和多样化的生物群体也有效——即使许多基因组只有部分完整。
scikit-bio:微生物的"家谱网"
朱启云也是scikit-bio的主要开发者之一,这是一个庞大的开源软件库。scikit-bio为科学家提供了分析大型生物数据集所需的工具。它特别适用于研究微生物组——生活在特定环境(如人类肠道)中的微生物群落。
生物数据集与其他类型的数据不同:它们极其庞大、非常稀疏,并且通常包含数千个相互关联的特征。标准数据分析程序无法处理这种程度的碎片化和复杂性。scikit-bio通过提供500多种功能来填补这一空白,用于以下任务:
- 比较微生物群落
- 计算多样性
- 转换组成数据
- 分析DNA、RNA和蛋白质序列
- 构建和修改系统发育树
- 为机器学习准备数据
该项目由社区驱动,拥有80多位贡献者支持,并通过严格的测试和文档维护。它已在医学、生态学、气候科学和癌症生物学等领域的数万篇科学论文中被引用。它已成为研究人员分析微生物组和现代生物学中其他大型、数据丰富的领域的必备工具。
微生物研究的新时代
随着生物数据集的增长,像scikit-bio和TMarSel这样的工具使大规模研究更加可靠和可重复。
这些研究强化了亚利桑那州立大学在生物学和计算交叉领域的不断扩展作用。朱启云的工作表明,将进化洞察与高级软件工程相结合可以产生被全球科学家使用的工具。
随着DNA测序技术继续变得更快、更便宜,科学家将发现更多微生物世界的奥秘。像TMarSel和scikit-bio这样的工具确保了这一数据洪流可以转化为真正的科学洞察。
更多信息:Henry Secaira-Morocho等人,《通过定制标记基因集增强微生物系统基因组信号》,《自然通讯》(2025)。DOI: 10.1038/s41467-025-64881-2
Matthew Aton等人,《scikit-bio:用于生物组学数据分析的基本Python库》,《自然方法》(2025)。DOI: 10.1038/s41592-025-02981-z
期刊信息:《自然通讯》、《自然方法》
【全文结束】

