微观生物遍布人体、土壤、海洋和大气,在人类健康与地球生态系统中扮演着关键角色。然而,即便借助现代DNA测序技术,准确识别这些微生物及其相互关系仍极为困难。
亚利桑那州立大学研究人员通过两项新研究,推出两款强大工具,使这项工作更简便、精准且具备大规模扩展能力。其中一款工具优化了科学家构建微生物家族谱系的方法,另一款则提供了全球通用的生物数据分析软件基础。这些进展共同强化了微生物组研究、疾病追踪、环境监测以及精准医疗等新兴领域的科学基础。
"我们的团队致力于开发开源软件工具,因为我们坚信,当所有人均可获取并扩展科学工具时,整个科研社区将受益,科学发现也将加速。"
亚利桑那州立大学 朱其云
朱其云是基础与应用微生物组学Bio设计中心的研究员,同时也是亚利桑那州立大学生命科学学院的助理教授。他与校内同事及国际合作者共同完成了此项工作。首项关于改进标记基因的研究发表在《自然通讯》期刊上,第二项描述名为scikit-bio的开源软件库的研究则发表在《自然方法》期刊。
家族谱系革新
构建详尽精准的进化树对理解微生物演化及其全球影响至关重要。更优的进化树能提升疾病追踪能力,帮助科学家监测有害微生物的演变过程,同时增强环境研究精度,揭示微生物群落对污染或气候变化的响应机制。清晰的微生物识别还强化了肠道微生物组及其健康作用的研究。
揭示微生物关联性的起点在于选择正确的标记基因——这些DNA中的"路标"可追溯其进化历程。
多年来,科学家依赖同一小套传统标记基因。但在快速发展的宏基因组学领域,研究人员如今处理数百万基因组,通常直接来自环境样本。宏基因组学使科学家能一次性提取并测序环境中全部DNA,揭示完整的隐匿微生物群落。
这些基因组极具价值,但常存在不完整或质量参差的问题。这导致使用固定标记基因集难以获得准确的进化分析结果。
为解决此问题,朱其云及其同事开发了TMarSel(基于树的标记基因选择,Tree-based Marker Selection缩写)。该工具摒弃人工筛选,自动搜索数千个可能的基因家族,选出能构建最可靠进化树的组合。它评估每个基因的普遍性、信息量及其对形成稳定微生物关系图谱的贡献度。
最终成果是一种灵活的数据驱动方法,可高效构建微生物谱系树,即使面对庞大多样生物群或大量不完整基因组数据也表现优异。
scikit-bio:微生物的族谱网
朱其云还是scikit-bio的首席开发者之一,这是一个庞大的开源软件库。scikit-bio为科学家提供分析海量生物数据集的必备工具,特别适用于研究微生物组——即特定环境(如人类肠道)中生存的微生物群落。
生物数据集与其他数据截然不同:规模极大、高度稀疏且常包含数千个互连特征。标准数据分析程序无法应对如此程度的碎片化与复杂性。scikit-bio通过提供500余项功能填补了这一空白,涵盖以下任务:
- 比较微生物群落
- 计算多样性
- 转换组成数据
- 分析DNA、RNA和蛋白质序列
- 构建与修改系统发育树
- 为机器学习准备数据
该项目由社区驱动,获得80多位贡献者支持,并通过严格测试与文档维护。它已被医学、生态学、气候科学和癌症生物学领域的数万篇科研论文引用,成为分析微生物组及现代生物学其他大数据密集型领域的必备工具。
微生物研究新纪元
随着生物数据集持续增长,scikit-bio和TMarSel等工具使大规模研究更具可靠性与可重复性。
这些研究强化了亚利桑那州立大学在生物学与计算交叉领域的拓展作用。朱其云的工作展示了如何将进化洞察力与先进软件工程结合,产出全球科学家通用的工具。
随着DNA测序技术日益快速且成本降低,科学家将揭示更多微生物宇宙的奥秘。TMarSel和scikit-bio等工具确保这股数据洪流能转化为真正的科学洞见。
来源:
亚利桑那州立大学
期刊参考文献:
Aton, M. 等 (2025). scikit-bio:生物组学数据分析的基础Python库. 《自然方法》. DOI:10.1038/s41592-025-02981-z.
【全文结束】

