原文来自美国亚利桑那州(AZ, USA)亚利桑那州立大学。
微生物分析的突破可能提升疾病预测能力、环境保护水平,并加深我们对地球上最小生命形式的理解。
填充我们身体、土壤、海洋和大气的微生物在人类健康和地球生态系统中扮演着至关重要的角色。然而,即使借助现代DNA测序技术,确定这些微生物的种类及其相互关系仍然极其困难。
在两项新研究中,亚利桑那州立大学(ASU;美国亚利桑那州)的研究人员介绍了一套强大的工具,使这项工作变得更加简便、精确且可大规模扩展。其中一个工具改进了科学家构建微生物家族树的方式,另一个则提供了全球使用的生物数据分析软件基础。
这些进步共同加强了微生物组研究、疾病追踪、环境监测以及精准医学等新兴领域的科学基础。
"我们团队开发开源软件工具是因为我们相信,当每个人都能访问和扩展科学工具时,整个科学界都将受益,科学发现也会加速,"新研究的主要作者朱其云表示。
朱其云是基础与应用微生物组学生物设计中心的研究员,同时也是亚利桑那州立大学生命科学学院的助理教授。他与亚利桑那州立大学的同事及国际合作者共同完成了这项研究。
第一项研究关注改进标记基因,发表在《自然·通讯》期刊上。第二项研究描述了一个名为scikit-bio的开源软件库,发表在《自然·方法》期刊上。
家族关系
构建详细准确的进化树对于理解微生物如何进化及其对世界的影响至关重要。更精确的进化树能改善疾病追踪,并帮助科学家跟踪有害微生物随时间的变化。它们也使环境研究更加精准,展示微生物群落如何应对污染或气候变化。更清晰的微生物识别还加强了对肠道微生物组及其健康作用的研究。
揭示微生物之间的关系始于选择正确的标记基因——这些DNA中的路标可追溯它们的进化历史。
多年来,科学家一直依赖同一小套传统标记基因。但在不断发展的宏基因组学领域,研究人员现在处理的是数百万个基因组,通常直接来自环境样本。宏基因组学使科学家能够收集环境中所有的DNA并一次性进行测序,揭示整个隐藏的微生物群落。
这些基因组极其宝贵,但其质量往往不完整或参差不齐。这使得使用固定的标记基因集并期望获得准确的进化结果变得困难。
为解决这一问题,朱其云及其同事帮助开发了TMarSel(基于树的标记基因选择工具的缩写)。TMarSel不再手动选择基因,而是自动搜索数千种可能的基因家族,并选择能构建最可靠进化树的组合。它评估每个基因的普遍性、信息量及其对构建稳定、有意义的微生物关系图谱的贡献。
这种方法提供了一种灵活、数据驱动的方式构建微生物树,即使面对庞大且多样的生物群体——甚至当许多基因组仅部分完成时——也能有效工作。
scikit-bio:微生物的"家谱网"
朱其云也是scikit-bio的主要开发者之一,scikit-bio是一个庞大的开源软件库。scikit-bio为科学家提供了分析庞大生物数据集所需的工具。它特别适用于研究微生物组——生活在特定环境(如人类肠道)中的微生物群落。
生物数据集与其他类型的数据不同:它们极其庞大、非常稀疏,通常包含数千个相互关联的特征。标准数据分析程序并不适合处理这种程度的碎片化和复杂性。scikit-bio通过提供500多个功能来填补这一空白,适用于以下任务:
- 比较微生物群落
- 计算多样性
- 转换成分数据
- 分析DNA、RNA和蛋白质序列
- 构建和修改系统发育树
- 为机器学习准备数据
该项目由社区驱动,得到80多位贡献者的支持,并通过严格的测试和文档维护。它已被医学、生态学、气候科学和癌症生物学等领域的数万篇科学论文引用。它已成为分析微生物组和现代生物学中其他大型、数据丰富的领域的研究人员的必备工具。
微生物研究的新时代
随着生物数据集的增长,像scikit-bio和TMarSel这样的工具使大规模研究变得更加可靠和可重复。
这些研究强化了亚利桑那州立大学在生物学与计算交叉领域的不断扩大的作用。朱其云的工作展示了如何将进化洞察与高级软件工程相结合,从而产生被全球科学家使用的工具。
随着DNA测序继续变得更加快速和廉价,科学家将发现更多微生物宇宙的奥秘。像TMarSel和scikit-bio这样的工具确保这股数据洪流能够转化为真正的科学洞察。
【全文结束】

