抗生素耐药性是一个日益严重的健康危机,世界卫生组织估计到2050年可能导致数百万人死亡。抗生素对人类健康至关重要,但许多微生物正在进化出对一种或多种药物的耐药性。旧金山州立大学(San Francisco State University)的研究人员正在使用机器学习来预测患者中的药物抗性。此外,他们还致力于解决一个相关问题:缺乏教授如何使用机器学习检测抗生素耐药性的资源。
在《PLOS计算生物学》杂志上,SFSU团队发表了一篇面向初学者的机器学习教程。除了生物学教授Pleuni Pennings外,论文的其余七位研究人员都是本科生、研究生和学士后学生;其中许多人是首次进行研究,几乎所有人都是机器学习的新手。
“我们想写一篇教程论文,而不是研究论文,因为我们认为发布一份可教学的资源更为重要。我们在寻找这种资源时遇到了困难,因此决定自己制作一份。”共同第一作者Faye Orcales(学士学位)表示,她在该项目中作为学士后工作。
作为来自不同背景的初学者,团队确保论文对学生同行和生物、化学及健康科学领域的教育工作者都易于理解。尽管课程适合初学者,但作者建议具备初步的编程知识,这超出了本文的范围。
“因为这篇论文发表在同行评审的期刊上,所以感觉它很真实,因为其他科学家——而不仅仅是你的教授或朋友——评审了这篇文章。同行评审过程至关重要,因为它提供了其他视角。”共同第一作者Lucy Moctezuma说,她是东湾加州州立大学(CSU East Bay)的统计学研究生,具有心理学背景。
她通过朋友加入了Pennings的SFSU实验室,并在实验室工作了近三年。她和Orcales领导了撰写手稿和处理反馈的努力。“我们是一群学生试图搞清楚一切,但我们成功了!我认为我们都应该为此感到自豪。”Moctezuma说。
使用之前发表的数据集——包括1,936个来自患者的E. coli菌株,这些菌株接受了12种抗生素的测试——学生们开发了一个逐步教程,涵盖四种流行的机器学习模型,用于预测E. coli的药物抗性。
为了提高可访问性,他们使用了免费的基于云的平台Google Colab编写和运行Python代码——这意味着用户无需安装软件即可跟随教程。SFSU团队提供了六个免费的Google Colab“笔记本”,其中包含教程:每个模型(逻辑回归、随机森林、极端梯度提升树和神经网络)一个,另外两个用于数据准备和结果可视化。
“学生们可能没有意识到提交这篇论文到《PLOS》是相当大胆的,这仅仅表明我们完成了高质量的工作。”Pennings说,并补充道学生们真正掌握了写作和推动手稿前进的责任。
Pennings与生物、计算机科学和化学与生物化学系的教师合作,是本科生促进计算包容性(PINC)计划、研究生补充机会学习数据科学(GOLD)计划和科学编码沉浸计划(SCIP)的主任或联合主任,SCIP是一个面向学生、教职员工的虚拟自定进度编码项目。
所有学生研究人员最初都是从这些项目中学到了编程和/或机器学习的知识,然后通过长期的研究经验进一步发展了他们的技能。
“我制作这些材料的一个动机是因为我在教授这些课程,我希望有一本关于健康或生物学的机器学习书籍。一些简单、有趣且相关的材料。一些直观、实用并且讨论伦理方面的内容。”Pennings说,并指出她已经在课堂上使用了这篇已发布的教程。
“当我加入PINC计划时,我可以看到讲师们非常努力地以非常易懂的方式向生物学生教授编程。在这个项目中,我的同伴们也都是渴望学习的生物学家,所以我感到非常舒适。”Orcales说,她现在是加州大学旧金山分校(UCSF)的一名计算科学家,正在申请博士学位。她希望这个新的教程能帮助更多的同行进入机器学习领域。
“我希望我们的读者带走的是,当拥有正确的资源时,机器学习并不是一件令人望而却步的难事。”
更多信息:Faye Orcales等人,《使用基因组数据和机器学习预测抗生素耐药性:一篇教程论文》,《PLOS计算生物学》(2024)。DOI: 10.1371/journal.pcbi.1012579
(全文结束)

