为了预测致命登革热疫情何时何地爆发,毛里西奥·桑蒂拉纳必须训练一位新的“同事”。
桑蒂拉纳(Mauricio Santillana)是物理学教授,也是东北大学(Northeastern University)健康与环境改善机器智能小组的主任。他测试了能够预测全球180个地点疾病激增的模型。但手动进行此类分析无法提供桑蒂拉纳所需的及时数据。
相关研究:研究人员利用机器学习以80%的准确率预测登革热。
桑蒂拉纳表示,该项目旨在为公共卫生官员提供登革热疫情何时何地爆发的准确三个月预测,是机器学习的理想应用。
“这纯粹是教机器充当额外的团队成员,”他说,“现在我们有足够的知识,可以告诉机器,‘为我们做这件事并进行大规模实验。’”
“这纯粹是教机器充当额外的团队成员,”毛里西奥·桑蒂拉纳表示。照片由马修·莫多诺/东北大学提供
桑蒂拉纳及其同事告诉机器的是理解准确预测的样貌。他们为算法提供了一段几年内的准确模型,并要求它分析这些数据。这被称为训练期。
“我们告诉机器,‘我们希望你产出这种质量的东西,’”他说,“我们将为你提供一系列可测试的方法,并从中选择能满足我们需求的那个。”
他表示,这种训练和测试必须针对每个区域位置进行。任务的复杂性在于,不同地区报告登革热病例的方式不同。一些国家甚至没有可靠的诊断确认测试资金。
桑蒂拉纳说,人类处理这些多样化的数据流将是一场“噩梦”。但有了机器学习团队,桑蒂拉纳可以给算法分配任务,几小时内就能完成。
“人类需要数年的处理时间,”他说,“但用计算机只需一夜。”
一旦算法从过去疫情中正确识别出最准确的预测模型,桑蒂拉纳的团队就要求它确定哪种模型或模型组合在接下来的三个月中可能最准确。他们使用的计算模型称为集成方法。
下一步是要求机器对登革热何时何地爆发进行实时预测,这被称为前瞻性研究。结果显示80%的准确率。
“这是唯一能构建值得信赖的东西的方法,”桑蒂拉纳说。
【全文结束】