随着ChatGPT和AI对普通用户的普及,2024年无疑成为了AI之年。尽管机器学习和AI在科学研究中已经应用多年,但今年该领域确实感受到了AI流行运动的影响。然而,威斯康星大学麦迪逊分校的研究人员警告基因组和医学领域的研究人员,AI可能导致关于基因与身体特征之间联系的错误结论,特别是在全基因组关联研究中。
全基因组关联研究扫描大型数据库(如美国国立卫生研究院的“我们所有人”项目和英国生物银行)中的遗传变异,希望找到基因与身体特征之间的联系。然而,这些数据库通常缺少研究人员试图研究的健康状况数据。为了应对这一问题,研究人员越来越多地转向机器学习方法和AI。
“近年来,利用机器学习的进展变得非常流行,因此我们现在有了这些高级的机器学习AI模型,即使数据有限,研究人员也可以用它们来预测复杂的特征和疾病风险,”威斯康星大学麦迪逊分校生物统计学和医学信息学系副教授、全基因组关联研究专家吕琼石说。
但在最近发表在《自然遗传学》上的一篇论文中,吕琼石和他的团队展示了在全基因组关联研究中常用的一种机器学习算法可能会错误地将多个遗传变异与个体患2型糖尿病的风险联系起来。
“问题在于,如果你相信机器学习预测的糖尿病风险就是实际风险,你会认为所有这些遗传变异都与实际糖尿病相关——即使它们实际上并不相关,”吕琼石说。
这些“假阳性”不仅限于特定的变异和糖尿病风险。由于这是一个普遍的问题,吕琼石和他的同事们开发了一种统计方法,研究人员可以使用这种方法来保证其AI辅助全基因组关联研究的可靠性。该方法有助于消除机器学习算法在基于不完整信息进行推断时可能引入的偏差。
在他们的工作中,吕琼石和他的团队还发现了使用代理信息填补数据空白的研究中存在的问题。例如,虽然大型健康数据库拥有大量人口的遗传信息,但它们关于通常在晚年出现的疾病(如大多数神经退行性疾病)的发病率数据却很少。对于阿尔茨海默病,一些研究人员尝试通过家庭健康史调查收集的代理数据来弥补这一差距,个人可以报告父母的阿尔茨海默病诊断。
但威斯康星大学麦迪逊分校的团队发现,这种代理信息研究可能会产生高度误导性的遗传相关性,即阿尔茨海默病风险与较高的认知能力之间的关系。
“如今,基因组科学家经常处理包含数十万个体的生物银行数据集,然而,随着统计能力的提高,偏差和错误的概率也在这些大规模数据集中被放大,”吕琼石总结道,“我们小组最近的研究提供了令人谦卑的例子,并强调了在生物银行规模的研究中统计严谨性的重要性。”
(全文结束)

