威斯康星大学麦迪逊分校的研究人员警告称,近年来在遗传学和医学领域越来越受欢迎的人工智能工具可能导致关于基因与物理特征之间联系的错误结论,包括某些疾病(如糖尿病)的风险因素。这些错误预测与研究人员使用人工智能辅助全基因组关联研究有关。这类研究通过扫描成千上万的人群中的遗传变异,寻找基因与物理特征之间的联系,尤其是遗传变异与某些疾病之间的可能联系。
基因与疾病的关联并非总是直接
基因在许多健康状况的发展中起着重要作用。虽然某些单个基因的变化直接与囊性纤维化等疾病的风险增加有关,但基因与物理特征之间的关系往往更为复杂。全基因组关联研究帮助解开了一些这些复杂性,通常使用大型数据库,如美国国立卫生研究院的“我们所有人”项目和英国生物银行,这些数据库包含了个体的遗传谱型和健康特征。然而,这些数据库经常缺少研究人员试图研究的健康状况的数据。
使用人工智能填补数据空白的风险
研究人员越来越多地尝试使用越来越复杂的人工智能工具来解决这个问题。“近年来,利用机器学习的进步变得非常流行,因此我们现在有了这些先进的机器学习人工智能模型,研究人员可以使用这些模型在数据有限的情况下预测复杂的特征和疾病风险,”威斯康星大学麦迪逊分校生物统计学和医学信息学系副教授、全基因组关联研究专家吕琼石(Qiongshi Lu)说。
现在,吕琼石和他的同事们展示了过度依赖这些模型而不防范其可能引入的偏差所带来的危险。他们在最近发表在《自然遗传学》杂志上的一篇文章中描述了这个问题。在这篇文章中,吕琼石和他的同事们展示了在全基因组关联研究中常用的机器学习算法可能会错误地将几种遗传变异与个体患2型糖尿病的风险联系起来。“问题是,如果你信任机器学习预测的糖尿病风险作为实际风险,你会认为所有这些遗传变异都与实际糖尿病相关,尽管它们实际上并不相关,”吕琼石说。他补充道,这些“假阳性”不仅限于这些特定的变异和糖尿病风险,而是人工智能辅助研究中的普遍偏差。
新的统计方法可以减少假阳性
除了识别过度依赖人工智能工具的问题外,吕琼石和他的同事们还提出了一种统计方法,研究人员可以使用这种方法保证其人工智能辅助全基因组关联研究的可靠性。该方法有助于消除机器学习算法在基于不完整信息进行推断时可能引入的偏差。“这种新策略在统计上是最优的,”吕琼石说,并指出团队使用该方法更好地确定了遗传变异与个体骨密度之间的关联。
人工智能不是唯一的问题
虽然该小组提出的统计方法可以帮助提高人工智能辅助研究的准确性,但吕琼石和他的同事们最近还发现了使用代理信息填补数据空白的类似研究中的问题。在另一篇最近发表在《自然遗传学》上的文章中,研究人员对过度依赖代理信息以建立基因与某些疾病之间联系的研究发出了警报。
例如,像英国生物银行这样的大型健康数据库拥有大量人口的遗传信息,但它们并没有很多关于晚年才出现的疾病(如大多数神经退行性疾病)的数据。对于阿尔茨海默病,一些研究人员试图通过家庭健康史调查收集的代理数据来填补这一空白,个人可以在这些调查中报告父母的阿尔茨海默病诊断。威斯康星大学麦迪逊分校的研究团队发现,这些基于代理信息的研究可能会产生高度误导性的基因与阿尔茨海默病风险之间的相关性。
“如今,基因组科学家经常处理包含数十万个体的生物银行数据集;然而,随着统计能力的提高,这些大规模数据集中的偏差和错误概率也会放大,”吕琼石说,“我们小组最近的研究提供了谦卑的例子,强调了生物银行规模研究中统计严谨性的重要性。”
(全文结束)

