新的研究表明,基于DNA编码化合物库的药物发现工作可能无意中忽略了许多潜在候选药物。
DNA编码化合物库中的每个分子都标记了一个独特的DNA序列,就像条形码一样。这种技术通过允许研究人员同时筛选数百万甚至数十亿种化合物,彻底改变了早期药物发现的过程。由此产生的数据集通常被用来训练寻找有前景药物候选物的机器学习模型。
为了弄清与DNA编码化合物库相关的数据可靠性如何,美国犹他大学的拉斐尔·弗朗齐尼(Raphael Franzini)及其同事研究了一种包含超过58,000种化合物的库,这些化合物旨在靶向参与DNA修复和癌症的酶。当他们合成并测试了33种被筛选淘汰的分子时,他们发现这些化合物的效果往往与那些被标记为有前景的化合物一样好。特别是,各种筛选几乎错过了结构类似于已批准抗癌药物奥拉帕尼(olaparib)的化合物。
“我们发现,DNA编码库的数据经常将好的分子标记为坏的分子,”弗朗齐尼解释道。
问题似乎出在DNA条形码本身。当团队比较带有和不带这些标签的分子时,他们发现DNA降低了分子的活性。当分子针对它们原本未设计的目标进行测试时,这种效应更加明显。
瑞士制药公司罗氏(Roche)的计算化学家劳拉·瓜施(Laura Guasch)称这些发现为“极具相关性的贡献”。她表示,这项研究“提高了人们对这些大量假阴性如何损害该领域日益流行的机器学习算法的关键意识”。
“假阴性给训练数据集引入了大量的噪音和偏差,导致机器学习模型学习到误导性的模式或忽略有效的化学型,”美国贝勒医学院药物发现中心助理教授斯里尼瓦斯·查马库里(Srinivas Chamakuri)评论道。
弗朗齐尼及其同事证明,即使机器学习模型表现良好,它们实际上也只是在识别反复出现的结构片段,而不是发展出真正的预测能力。
瓜施指出:“本研究的一个主要含义是,目前的药物发现项目由于假阴性率过高,可能正在忽略潜在的候选药物。”
研究人员发现,从训练集中移除不可靠的数据,并专注于仅确认的活性化合物,可以显著提高模型识别有前景药物的能力。这表明当前药物发现中的机器学习方法可能需要根本性改变,以解决筛选数据中固有的偏差问题。
参考文献
本文为开放获取
A L Montoya 等人,《化学科学》(Chem. Sci.),2025年,第16卷,10918页(DOI: [10.1039/d5sc00844a]( "DNA编码库数据中的广泛假阴性:连接子效应如何影响基于机器学习的先导预测"))
(全文结束)

