努力不作弊的机器学习药物发现初创公司The ML drug discovery startup trying really, really hard to not cheat — LessWrong

环球医讯 / AI与医疗健康来源:www.lesswrong.com美国 - 英语2026-01-02 00:18:45 - 阅读时长24分钟 - 11795字
本文深入剖析了犹他州初创公司Leash Bio在机器学习辅助药物发现领域的独特方法,该公司致力于解决行业普遍存在的"数据泄漏"问题,通过创建超大规模DNA编码文库BELKA并实施严格的训练/测试集划分,揭示了当前AI药物发现模型在化学泛化能力上的严重缺陷,同时展示了其自主研发的Hermes模型如何通过高质量专有数据实现超越行业标准的性能,挑战了"规模决定一切"的传统观念,为真正理解分子结合原理的AI药物设计开辟了新路径,对突破传统药物研发瓶颈具有重大意义。
健康机器学习药物发现LeashBio药物设计小分子-蛋白质结合BELKAHermes化学空间数据划分泛化能力DNA编码文库聪明的汉斯现象结合亲和力预测
努力不作弊的机器学习药物发现初创公司

引言

下文将粗略描述在机器学习辅助小分子设计领域工作的实际情况。

想象一下,你被要求解决以下机器学习问题:

你面前有1160亿个不同颜色、质地、形状和大小的球。你的任务是预测哪些球会粘在魔术贴带上。作为起点,你获得了一个包含1000万个已测试球的训练集,知道哪些粘住了,哪些没有。你的工作是预测剩下的球。 你尽最大努力,用80%的(X, Y)标签训练了一个大型Transformer模型,发现在保留的20%验证球集上取得了0.76的AUC值。这已经相当不错了,尤其是考虑到你只接触到了全部球空间的0.008%。但作为一位优秀的假想科学家,你进一步研究了模型在哪些球上表现良好,哪些表现不佳。你没有立即发现异常;在颜色、质地、形状和大小等所有预期的变量维度上,误差分布相对均匀。但也许你是一位非常优秀的假想科学家,决定为了确保准确性,你需要请来世界顶级的球-魔术贴研究专家来评估结果。你这样做了。专家到达后看了一眼你的结果,突然大笑起来。"什么,"你结结巴巴地问,"有什么好笑的?"专家在笑声和抽搐之间喘息着说道:"你这个傻瓜!绝对的白痴!你训练集和测试集中的几乎所有球都是在1987年至2004年间制造的,使用了2005年《广州聚合物标准化协议》后被淘汰的工艺!你的球-魔术贴模型根本不是球-魔术贴模型,而是一个高度复杂的《广州聚合物标准化协议》合规性检测器!"专家瘫坐在椅子上,仍然喘息不已。

实际上,这个假设情况比现实更容易, 因为存在的小分子数量比1160亿个球还要多几个数量级,同时存在数万个可能的"魔术贴带"——即结合蛋白,每种都有其独特的偏好。

鉴于这种情况,该领域存在相当多的"作弊"行为。大部分是无意的,甚至可能不可避免,事实上,很难不对这些研究人员产生一定程度的同情。试图解决一个问题,其中你不知道的变量维度远远超过你知道的,导致可能出错的空间几乎是无限的,这几乎是宇宙级的不公平。我们能责怪这些人假装他们的"合规性检测器"实际上有用吗?

好吧,可以责怪,但我们也应该理解,激励机制并不鼓励谨慎、深入思考和确保模型做了"正确的事"。即使在私营部门也是如此,因为这些模型的最终效用时间线远在地平线上,反馈循环如此之长,以至于当有人发现你的模型实际上是秘密的《广州协议》检测器时,对任何相关人员都没有实质性后果。

这就是为什么我认为应该关注那些尽管处境艰难,仍努力做正确事情的人。

本文旨在突出这样一家公司:Leash Bio

Leash Bio是一家总部位于犹他州的12人初创公司,由Ian Quigley和Andrew Blevins两位前Recursion Pharmaceuticals员工于2021年创立。我通常撰写的生物科技初创公司文章关注那些具有奇怪或特别激进科学假设的地方,因此我会花大量时间聚焦于其工作细节、潜在回报和最大风险。

这里我不会这样做,因为Leash Bio实际上既有非常传统的科学假设(构建大规模小分子×蛋白质相互作用数据集并在其上训练模型),也有非常传统的经济假设(使用训练好的模型设计药物)。这显然有一定价值,至少与任何面向小分子开发的机器学习应用的价值相当。还有一些外部验证:最近与Monte Rosa Therapeutics达成合作伙伴关系,共同开发针对新靶点的结合剂。

真正使Leash与众不同的是,尽管很难做到,但他们几乎病态地渴望确保其模型学习的是正确的东西。他们从这条研究路线中产生了许多有趣的成果,我认为其中许多应该得到更多关注。本文将深入探讨其中几个。如果您想了解更多关于他们的研究,他们也有自己引人入胜的博客。

Leash的一些研究

BELKA结果

您可能还记得大约一年前发生的一场有趣的争论,争论双方是Pat Walters(他是"小分子机器学习领域许多人无意中作弊"这一观点的主要倡导者之一)和DiffDock的作者们,DiffDock是一个(非常著名的!)基于机器学习的小分子对接模型。

这场争论最初源于Pat发表的论文《基于深度学习的对接方法:与传统对接工作流程的公平比较》,该论文声称发现了DiffDock训练/测试集划分中的严重缺陷。DiffDock论文作者之一Gabriel Corso对此进行了回应,基本上表示"是的,我们已经知道了这一点,这就是为什么我们发布了后续论文直接解决了这些问题"。经过多次来回评论,这场争论最终以Pat的原始论文添加了以下段落而告一段落:

"此处报告的分析基于原始DiffDock报告[1],性能数据直接由该报告的作者提供,与已发表的图表完全对应。随后,在2024年2月,DiffDock团队发布了新的基准(DockGen)和新的DiffDock版本(DiffDock-L)[21]。这项工作是在我们分析之后发布的,我们在最初报告完成分析后才得知这项工作,而该报告的发布因分析完成而延迟。"

皆大欢喜,我想。

但训练/测试集划分到底有什么大问题呢?

简单来说:原始DiffDock论文在2019年之前的蛋白质-配体复合物上进行训练,在2019年之后的复合物上进行测试。这可能不算太糟,但你可以想象一种失败模式是结合域的化学成分存在大量保守性,导致模型更感兴趣于记忆结合口袋残留物,而不是尝试学习对接的实际物理原理。因此,当面对一个全新的结合口袋时,它会失败。事实确实如此。

在后续的DiffDock-L论文中,作者转向了一个确保具有相同蛋白质结合域的蛋白质仅在训练集或仅在测试数据集中的基准。性能有所下降,但由此产生的模型能够对更广泛的蛋白质表现出更好的多样性。

太好了!科学在起作用。但房间里还有一个未解决的问题:化学多样性呢? DiffDock-L可能确实能泛化到未见过的蛋白质结合口袋,但它能在结构与训练配体非常不同的配体上表现良好吗?这对DiffDock来说并不是一个"陷阱",因为事实证明答案是"令人惊讶的是,可以"。从一篇研究该主题的论文中:

"基于扩散的方法表现出混合行为。SurfDock在Astex上随着配体相似性降低而性能下降,但在PoseBusters和DockGen上却出人意料地提高了,这表明在更复杂的场景中对配体新颖性具有韧性。其他基于扩散和所有基于回归的深度学习方法在Astex和PoseBusters上性能下降,但在DockGen上保持稳定——甚至略有提高,这可能意味着不熟悉的结合口袋,而非配体,构成了更大的泛化障碍。"

但对接并不是问题,真的不是。

蛋白质-配体复合物预测的圣杯是预测亲和力;不仅是小分子结合到哪里,还有结合的紧密程度。在这里,很容易误导自己认为模型能做得多好。在2025年10月发表在《自然机器智能》上的一篇题为"解决数据偏差可改善结合亲和力预测的泛化能力"的论文中,他们指出:

"这些结合亲和力模型在基准测试和现实世界性能之间的巨大差距归因于设计这些评分函数所使用的底层训练和评估程序。 通常,这些模型在PDBbind数据库上进行训练,并使用比较评分函数评估(CASF)基准数据集评估其泛化能力。然而,几项研究报告了PDBbind和CASF基准之间存在高度相似性。 由于这种相似性,CASF上的性能高估了在PDBbind上训练的模型的泛化能力。令人担忧的是,其中一些模型甚至在省略所有蛋白质或配体信息作为输入数据后,在CASF数据集上仍表现出相当好的性能。这表明这些模型在CASF基准上报告的令人印象深刻的性能并不是基于对蛋白质-配体相互作用的理解。相反,记忆和利用训练和测试复合物之间的结构相似性似乎是驱动这些模型在基准测试中观察到的性能的主要因素[35,36,41-43]。*"

真是个难题!

现在,该论文继续从PDB中创建自己的划分,考虑蛋白质相似性、结合构象相似性以及与我们最相关的配体相似性。他们如何判断配体相似性?一种称为"谷口系数"的指标,似乎是通过另一篇Pat Walters的文章获得更好泛化能力的相当好的方法。

好吧,就这样,对吧?我们已经解决了球的问题吗?

还不完全。基于谷口系数的过滤是一种改进,但它仍然是一种更仔细地划分现有公共数据的练习。为什么这是个问题?因为公共数据不是化学空间的随机样本,而是数十年药物发现项目和学术好奇心的累积残余。 因此,即使你过滤掉谷口系数相似性高于某个阈值的分子,你可能仍然会留下测试分子,这些分子在谷口系数无法捕捉的方式上"相似":相似的药效团、相似的结合模式、相似的靶标类别。模型可能仍在学习一些不理想的东西,比如"这看起来像我以前见过的激酶抑制剂",而且无论你如何划分公共数据,真的没有办法阻止这种情况。

我们应该对此有多担心?当然在某种程度规模上,"苦涩的教训"会起作用,我们的模型会学习一些真实的东西,对吧?

也许!但我们应该测试一下,对吧?

有了这个背景,我们终于可以回到本文的主题了。

2024年底,Leash Bio进行了一项我认为迄今为止从生物科技公司看到的最疯狂的公开演示:他们向所有人发出了Kaggle挑战:这是我们通过DNA编码文库(稍后将详细讨论)筛选的1.33亿个小分子,以及它们对三个蛋白质靶点的二元结合标签。问题陈述如下:给定此数据集——也称为'BELKA',即化学评估大型编码文库——预测哪些会结合。

这个数据集相对有多大?在数据集的介绍帖子中,Leash指出:

"生物系统中最大的公共化学数据库是PubChem。PubChem有约3亿次测量(11),来自专利和许多期刊以及近1000个组织的贡献,但这些包括RNAi、基于细胞的测定等。即便如此,BELKA也比PubChem大10倍以上。 一个更好的比较对象是bindingdb(12),它有280万次直接的小分子-蛋白质结合或活性测定。BELKA比bindingdb大1000倍以上。 BELKA仅占我们迄今为止运行的筛选的约4%。"

至于数据划分,Leash提供了三种:

  1. 随机分子划分。最简单的设置。
  2. 保留中心核心(三嗪)但训练集和测试集之间没有共享构建模块的划分。
  3. 基于文库本身的划分。换句话说,测试集具有完全不同的构建模块、不同的核心和不同的连接化学,分子与训练集共享字面上没有任何东西,除了它们确实是分子。最困难的设置。

以下是Kaggle竞赛中令人捧腹的获胜结果,其中"kin0"指第3种数据划分:

换句话说,一个模型在比以往任何数据集都大一个数量级的数据集上进行了训练。但它完全无法以任何有意义的方式泛化,几乎等同于随机猜测。 相应地,Leash关于整个事件的博客文章标题为"BELKA结果表明计算机可以记忆,但不能创造药物"。

现在,值得对这个结果提出抗议。化学很复杂,是的,但它几乎肯定是有界的。因此,这里的一个辩护是多样性比规模更重要,例如,尽管bindingdb的约280万数据点远小得多,但它们覆盖的化学空间比BELKA的1.33亿要广得多。此外,bindingdb包含数百个靶点,而BELKA仅包含3个。相比之下,从化学角度讲,BELKA非常小。难怪在这些数据上训练的模型——如Kaggle竞赛规则所要求的——泛化能力不佳?

这些都是合理的论点。整个事情是否基于一个人为构造的数据集?

有一个简单的方法可以消除我们的担忧。我们可以加载一个最先进的结合亲和力模型,一个已经在大量公开可用数据上训练过的模型,并在类似BELKA的数据集上测试它。比如Boltz2。该模型表现如何?

Hermes结果

嗯,BELKA不能直接使用。为了确保他们真正测试配体泛化能力,Leash首先筛选了其数据的一个子集,该子集与Boltz2训练中使用的训练集没有任何分子、支架甚至化学基序的共同点。对于一个已经充分泛化的模型来说,这应该不是问题!

同时,他们将Boltz2与Leash团队训练的轻量级仅序列、5000万参数(!!!)的Transformer Hermes进行了直接比较。给定71种蛋白质、7,515个小分子结合剂和7,515个阴性结果,任务是预测给定蛋白质和小分子对的结合可能性。

但在讨论结果之前,让我们快速讨论一下Hermes。具体来说,Hermes没有在任何公共数据上进行训练,而是仅在Leash生成的所有结合亲和力数据总和上进行训练。有多少数据?在训练Hermes时,略低于100亿配体-蛋白质相互作用。在您正在阅读的这篇文章发表时,现在是500亿次相互作用。这两个数字都比现有任何其他配体×蛋白质数据集高出几个数量级。

值得注意:BELKA不包括在这些数字中,因为它实际上不是他们用于训练模型的数据集,因为它优先考虑极高的配体数量而针对少数蛋白质,而不是两者之间的多样性混合。但使用相同的DNA编码文库过程生成!

最后,我们可以讨论结果了。

Hermes表现尚可,获得了0.761的平均AUROC。值得注意的是,这里的验证集旨在与Hermes训练集完全没有化学重叠,这是我们将在下一节更详细讨论的内容,这使得结果更加引人注目。

另一方面,Boltz2得分为0.577。

嗯。好吧。

你可以想象,对整个设置的一个尖锐批评是验证数据集是私有的。谁知道Leash在幕后可能在做什么?此外,Leash可能在他们精心策划的化学空间中表现出色,而Boltz2在公共数据库存在的化学空间中表现出色。Boltz2论文中的结合亲和力结果显然高于随机水平,因此这似乎是结果的合理解释。

好吧,Leash从Papyrus(一个公开可用的结合亲和力数据集)中筛选了数据子集,并将Boltz2和Hermes都应用于数据集。

根据他们的帖子:

"Papyrus是ChEMBL的子集,并为机器学习目的进行了整理(链接)。我们进一步对其进行了子集划分,并对结合预测进行了二值化标签。简而言之,我们通过为具有最多结合剂的约100个人类靶点选择最多125个结合剂加上相等数量的阴性结果,按平均pChEMBL(>7为结合剂,<5为非结合剂)进行二值化,并排除模糊案例以确保高置信度、平衡标签和蛋白质多样性,构建了一个约20,000样本的验证集。我们称为Papyrus公共验证集的Papyrus子集可供其他人用作基准。它由95种蛋白质、11,675个结合剂和8,992个阴性结果组成。"

在这个基准上,Boltz2的准确率上升到0.755,而Hermes保持在与之前大致相同的水平:0.703,其置信区间与Boltz2略有重叠。

所以,是的,Boltz2在这里略占优势,但考虑到Papyrus的化学空间与Boltz2训练中使用的基于ChEMBL的结合数据大幅重叠,你自然可以预期这一点。

因此,总结我们目前的情况:Leash的内部模型,仅在专有数据上训练,在公共基准测试上的表现与部分在这些基准上训练的模型相当。

而在Leash的私有数据上,关键的是,根据谷口系数衡量,与公共训练集几乎没有重叠(也在他们的帖子中包含),他们的模型轻松击败了行业标准。

这非常令人兴奋!但我在这里要谨慎明确地说,这里的故事远未完成。我们可以确信的是,Leash已经证明了重要的一点:在密集、高质量、内部一致的数据上训练的轻量级模型,可以与在庞大、嘈杂、异质的公共结构数据库语料库上训练的架构复杂模型竞争。考虑到Hermes不是基于结构的,使其比Boltz2快约500倍,这变得更加有趣,其优势在Leash的另一篇帖子中讨论。

但尚不清楚的是Leash是否已破解泛化问题的证据。 我认为他们正在提出正确的问题,也许有早期结果表明答案很有趣,但化学空间很大,比任何人能想象的都要大得多,声称这里的两个简单基准足以宣布任何一方的任何结论都是天真的。

但即使抑制我的热情,我仍然发现这些结果非常有趣。唯一悬而未决的问题是:这种看似较高的泛化性能实际上来自哪里? 是来自极其庞大的数据集吗?当然部分原因如此,但同样,化学空间如此巨大,几千万个(仅序列!)样本肯定只是沧海一粟。也许是来自Hermes架构?同样不太可能,因为请记住,模型本身非常简单,只是一个简单的Transformer,使用两个预训练模型(ESM2-3B和ChemBERTa)的嵌入。

发生了什么?泛化从何而来?好吧,我们会回到这个问题,但首先我想谈谈Leash如何策划他们自己的训练/测试集划分。

训练/测试集划分结果

正如我在本文中反复提到的,Leash的模型使用DNA编码化学文库进行训练。这些是组合文库,其中每个小分子都带有识别其结构的唯一DNA条形码。分子本身由离散的构建模块构建而成。你有一个中心支架,然后在不同位置附加不同的部件。典型的DEL分子可能有三个附着点,每个附着点可以容纳数百种不同构建模块中的一种。将这些可能性相乘,你可以从相对较少的起始材料中获得数百万种独特化合物。

不提供相关图表就给出这个解释似乎不对,所以我让Gemini创建了一个:

这对于生成多样化的分子很有用,也适用于划分化学数据集,因为它允许你根据它们共享的构建模块来划分它们。如果文库中有3种可能的构建模块,那么严格划分的一种方法是确保训练集中没有测试集中存在的构建模块。

但你可能立即看到一个问题;如果两个不同的构建模块具有非常相似的化学性质怎么办?这很容易通过不仅确保没有构建模块重叠,还检查训练集中构建模块的化学指纹与测试集中构建模块的化学指纹是否足够不同来解决。换句话说,你根据化学相似性对构建模块进行聚类,然后从测试集中过滤掉训练集中存在的任何构建模块。

他们正是这样做的。根据他们的帖子:

"我们的Leash私有验证集属于最后一类:它由与训练集中任何分子都不共享构建模块的分子组成,并且训练集也不包含含有与验证集构建模块聚类的构建模块的分子。它严格而残酷:以这种方式划分我们的数据意味着我们的训练语料库大约只有不分割时的三分之一(0.7的bb10.7的bb20.7的bb3 = 0.343)..."

"作为失去所有这些训练数据的交换,我们现在有了一个不错的验证集,我们可以更有信心地确信我们的模型没有记忆,并且我们可以用它来与在公共数据上训练的其他模型进行诚实的比较。"

使用此数据集,他们将Hermes(以及XGBoost作为基线)应用于数据的四种越来越困难的划分:基于化学支架的幼稚划分、2个共享构建模块划分、1个共享构建模块划分以及0个共享构建模块+无化学指纹聚类共享。结果如下:

在这里,简单的XGBoost在除最难的一个之外的几乎所有划分上都击败了Hermes。 只有当你确保没有共享构建模块聚类,真正迫使模型进入化学新领域时,更复杂的Hermes才会领先。

好吧,这是一个不错的结果,它确实与本文关于"严谨"的主题相呼应,但这应该引发比解答更多的问题。由于他们为Hermes构建训练数据集的方式,我们不应该期望它探索相对较小的"化学空间"区域吗?通过这种构建模块和聚类过滤,训练数据与测试集几乎可笑地分布外!然而,正如我们在上一节中提到的,Hermes似乎显示出比行业标准模型至少一定程度的化学泛化能力! 这怎么可能?

这可能与数据本身的性质有关:DNA编码文库。Leash在他们的博客文章中写道,这种特定类型的数据可能特别适合迫使模型真正学习结合意味着什么的某些物理概念:

"我们的直觉是,通过向模型展示非常相似分子的重复示例——这些分子可能仅因单个构建模块而不同——它可以开始弄清楚这些分子的哪些部分驱动结合。因此,我们的训练集故意堆满了许多非常相似分子的示例,但其中一些结合而一些不结合。"

"这些是小分子中"构效关系"(SAR)的示例。说明这种现象的常见化学家说法是"神奇甲基"(链接),即一个微小的化学基团(-CH3)。"神奇甲基"经常被报告为当添加时会对药物候选物行为产生深远变化;很容易想象新的疏水基团以阻止药物候选物结合到口袋中的方式突出。移除甲基,候选物就能很好地结合。"

"*DNA编码文库充满了这种重复示例: 它们有许多具有重复基序和微小变化的分子,有时这些变化影响结合,有时不影响。"

真棒!尽管如此,使用DEL至少有点争议,因为它经常产生假阴性,在整体化学空间上有限,并且DEL的实际命中通常不是特别高亲和力。由于我并不活跃在这个领域工作,很难给出深入的见解。但值得一提的是,即使该测定似乎有其缺陷,Hermes在Papyrus上的竞争表现——一个与DEL化学无关的源自ChEMBL的公共基准——表明无论Leash的模型在学习什么,都不能纯粹是DEL格式的产物。 当然,Hermes几乎肯定有其自身的失败模式,时间会告诉我们这些是什么。

有了这些,我们可以来到现在,Leash最近在与Hermes完全无关的事情上有了新发现。

"聪明的汉斯"结果

说实话,自从BELKA结果出来后,我就想写Leash的文章已经一年了。但最终促使我坐下来这件事的是2025年11月27日收到的一封电子邮件,发件人是Leash联合创始人Ian Quigley。在这封邮件中,Ian附上了一份他正在撰写的预印本,与Leash的联合创始人Andrew Blevins一起撰写,描述了他称之为"化学中的聪明的汉斯"的现象。文章中包含的结果如此完美地体现了我和许多其他人与Leash联系起来的文化精神,以至于我终于写了我一直拖延的文章。

那么,"聪明的汉斯"结果是什么?简单:这是观察到人类创造的分子必然会携带创造它的人的敏感性、偏好和怪癖。

例如,以下是贝尔法斯特女王大学杰出药物化学家Tim Harrison创建的一些分子。

以下是明尼苏达大学药学院化学神经科学家教授Carrie Haskell-Luevano创建的其他一些分子。

我懂一点药物化学!你可能也不懂!然而,你可以看到每位化学家的作品集中存在一种诡异的相同性。如果我们能看出来,模型能看出来吗?

可以。

使用ChEMBL,Leash汇集了他们认为多产的化学家名单(>30篇出版物,>600个贡献分子),提取了他们所有的分子,然后训练了一个非常简单的模型来玩"猜化学家"。

在1815位化学家中,他们训练的模型在能够说出任意输入分子的创建者方面,top-1准确率为27%,top-5准确率为60%。

如果好奇,Leash还设置了一个排行榜,让您查看您最喜欢的化学家有多独特!虽然有些化学家的分子比其他化学家更难分辨,但绝大多数都留下了可感知的痕迹。

这可能看起来像一个有趣的周末项目,但当你意识到化学家分子之间的极端相似性更多是一种职业生涯长期的优化过程,即创造做X的分子,而做X的分子很可能以特定方式呈现时,影响开始变得有点令人担忧。这意味着如果一个模型能检测到作者,它就能推断意图。如果它能推断意图,它就能预测靶标。如果它能预测靶标,它就能预测结合活性。完全不需要学习任何关于为什么分子实际上与蛋白质结合的知识。

但这真的成立吗?似乎是的。使用基于化学支架的划分(这是一种相当常见但 increasingly discouraged 的做法),Leash发现,在给模型提供小分子的丰富分子描述(ECFP)和仅提供创建它的作者姓名之间,在准确性方面没有功能差异。 更糟的是,两者似乎编码了大致相同的信息。

他们在预印本中有几段话,我真的很想在这里重复:

"换句话说,简单基于结构的模型在此设置中利用的大部分信息可以通过化学家风格来解释。 活动模型不需要推断详细的化学知识就能表现良好;它反而可以学习数据集的社会学*——不同实验室的行为方式、他们追求的系列以及他们偏爱的靶标。*"

"..."

"我们将其解释为证据,表明公共药物化学数据集占据了一个狭窄的'化学家风格'流形:一旦模型学会了识别分子最像哪些作者,其循环指纹表示的大部分就已经确定了。这强化了我们的结论,即CHEMBL衍生基准上明显的构效信号与化学家风格和数据来源紧密交织。"

等等, 你可能会喊道,这不就是重复上一节关于严格训练/测试集划分的相同观点吗! 是的,这个结果确实与之相呼应。但这里的区别在于,作者信号似乎无法通过标准的去混淆技术避免。 考虑论文中的以下图表:

如果化学家风格仅仅是"化学家创造相似外观的分子",你期望在这里有明显的分离——同一作者对在低距离处聚集,不同作者对在高距离处聚集。但分布几乎完全重叠。 两者都在0.85-0.9谷口距离左右达到峰值。同一作者分布的左侧尾部略重,但效果微乎其微。根据该领域用于评估分子相似性的标准指标,同一作者的分子彼此之间的相似性并不比不同作者的分子高多少。

然而,模型可以检测到它。而且几乎可以肯定的是,在人类设计的分子上训练的结合亲和力模型确实在利用它。

但情况变得更糟。作者身份只是我们可以轻松研究的"人类诱导化学偏差"的一个轴!Leash在一篇关于该主题的博客文章中提到的一个更微妙的轴是:开发阶段。 不幸的是,这类数据相当难以获取。他们在博客文章中最好地表达了这一点:

"我们希望拥有的一个数据集包括特定分子在药物化学旅程中进展到什么程度。随着研究人员对某个化学系列越来越有信心,他们将开始投入更多工作,这通常包括越来越复杂的修改:更难的合成步骤、进一步的Topliss树功能基团等。"

Leash不需要担心其自身工作的任何这些问题,因为他们的数据集是并行随机合成数百万,测试一次,要么结合要么不结合;使公共数据集饱和的人类意图根本不存在。因此,总体而言,这对"生成自己的数据"一方来说是个胜利!

无论如何,我仍然希望他们未来能研究更多"公共数据中的奇特混淆因素"现象。除了作者身份和开发阶段外,还有多少类似的东西存在?机构偏见呢?哪些构建模块恰好在商业上可用的具体情况?订阅Leash博客以了解更多!

结论

有人可能会阅读所有这些并说,好吧,这对Leash来说都很好,但每项药物发现任务都需要对新型化学物质进行真正的泛化吗?现有化学空间可能已经足够探索了!

是的,我同意,我想Leash的创始人也会同意。如果一个团队正在开发在广泛探索的化学领域中的me-too药物,模型"作弊"可能实际上完全没问题。创建一个《广州聚合物标准化协议》检测器实际上会很有用!

但存在大量完全未经探索的化学空间,几乎肯定是有用的。一个例子是什么?我在一篇关于机器学习药物发现中可合成性挑战的旧文章中稍作讨论;一个简单的证明点是天然产物,它们可以作为药物发现工作的极好起点,并且已知与经典的人类生产分子相比具有系统性的结构差异。由于这些差异,我敢打赌,目前绝大多数小分子模型完全无法掌握这类化学空间的结合行为,这很清楚,几乎肯定包括当前版本的Hermes。

因此,明确地说,虽然想象Leash出于对认识论卫生的深层精神承诺而进行所有这些模型和数据探索工作会很有趣,但实际原因几乎肯定更为务实。

我给了Leash创始人机会阅读这篇文章,以确保我没有在解释他们结果时犯任何错误(根据他们的评论没有重大修改),他提供了一个有趣的评论:"虽然这篇文章是关于我们追查这些泄漏的,但我想说的是,我们相信我们的方法确实是实现这样一个世界的唯一途径:能够零样本创建命中到先导物甚至早期先导物优化化学材料,特别是针对困难靶标、变构位点、邻近诱导剂等。过拟合模型可能最适合专利规避,而过去几年表明,出于国际竞争原因,这是一场必败的战斗。"

换句话说,如果医学的未来在于新型靶标、新型化学类型、新型模式,你需要的模型已经学到了关于什么导致分子与其他分子结合的基本知识。它们不能作弊,不能过拟合,必须真正、真正地在其数百万参数内,构建人类相关生物化学的低维模型。鉴于他们实证上如此关心找到"这些泄漏",正如Ian所说,很难不对Leash的哲学持乐观态度,认为它最有可能提出正确的解决方案来实现这一点。

【全文结束】

猜你喜欢
  • 一种预测小分子药物化合物在不同反相高效液相色谱柱上保留时间的新型机器学习方法一种预测小分子药物化合物在不同反相高效液相色谱柱上保留时间的新型机器学习方法
  • 首个AI设计的药物将是什么?这些抗病抗体是有力竞争者首个AI设计的药物将是什么?这些抗病抗体是有力竞争者
  • 基于点击化学构建蛋白水解靶向嵌合体加速下一代药物发现基于点击化学构建蛋白水解靶向嵌合体加速下一代药物发现
  • 量子计算与统计热力学在加速药物发现中实现0.76准确率及20倍效率提升量子计算与统计热力学在加速药物发现中实现0.76准确率及20倍效率提升
  • 新型光激活方法革新药物构建模块的创建新型光激活方法革新药物构建模块的创建
  • 莫尔德药物发现研究中心莫尔德药物发现研究中心
  • 新研究显示医疗保健领域人工智能市场预计到2029年将以34-36%的复合年增长率增长新研究显示医疗保健领域人工智能市场预计到2029年将以34-36%的复合年增长率增长
  • Medra获5200万美元融资利用AI机器人加速药物发现Medra获5200万美元融资利用AI机器人加速药物发现
  • DNA合成市场展望2025至2035年:基因组学、治疗学和创新领域的加速增长DNA合成市场展望2025至2035年:基因组学、治疗学和创新领域的加速增长
  • 人工智能驱动的计算机模拟临床试验助力药物重定位人工智能驱动的计算机模拟临床试验助力药物重定位
热点资讯
    全站热点
      全站热文