摘要
药物组合对现代医学至关重要,但由于实验复杂性随着测试药物数量的增加而迅速扩大,其发现过程仍然缓慢且效率低下。尽管现代液体处理系统能够实现复杂且高度可定制的实验设计,但缺乏将这些技术与组合特异性分析方法集成的策略限制了通量。本文介绍了Combocat,这是一个开源且简化的框架,将声波液体处理协议与基于机器学习的推断相结合,实现超高速药物组合筛选。使用Combocat,我们在多种细胞类型中以密集的10×10矩阵格式生成了包含800多种独特组合的参考数据集,并利用该数据集训练了一个预测模型,该模型能够从稀疏数据中准确推断药物组合效应,大幅减少所需的实验测量次数。作为概念验证,我们在神经母细胞瘤细胞系中筛选了9,045种组合——这是迄今为止在单个细胞系中测试的最多组合数量——且仅使用了最少的资源。通过将先进的药物分配技术与预测性计算建模相结合,Combocat为加速新型药物组合的发现提供了可扩展的解决方案。
引言
有效药物组合的开发是现代治疗策略的基础,特别是对于癌症和传染病,单一药物疗法通常难以实现持续疗效。药物组合可以对药物疗效产生协同效应,克服耐药机制,并通过要求每种药物的较低个体剂量来降低治疗毒性。在此背景下,协同作用被定义为基于Bliss独立性等既定模型的组合效应超过预期(图1a)。
组合疗法是一个有前景的前沿领域,但其全面探索受到可能药物组合数量庞大的限制。随着测试的额外药物增加,可能的2药物组合总数呈二次方增长,使得详尽的实验测试变得不切实际。虽然大规模单一药物筛选已评估了数万种化合物,但药物组合筛选一直受到技术和资源限制的制约,无法达到相当的规模。这些限制通常迫使研究人员在测试的组合数量与每种药物测量的浓度数量(或剂量密度)之间做出选择。这种权衡可能存在问题,因为在广泛浓度范围内进行密集测量对于捕捉细微的剂量-反应景观至关重要,这些景观需要可靠地检测协同模式。因此,一些最大的组合研究报告采用了较小、较稀疏或不对称的矩阵格式(图1b)。机器人液体处理技术的进步,如声波分配,已彻底改变了化合物转移,实现了更灵活和精确的实验设计。声波液体处理仪能够从源板的任何孔向目标板的任何孔分配纳升体积,无需物理接触,提高了通量并最大限度地减少资源消耗。尽管这些技术进步前景广阔,但它们对药物组合筛选的影响迄今为止受到缺乏完全利用其能力的集成实验和分析平台的限制。
本文介绍了Combocat,一个开源的端到端平台,将实验和分析工作流程集成在一起,基于详细的协议和文档,实现可重复、可解释和用户友好的药物组合筛选。Combocat以两种互补模式运行,每种模式都促进快速高效的组合筛选。"密集模式"以密集的10×10矩阵格式测量所有成对剂量组合,重复三次以确保高保真度和数据质量。使用密集模式,我们在不同药物和细胞类型中生成了一个包含290,000多个独特组合测量值(涵盖806种独特药物组合)的综合参考数据集。虽然这种方法非常适合高质量、数据丰富的筛选,但将密集模式扩展到数千种组合会消耗大量资源。为解决此问题,我们开发了一种机器学习辅助的"稀疏模式"。稀疏模式通过仅测试10×10矩阵的对角线(10个剂量对)和单一药物反应来减少直接实验测量的数量,然后使用预测建模获取剩余的90个值。在密集模式参考数据集上训练,稀疏模式中的预测模型能够以最少的资源实现超高速筛选。值得注意的是,已经开发了其他几种机器学习框架以不同方式预测协同作用:TranSynergy利用药物靶标和基因依赖性特征,SynToxProfiler计算集成疗效-毒性-协同作用表面,而comboFM使用张量分解来填补缺失的剂量-反应值。相比之下,Combocat的稀疏模式仅测量10个对角线剂量对,并通过90个每对回归模型的集合恢复完整的10×10反应景观。作为概念验证,我们使用稀疏模式在神经母细胞瘤细胞系CHP-134中筛选了9045种药物组合,代表了迄今为止在单个细胞系中测试的独特组合的最大数量。通过将先进的液体处理技术与机器学习集成到一个开源且用户友好的平台中,Combocat为加速药物组合的发现提供了一个可扩展、高效的解决方案。
结果
简化密集药物组合筛选
为解决药物组合筛选中的长期挑战——如剂量密度有限、可解释性差和操作复杂——我们开发了Combocat,将实验和分析工作流程集成到一个用户友好的框架中。"密集模式"工作流程通过系统地评估10×10矩阵格式中的所有成对剂量组合,促进全面、密集的测量(图1c)。定制的声波液体处理协议为每个384孔板准备两种药物,每种药物十个浓度,包括三个重复的10×10组合矩阵、单一药物剂量-反应曲线和内部对照(例如,细胞死亡和载体对照各十二个重复)。该设计确保了稳健的归一化和可重复性,同时减少了与高通量组合筛选通常相关的时间和精力。
在此实验基础上,分析管道(图1d)将原始数据映射到其对应的矩阵位置,将值归一化为细胞死亡百分比,并使用Bliss独立模型量化协同作用。然后对结果进行过滤和排序,使研究人员能够快速识别表现最佳的组合,并在无需大量后处理的情况下可视化完整的协同景观。通过将密集测量与简化的分析工作流程相结合,Combocat的密集模式提供了一个高保真框架,以可重复和操作简单的方式表征药物相互作用。
密集药物组合的参考数据集
应用密集模式,我们生成了一个包含806种药物组合的参考数据集,包含10×10矩阵格式中的290,000多个单独测量值(补充数据1)。该数据集旨在评估各种药物和细胞类型,确保在多个实验背景下的普遍适用性。检测质量很高,如Z'值(平均值=0.747;补充图1)以及整个筛选中单一药物和组合测量的低标准偏差所示(图2a,b)。
在分析过程中,我们识别出偶尔出现的虚假单一药物测量值,这是高通量筛选中的常见挑战。这些异常值通常由不完全的药物转移或其他技术问题引起,通过在数据集中引入异常值可能扭曲协同计算(补充图2a-d)。为解决此问题,我们实施了一个严格的质控(QC)流程,使用预定义的变异性、剂量-反应残差和单调性阈值来标记和调整异常数据点(补充图2e-g;详见"方法"部分)。标记的值可以从后续的协同计算中排除,产生一个"调整后的Bliss协同"(Blissadj.),该协同省略了这些测量值。这种QC方法通过最小化异常值的影响确保准确的协同量化。
为评估平台识别和复制已知协同相互作用的能力,我们首先检查了数据集中的最高排名组合:大肠杆菌细胞中的磺胺甲噁唑(SMX)和甲氧苄啶(TMP)(图2c)。这对药物是协同药物行为的公认示例,广泛用于治疗各种细菌感染。SMX和TMP均表现出S形剂量依赖关系(图2d),当组合时,表现出强烈的协同作用(图2e-g),与既定预期一致。我们进一步评估了筛选中包含的另一个已知协同示例——AZD1390和CX-5461的组合——据报道在神经母细胞瘤细胞中具有协同作用。单一药物反应和强烈的协同模式(图2h-k)与报告结果高度一致。总体而言,这些例子突显了Combocat忠实再现已知协同相互作用的能力,并提供了理解复杂组合景观的框架。
稀疏模式筛选工作流程
虽然密集模式提供高质量、数据丰富的组合测量,但将其扩展到数千种组合可能会变得资源密集。为解决此问题,我们开发了"稀疏模式"工作流程,该流程最小化直接实验测量,同时仍然捕获药物对之间的协同信息。稀疏模式检测被微型化为1536孔格式,并将单一药物和组合分离到各自的板中(补充图3a,b)。单一药物板测量每种药物跨越10个剂量,而组合板仅测量以相对1:1比例的药物对——对应于10×10矩阵的对角线。单一药物反应值被映射到剂量-反应曲线,并与组合数据集成以组装稀疏矩阵(补充图3c,d),这有效地将所需测量数量减少了90%。
通过大幅降低每个组合的实验资源消耗,稀疏模式提高了通量和效率。例如,该工作流程支持多达135种单一药物,可产生9045种组合,在使用单一药物板六次重复时仅需73块板(补充图3e,f)。因此,稀疏模式的微型化设计和高效板使用使超大规模组合筛选能够以最少的资源进行。
机器学习增强稀疏筛选
为了增强我们稀疏筛选工作流程的效用,我们开发了一个集成机器学习模型,能够预测稀疏矩阵中未测量的响应值,有效地填补空白以重建完成的矩阵。我们利用密集模式组合数据来训练该模型,该模型提供了完全测量的10×10矩阵及其相应的单一药物反应。从中,我们整理了一个包含552个矩阵(198,720次测量)的训练集和一个包含184个矩阵(66,240次测量)的测试集(图3a)。稀疏矩阵中每个未测量索引都由集成中一个专用回归模型预测,允许所有90个模型针对其各自的目标进行精细调整(图3b,见"方法"部分)。
我们的模型表现出高预测准确性,在10折交叉验证中中位R²为0.945(图3c)。分析变量重要性(VI)显示,预测最受接近目标索引的测量值的影响。例如,预测第1行第2列(Model[1,2])响应的模型主要依赖于其两个最近测量索引的数据(图3d)。尽管仅依赖30个测量值中的两个,该模型在测试集中观察值和预测值之间实现了强预测性能(r=0.98)(图3e)。在整个集成中观察到类似的模式,预测接近对角线(图3f,g)和矩阵右下象限(图3h,i)值的模型表现出强性能。对所有模型的更广泛分析证实了基于接近度的依赖性,大多数预测依赖于目标索引欧几里得距离为1或2内的测量索引(图3j,k)。这些发现强调了利用局部特征预测稀疏矩阵值的重要性,并突显了为90个未测量索引中的每一个训练专用模型的优势,从而实现高度针对性的预测(补充数据2)。
为评估集成的整体性能,我们将测试集中所有未测量索引的观察值和预测细胞死亡响应进行了比较。这产生了强相关性(r=0.98,补充数据3)(图3l),表明集成在捕获关键组合响应效应方面的可靠性。通过预测未测量值,集成模型丰富了稀疏筛选工作流程,提供了增强协同结果可解释性的详细见解,同时保持资源效率(图3m)。
9045种组合的应用筛选
为证明Combocat的可扩展性和实际效用,我们将稀疏模式工作流程应用于神经母细胞瘤细胞系CHP-134中的9045种药物组合筛选(补充数据4),代表了在单个细胞系中报告的最大密集组合筛选。我们使用了135种小分子,包括已批准的化疗药物、研究性化合物以及从我们早期CRISPR筛选中提名的神经母细胞瘤选择性药物(补充数据5)。每对的协同作用通过其平均Blissadj.(观察)分数进行量化——跨矩阵对角线(10个测量剂量对)平均的调整后Bliss协同(图4a)。大多数组合集中在零附近(图4b),表明加和性或非协同相互作用占主导地位,并与先前发现强协同是一种罕见现象的发现一致。
为优先考虑进一步探索的药物组合,我们使用了三个过滤标准,这些标准捕获了空间连贯的协同模式(Moran's I)、数据可靠性(QC标记计数)和生物学相关性(平均细胞死亡响应,图4c-e,见"方法"部分)。过滤后,剩下594个最高得分对,按平均Blissadj.(观察)排名(图4f)。为验证这些稀疏模式预测,我们以密集模式重新筛选了40种组合的子集:稀疏模式中的前30名(预计表现出最高协同)加上10种随机选择的被排除的组合。以完全采样的10×10格式测量这些组合,实现了与稀疏模式结果的直接比较。
大多数排名最高的药物对保留了强协同模式,证实稀疏模式可以有效优先考虑协同组合(补充图4a)。相比之下,10个随机对在密集模式中表现出较弱的协同作用,与其较低的稀疏模式分数相匹配。我们还比较了验证集中47种独特药物的单一药物剂量-反应曲线,并观察到IC50值和拟合剂量-反应曲线的紧密对齐(rho=0.858)(补充图4b,c),强化了稀疏模式获得的单一药物测量的一致性。
在验证的命中中,ATM抑制剂AZD1390与PARP抑制剂Olaparib或Rucaparib的组合因其显著的协同作用而脱颖而出(图4g,i,k,m)。这在机制上与靶向互补的DNA损伤修复途径一致:PARP抑制导致单链断裂积累,而ATM抑制损害双链断裂修复反应。以密集模式重新测试这些组合确认了高度一致性(图4h,j,l,n),意味着可以从超过9000种筛选组合的起始集中识别出强而可靠的协同作用。总体而言,这些数据确立了Combocat的稀疏模式作为在超大规模筛选中发现协同作用的高效且可扩展的手段。
讨论
Combocat代表了更全面、更灵活和更可扩展的药物组合筛选的一步。通过结合声波液体处理和机器学习辅助推断,我们证明了筛选数千种组合的可行性,同时保留了发现强协同相互作用至关重要的分辨率和可解释性。支撑Combocat的原理具有广泛适用性,其设计支持与各种符合指定体积和板格式的检测读数兼容——如发光、吸光度(补充图6)、荧光、质谱或高内涵成像。此外,开源声波液体处理仪协议确保了对具有类似能力的其他药物分配平台的适应性,将Combocat确立为各种实验应用的可扩展基础。
Combocat的功能和工作流程设计简单明了,包括其最小且直观的分析管道(补充图5a)。这种简化的架构,加上开源和详细的文档,确保研究人员可以轻松实施和根据需要定制Combocat实验。我们的目标是持续完善和扩展该平台。Combocat最引人注目的方面之一在于其社区驱动进步的潜力。随着更多研究小组生成密集组合数据,这些数据可以匿名并贡献回社区,用于重新训练和改进集成机器学习模型(补充图5b)。这种社区努力可能产生一个动态资源,能够以最少的实验开销提供越来越准确的协同估计。
虽然Combocat在各种背景下实现了高通量组合筛选,但一些限制值得注意。首先,稀疏模式推断的准确性本质上依赖于训练数据的质量和多样性。我们测试了密集模式数据集的三种逐步严格的分层(补充图7a-c),并发现预测性能基本相同(r≈0.97,补充图7d-f),证明在预测神经母细胞瘤中的反应时没有简单的数据泄漏。然而,随着新数据的合作添加,通过持续的保留测试防止泄漏对于保持模型的稳健性和泛化性至关重要。其次,尽管密集和稀疏模式的实验测量在很大程度上一致,但在某些情况下它们会有所不同。稀疏模式使用微型化体积和不同的板格式,有时会引入药物效力或动态范围的变化。这可能与技术因素有关,如较小体积中化合物的分散、板布局效应或较小孔中细胞融合的变化。最后,虽然Combocat支持Bliss和Loewe协同指标,但每种指标都有假设和限制。例如,Bliss可能会错误估计靶向相似途径的药物的协同作用,而Loewe在缺乏剂量等效性的情况下无法计算协同作用——使其在测试的61.5%稀疏模式剂量组合中未定义(补充图8c)。我们比较了通过QC和过滤步骤的组合的平均协同分数(n=800),并观察到Bliss和Loewe模型之间适度的一致性(Spearman rho=-0.672,p<2.2e-16,补充图8d)。重要的是,存在其他参考模型,如最高单一药物(HSA)、零相互作用效力(ZIP)等,可以在平台的未来扩展中进行评估。
我们设想利用Combocat的可扩展性来探索更广泛的未探索药物组合空间,在许多细胞系中绘制数千种药物组合的协同景观(补充图5c)。通过将稀疏模式工作流程与不断发展的机器学习模型集成,可以生成丰富的协同数据集,能够捕获复杂的生物反应。这种全面的协同地图将使研究人员能够识别保守的相互作用,揭示谱系特异性脆弱性,并指导组合疗法的合理选择。
方法
伦理声明
本研究遵守所有相关伦理法规。
细胞培养
CHP-134细胞系购自Sigma(目录#6122002),并在补充有10%FBS(Corning,目录#35-015-CV)的RPMI 1640培养基(Corning,目录#10-041-CM)中,在37°C和5%CO₂下维持。使用MycoAlert支原体检测试剂盒(Lonza,目录#LT07-118)常规检测支原体,并证实细胞无污染。
对于细菌培养实验,大肠杆菌BW25113菌株(Horizon Discovery Ltd.)在37°C下在Mueller-Hinton(MH)琼脂或肉汤(BBL)中培养。将指数期(OD600 0.4-0.6)的培养物稀释至OD600为0.0005,用于384孔格式的平板接种。
化合物
化合物来自商业供应商(见补充数据5)。库存溶液溶于DMSO中,并在-80°C下储存,直到使用前24小时,此时在室温下解冻并在1100 RPM下离心5分钟。在所有检测中,使用3倍连续稀释在10个浓度下筛选化合物,通常上限为25µM。大多数化合物在低于和高于其生理相关剂量的情况下进行筛选,并以将预期IC50定位为中点的方式进行筛选,以尝试实现完整的剂量-反应效应。
稀疏模式中使用的135种化合物的选择来自针对早期CRISPR锚定筛选中确定的神经母细胞瘤选择性增敏剂的药物。具体来说,药物选择采用以下方法:
- 我们之前的CRISPR基因敲除锚定筛选使用7种神经母细胞瘤标准护理药物和1种研究性化合物(Doxorubicin、Etoposide、Retinoic Acid、Topotecan、Vincristine、Cisplatin、Phosphoramide Mustard和JQAD1)研究了18种细胞系。CRISPR基因敲除文库设计用于靶向655种已知可药物靶点的基因。这些筛选旨在识别使癌细胞对神经母细胞瘤标准护理药物敏感的可药物靶点基因敲除。
- 为从结果数据集中识别这些高潜力药物增敏基因敲除,我们应用了定制的贝叶斯分层模型(在Lee和Wright等人的"方法"部分中描述),以提名在神经母细胞瘤组中相对于外部组细胞具有差异增敏效应的基因。
- 然后,我们汇编了靶向神经母细胞瘤选择性增敏基因敲除的药物列表。对于可被>1种药物靶向的基因,该列表经过手动减少,考虑了临床批准、与其他药物的冗余、类似物数量和化合物可用性等因素。
- 最后,在与圣犹大儿童研究医院的多位儿科肿瘤学家协商后,我们手动向列表中添加了高优先级研究性化合物,最终确定了135种独特药物。药物列表见补充数据5。
药物模板设计
密集模式模板
为实现10×10矩阵格式中成对剂量组合的全面和可重复测量,我们设计了一个384孔板模板,该模板容纳384孔板格式中的三个重复10×10组合矩阵,以及每种单一药物的剂量-反应曲线的三个重复和每种阳性和阴性对照的十二个重复(图1c)。在每个孔中,通过Echo 655声波液体处理器(Beckman Coulter)转移总共200 nL化合物:单一药物孔中为100 nL化合物+100 nL DMSO,或组合孔中为每种化合物100 nL。随后使用Multidrop combi(Thermo Fisher)添加40μL细胞。保持40μL细胞体积最小化了由蒸发引起的边缘效应。每个密集模式板恰好测试一种药物组合,使得密集模式实验的总板数与药物对数量呈线性比例。
稀疏模式模板
稀疏模式旨在通过将检测微型化为1536孔板格式来提高通量并减少资源使用(补充图3a,b)。稀疏模式中的三个关键特征实现了超大规模组合筛选:
- 微型化体积:仅转移20 nL化合物(组合的每种药物10 nL或单一药物孔中10 nL药物+10 nL DMSO),随后添加4μL细胞。边缘孔填充培养基以减轻蒸发。剂量交错以最小化孔与孔之间的信号污染。
- 仅测量对角线:每个10×10矩阵由10个剂量对表示,以相对1:1比例组合每种药物。例如,药物1的第6高测试剂量与药物2的第6高测试剂量。与完全测量的10×10矩阵相比,这将总测量剂量对减少了90%(补充图3d)。
- 单独的单一药物和组合板:单一药物和组合板分别测试,单一药物测试每种药物的10剂量系列,而组合仅测试对角线剂量对。这允许在不重新测量的情况下将单一药物映射到组合矩阵。例如,为筛选组合A_B和A_C,密集模式将测量A两次,而稀疏模式将测量A一次。板内对照便于在集成到组装矩阵之前进行归一化。
稀疏模式筛选所需的总板数可以计算为:
$${总;板数}=c\left(r\left\lceil\frac{n}{135}\right\rceil+\left\lceil\frac{\left(\frac{n}{2}\right)}{135}\right\rceil\right)$$
其中c是细胞系总数,r是单一药物板重复总数,n是独特药物数量。135的值直接来自1536孔板中可用(非边缘)孔内能够容纳的独特药物数量。
药物组合筛选
对于密集和稀疏模式,使用带有Combocat协议文件的Echo 655声波液体处理器将化合物转移到空的384或1536孔板(Corning)中(可在combocat.stjude.org获取)。在化合物转移后,以384孔板中1000个细胞/孔或1536孔板中200个细胞/孔的播种密度分配细胞。对于大肠杆菌细胞(仅在384孔板中筛选),使用OD600为0.0005。在1536孔板中,细胞在分配前通过70µM细胞过滤器过滤。细胞添加后的最终DMSO浓度在所有孔中均为0.5%。
板在37°C下孵育72小时。使用CellTiter-Glo(或用于细菌细胞的BacTiter-Glo)在3天处理后评估细胞活力,通过向384孔板添加25µL或向1536孔板添加2µL制备的试剂,并在EnVision板读取器(PerkinElmer)上读取发光。对于基于吸光度的细胞活力读数,在终点时间向细胞添加8µL以0.5×浓度稀释的MTS试剂(Abcam)。MTS试剂与细胞孵育3小时,并在Cytation 5板读取器(BioTek)上以490纳米读取板。
使用Z'指标评估所有筛选检测板的质量,该指标根据信号窗口和数据变化衡量质量,由下式给出:
$${Z}'=1-\frac{{3\sigma}{Neg}+{3\sigma}{Pos}}{\left|{\mu}{Neg}-{\mu}{Pos}\right|}$$
其中σNeg/Pos和μNeg/Pos分别表示对照的标准差和均值。Z'值≥0.5通常被视为对照分离极佳。
集成机器学习模型的开发
Combocat集成机器学习模型被开发为90个独立模型的集合,每个模型构建用于预测稀疏矩阵的90个未测量索引中的一个。为构建这些模型,首先组装了一个输入数据集,包含通过密集模式收集的所有完全测量数据,总计超过800个组合矩阵及其单一药物响应值(补充数据1)。首先过滤输入数据集以移除平均细胞死亡值<10%的任何矩阵。接下来,将该数据集分为75%用于训练,25%用于测试集。这导致训练集为552个矩阵(198,720次测量),测试集为184个矩阵(66,240次测量)。注意,虽然组合矩阵本身具有10×10的维度,但包括单一药物数据实际上将其扩展为11×11网格,其中第1列和第11行表示单一药物响应(补充图9a)。该格式用于将模型与其相应索引关联。每个模型在30个特征上训练:来自药物1和药物2的10个单一药物索引的响应值,以及10个对应于矩阵对角线的索引,这些索引表示以相对1:1比例组合的每种药物的浓度(补充图9b)。这30个特征对应于稀疏模式工作流程中实验测量的30个索引(补充图3d),并用于输入数据以生成预测稀疏矩阵的90个总索引的模型(补充图9c)。
每个模型的训练涉及拟合基于树的回归模型XGBoost。启用超参数调整以优化模型性能,这通过空间填充网格设计高效测试40个超参数组合来实现(详见补充数据6)。使用10折交叉验证基于最低R²值选择最佳超参数集。一旦确定,每个模型使用其各自的最优超参数在整个训练集上进行训练。通过10折交叉验证评估每个模型的性能,通过R²和RMSE来衡量。对于每个模型,测量30个特征(稀疏矩阵的30个测量响应值)的变量重要性,以评估其预测影响(补充数据7)。接下来,在测试集上验证训练模型以确保其预测能力,通过比较观察到的与预测的细胞死亡响应值。跨90个模型的观察值与预测响应值的比较用于总结集成模型的预测性能。最后,以允许未来稀疏矩阵预测快速部署的格式序列化集成模型。所有模型生成均使用tidymodels框架(tidymodels.org)执行。
处理虚假测量的质量控制
为确保数据完整性并减轻虚假测量的影响,我们实施了严格的质控(QC)程序,重点关注三个关键指标:单一药物标准差、单一药物剂量-反应曲线的残差以及细胞死亡响应的单调性。
对于每种单一药物,我们首先计算百分比细胞死亡(%细胞死亡)值在每个剂量水平上所有重复之间的标准差,从而得到每个药物对应测试的十个剂量的十个标准差值。任何百分比细胞死亡标准差超过预定义阈值(Tdefault)29的剂量都被标记为不合格。涉及该特定剂量的所有组合数据点也被标记为不合格(补充图2e)。接下来,我们为每种单一药物拟合四参数对数逻辑模型。对于每个剂量,我们计算残差——观察到的百分比细胞死亡与拟合曲线预测值之间的差异。残差绝对值超过Tdefault阈值15%的剂量被取消资格(补充图2f)。最后,我们评估了细胞死亡响应的单调性,假设百分比细胞死亡应随药物浓度增加而单调增加。我们评估了连续剂量之间的细胞死亡差异。如果细胞死亡响应从一个剂量到下一个剂量减少超过Tdefault阈值16%(即减少大于16%),则相应的剂量被取消资格(补充图2g)。对于稀疏模式数据,我们还评估了沿10×10矩阵对角线观察到的组合响应的单调性——对应于以相对1:1比例组合的递增剂量对的十个观察组合值。如果与前一个剂量对相比,任何这些组合响应减少超过16%,则该特定组合值被取消资格(补充图2h)。使用所有三个QC指标评估组合矩阵后,跟踪标记的值,如果需要,可以从汇总统计中排除。例如,组合矩阵可以通过其平均Bliss协同分数(对10×10矩阵的100个Bliss协同值取平均)进行汇总,或通过其"调整后"的Bliss协同分数(仅对未取消资格的Bliss协同值取平均)进行汇总。
9045种组合的应用筛选
在CHP-134细胞中进行了135种药物的成对组合筛选。每种单一药物板重复六次。首先应用一系列过滤标准,将药物组合优先考虑进一步探索:
- Moran's I,一种空间自相关度量,用于评估每个10×10组合矩阵中协同的空间分布。Moran's I量化了相似分数在空间中聚集的程度,并应用于所有协同矩阵(补充图10)。高Moran's I表明相似的协同分数聚集在一起,形成连贯的模式,而低值表明随机分布,没有明显的模式。我们认为表现出此类局部模体的协同矩阵可能反映连贯的生物效应,而零星模式更可能表示噪声或虚假结果。过滤掉所有Moran's I值<0.6的矩阵,以仅保留具有强空间自相关模式的矩阵。
- 所有组合矩阵都经过基于测量值质量的过滤。十个测量值(对应于10×10矩阵的对角线)经过我们的QC管道。如果这些十个测量值中有超过六个被QC管道标记为不可靠,则排除矩阵。
- 平均百分比细胞死亡也用作筛选数据的过滤器。对于每种组合的100个剂量对,计算平均值,仅保留≥20%细胞死亡的矩阵以供进一步分析。这确保了高排名协同在诱导细胞死亡方面也具有意义。
一旦筛选数据被过滤,组合按其平均Blissadj.(观察)值排名。该指标只是10个测量值每种组合的平均值,这些值经过QC后(图4a)。
数据可用性
本研究生成和分析的所有数据,包括密集模式参考数据集、模型性能指标和稀疏筛选结果,均可在补充数据中获得。可部署的机器学习模型文件、Echo声波液体处理器的协议,以及如何运行Combocat筛选的综合文档,可免费获取于
代码可用性
所有计算工作流程的源代码,包括机器学习集成模型和Combocat R包,是开源的,可在GitHub上免费获取:github.com/wcwr/combocat。该代码根据Apache 2.0许可证开源。
【全文结束】

