在网络安全和生物技术专家的一项新警告中,研究人员透露,DNA黑客攻击可能很快成为网络战的新前沿。
发表在《IEEE Access》上的一项新研究发现,下一代测序(NGS)技术存在关键安全漏洞,这可能会使高度个人化的遗传信息暴露于网络攻击、间谍活动甚至生物破坏之下。
据研究人员称,基因组数据收集的激增已经超过了保护这些数据的安全框架的发展速度。结果是,我们最个人化的数据——我们的DNA——越来越容易受到网络利用。
“基因组数据是我们拥有的最个人化的数据之一。如果被泄露,其后果远远超出典型的数据泄露。”共同作者、Shaheed Benazir Bhutto Women’s University的微生物学家马赫琳-乌尔-哈桑博士在一份声明中说。“如果被泄露,其后果远远超出典型的数据泄露。”
NGS通过实现DNA和RNA的快速且经济高效的测序,彻底改变了医疗保健和生物医学研究。全世界数百万人使用它进行血统测试、疾病诊断、癌症筛查和个人化医疗。
然而,随着这项技术加速科学发现并提供改变生活的健康见解,它也打开了潘多拉盒子,带来了网络生物安全风险。
这项新发表的研究首次对整个测序流程进行了逐步威胁分析——从原始数据生成和样本准备到基于云的分析和数据解释——揭示了一系列独特的、特定于NGS过程的新漏洞。
包括来自英国、沙特阿拉伯和巴基斯坦的研究人员在内的作者描述了一个这样的场景:基因组数据与其他数字记录不同,它是永久且极其个人化的。被盗的信用卡可以更换,但如果你的信息被DNA黑客攻击所泄露,那就无法挽回了。一旦泄露,就永远无法收回。
该研究最令人震惊的发现之一是DNA黑客攻击的可能性,即DNA本身被用作携带恶意代码的载体。在早期的概念验证实验中,科学家们展示了理论上可以在合成DNA中编码恶意软件。
当测序时,生物样本可以产生数字输出,利用生物信息学软件的漏洞,最终允许攻击者未经授权访问测序计算机。
这种类型的DNA黑客攻击不仅仅是概念性的。华盛顿大学的一个研究团队成功地演示了这一点,使其成为第一个使用DNA入侵计算机系统的实例。其影响深远:一个恶意的DNA链可以破坏实验室的测序运行或破坏医院的基因组数据库。
另一个漏洞在于重新识别所谓的匿名基因组数据。即使去除了姓名,研究人员也表明,DNA样本——尤其是那些包含短串联重复序列(STRs)的样本——可以通过与公共遗传谱系数据库交叉引用来推断姓氏和其他识别信息。
结合公开的人口统计数据,如年龄和邮政编码,这可以导致成功重新识别个体。在一个案例中,84%至97%的个人基因组项目参与者通过这种方法被重新识别。这种泄露不仅侵犯隐私,还具有现实世界的后果,包括敲诈、歧视和医疗欺诈的风险。
该研究还探讨了新兴技术,特别是人工智能,如何无意中加速这些风险。借助AI能够填补复杂知识空白的能力,敌对行为者可以使用AI工具生成攻击策略,以利用生物信息学管道中的特定漏洞。
作者担心,AI可以用来生成恶意代码,操纵DNA合成订单,或设计针对负责分析基因组数据的计算工具的定制恶意软件。
“尽管其重要性,网络生物安全仍然是最被忽视和理解最少的研究领域之一,并在全球生物安全方面留下了关键缺口,”朴茨茅斯大学计算学院的主要作者纳丝琳·安朱姆博士说。“为了确保我们的DNA信息安全并仅用于好的目的,我们敦促更多的研究和合作,以找到方法来保护这项强大的技术。”
该研究引用了现实世界中的案例研究,强调了这些风险的紧迫性。最近对医疗保健和制药公司的网络攻击已经证明了潜在的毁灭性破坏。
例如,在2024年,美国的Octapharma Plasma遭受了一次勒索软件攻击,泄露了敏感的个人信息。同样,日本制药公司Eisai在一次网络攻击后面临巨大的物流和生产延误。
虽然这些攻击没有直接涉及测序数据或DNA黑客攻击,但它们突显了生物技术和医疗基础设施对数字利用的脆弱性。随着测序越来越多地与临床实践和公共卫生基础设施集成,NGS平台成为直接目标只是时间问题。
该研究最重要的贡献之一是引入了一个专门针对下一代测序的新网络生物安全分类法。
与专注于网络漏洞和软件缺陷的传统网络安全模型不同,这个新框架扩展到了生物领域。它在NGS工作流程的每个阶段都确定了具体的威胁向量。
这些包括基于合成DNA的恶意软件攻击、样本多重化利用、测序工作流的对抗性操纵以及利用基因连锁不平衡来预测部分DNA序列健康状况的推理攻击。
作者解释说,NGS工作流程的每个阶段都有自己独特的一系列漏洞。在初始阶段,从血液或组织等样本中提取DNA时,可能会发生重新识别攻击和生物材料的物理盗窃。
即使是手动处理程序也不免受攻击。如果内部人员在提取过程中篡改或替换样本,可能会破坏整个测序过程,并在临床或法医环境中导致危险或误导性的结论。
该研究概述了文库制备阶段的几种网络风险,在此阶段,DNA片段被处理并标记用于测序。高通量实验室中使用的自动液体处理机器人和条形码跟踪系统通常依赖于连接的软件平台。
如果这些平台被恶意软件、勒索软件或供应链攻击所破坏,遗传数据的完整性可能会受到不可修复的损害。该研究还描述了多重DNA注入攻击,其中恶意DNA样本被引入到池化批次中,可以操纵测序结果或导致不同样本之间的遗传物质误归因。
这些漏洞延伸到核心计算步骤。负责将荧光信号转换为DNA序列的基础调用软件可以被劫持,插入人工突变或产生不准确的读数。
DNA黑客可以利用测序设备的弱加密或过时固件来操纵结果。这种篡改可能导致临床环境中的错误诊断或错误治疗计划。在质量控制和数据预处理阶段,威胁包括文件中的恶意代码注入和基于云的数据存储中心(如Illumina的BaseSpace Sequence Hub)上的勒索软件攻击。
生物信息学分析阶段特别脆弱,因为它依赖于复杂的软件管道和大规模计算资源。在此阶段的网络攻击可以默默地改变遗传变异调用,掩盖关键突变,甚至抹去有价值的临床见解。作者指出,一旦这些数据被解释并整合到医疗记录或研究数据库中,这种操纵的后果可能直到为时已晚才会被发现。
研究人员提出了一系列建议,以减轻DNA黑客攻击不断升级的风险。他们呼吁开发安全的测序协议、强大的访问控制以及在基因组工作流程的每个步骤中强制加密。
实验室应采用所有数据访问点的多因素身份验证,并定期审核测序设备中使用的软件和固件系统。
开放访问的遗传数据库必须加强强密码策略、双因素身份验证和更严格的用户验证协议。许多这些平台仍然允许在没有登录凭据的情况下查询数据,从而在全球基因组基础设施中创建了一个巨大的漏洞。
作者还主张集成由人工智能驱动的异常检测系统,以监控测序工作流程中的异常模式,这可能表明潜在的DNA黑客攻击。
更重要的是,他们强调需要跨学科合作。网络安全专业人员和生物技术专家往往各自为政。该研究认为,弥合这一鸿沟对于构建能够抵御不断演变的网络威胁的弹性基因组生态系统至关重要。
在所有这些技术考虑背后,是一个更广泛的伦理问题。随着基因组数据成为个性化医疗的核心,滥用或滥用的可能性也在增加。
基因歧视、胁迫和数据剥削不再是假设的风险。如果没有强有力的保护,公众对基因组研究的信任可能会受到侵蚀,阻碍科学进步多年。
最终,该研究是一个行动号召。随着测序成本继续下降,基因组技术的可及性不断扩大,风险格局将变得更加复杂。利害攸关的是数据隐私、研究诚信、公共卫生和国家安全。
“我们的工作是一个警钟。保护基因组数据不仅仅是加密——而是要预见尚未存在的攻击,”安朱姆博士说。“我们需要在精准医疗的未来安全保障方面进行范式转变。”
(全文结束)