一项新的研究声称,像ChatGPT和Claude这样的AI模型现在在湿实验室中解决问题的能力已经超过了博士级别的病毒学家。这一发现是一把双刃剑,专家们表示。超智能的AI模型可以帮助研究人员预防传染病的传播,但非专业人士也可能利用这些模型制造致命的生物武器。
这项研究由位于人工智能安全中心、麻省理工学院媒体实验室、巴西UFABC大学以及防止大流行病的非营利组织SecureBio的研究人员共同进行,并独家分享给《时代》杂志。研究者咨询了病毒学家,设计了一个极其困难的实际测试,以测量解决复杂实验室程序和协议的能力。尽管博士级别的病毒学家在其专长领域平均得分仅为22.1%,OpenAI的o3达到了43.8%的准确率,谷歌的Gemini 2.5 Pro得分为37.6%。
SecureBio的研究科学家兼该论文的合著者Seth Donoughe表示,这个结果让他“有点紧张”,因为历史上首次几乎任何人都可以接触到一个不会判断的AI病毒学专家,这可能会引导他们完成复杂的实验室过程以制造生物武器。
“历史上有很多人试图制造生物武器,而他们未能成功的主要原因之一就是缺乏必要的专业知识,”他说。“因此,谨慎对待这些能力如何分发是非常值得的。”
几个月前,论文作者将研究结果发送给了主要的人工智能实验室。作为回应,xAI发布了一份风险管理框架,承诺将在其未来的AI模型Grok中实施病毒学防护措施。OpenAI告诉《时代》杂志,它为其上周发布的新模型“部署了新的系统级生物风险缓解措施”。Anthropic在其最近的系统卡片中包含了模型性能结果,但没有提出具体的缓解措施。谷歌的Gemini拒绝向《时代》杂志发表评论。
AI在生物医学中的应用
长期以来,病毒学和生物医学一直是AI领导者们致力于开发更强大AI模型的主要动机之一。“随着这项技术的发展,我们将以前所未有的速度治愈疾病,”OpenAI首席执行官Sam Altman在一月份白宫宣布Stargate项目时说道。在这方面已经有一些令人鼓舞的迹象。今年早些时候,佛罗里达大学新兴病原体研究所的研究人员发布了一种能够预测哪种冠状病毒变种可能最快传播的算法。
但直到现在,还没有一项重要的研究专门分析AI模型实际进行病毒学实验室工作的能力。“我们已经知道一段时间以来,AI在提供学术风格信息方面相当强大,”Donoughe说。“但不清楚这些模型是否也能提供详细的实用帮助。这包括解释图像、可能并未写在任何学术论文中的信息,或是通过经验丰富的同事口耳相传的信息。”
因此,Donoughe和他的同事们专门为这些难以搜索的问题设计了一个测试。“这些问题的形式是:‘我在这个特定类型的细胞中培养这种特定病毒,在这些特定条件下,经过这么长时间。我已经得到了关于出了什么问题的一些信息。你能告诉我最可能的问题是什么吗?’”Donoughe说。
几乎每个AI模型都在测试中超过了博士级别的病毒学家,即使是在他们自己的专长领域。研究人员还发现,随着时间的推移,这些模型的表现有了显著提高。例如,Anthropic的Claude 3.5 Sonnet从2024年6月的26.9%准确率提高到了2024年10月的33.6%。OpenAI的GPT 4.5预览版比GPT-4o高出近10个百分点。
“之前我们发现这些模型有很多理论知识,但没有实用知识,”人工智能安全中心主任Dan Hendrycks告诉《时代》杂志。“但现在,它们获得了令人担忧的大量实用知识。”
风险与回报
如果AI模型确实在湿实验室环境中如研究所示那样有能力,那么其影响将是巨大的。从好处来看,AI可以帮助有经验的病毒学家在抗击病毒的关键工作中取得进展。约翰霍普金斯卫生安全中心的主任Tom Inglesby表示,AI可以帮助加速药物和疫苗的开发,改进临床试验和疾病检测。“这些模型可以帮助世界各地的科学家,特别是那些尚未具备这种技能或能力的科学家,开展对其国家内发生的疾病有价值的日常工作,”他说。例如,一组研究人员发现,AI帮助他们更好地理解了撒哈拉以南非洲地区的出血热病毒。
但恶意行为者现在可以使用AI模型来指导他们如何制造病毒——并且无需通常所需的培训即可进入处理最危险和外来感染因子的生物安全四级(BSL-4)实验室。“这意味着世界上会有更多的人,而且这些人受过较少的培训,能够管理和操纵病毒,”Inglesby说。
Hendrycks敦促AI公司设立护栏,以防止这种类型的使用。“如果公司在六个月内没有采取良好的保护措施,我认为这是鲁莽的行为,”他说。
Hendrycks表示,一种解决方案不是关闭这些模型或减缓其进展,而是使其成为门控的,只有可信的第三方才能访问其未经过滤的版本。“我们希望让那些有正当理由询问如何操纵致命病毒的人——比如麻省理工学院生物学系的研究人员——能够做到这一点,”他说。“但刚刚注册账号的人不应该拥有这些功能。”
Hendrycks表示,AI实验室应该能够相对容易地实施这些类型的保护措施。“从技术上来说,行业自律是完全可行的,”他说。“问题是有些公司是否会拖延或干脆不这样做。”
Elon Musk的AI实验室xAI在二月份发布了一份风险管理框架备忘录,承认了这篇论文并表示该公司将“可能利用”某些围绕回答病毒学问题的保护措施,包括训练Grok拒绝有害请求并应用输入和输出过滤器。
OpenAI在周一给《时代》杂志的一封电子邮件中写道,其最新的o3和o4-mini模型部署了一系列与生物风险相关的保护措施,包括阻止有害输出。该公司表示,它进行了为期一千小时的红队测试活动,在其中98.7%的不安全生物相关对话被成功标记并阻止。“我们重视在前沿模型的安全保障方面的行业合作,特别是在病毒学等敏感领域,”一位发言人写道。“随着能力的增长,我们将继续投资于这些安全保障。”
Inglesby认为,行业自律还不够,呼吁立法者和政治领导人制定政策来监管AI的生物风险。“目前的情况是,最有道德的公司正在花费时间和金钱来做这项工作,这对所有人都有好处,但其他公司不需要这样做,”他说。“这没有道理。公众对正在发生的事情一无所知。”
“当一个新的大型语言模型即将发布时,”Inglesby补充道,“应该要求对该模型进行评估,以确保它不会产生大流行级别的后果。”
(全文结束)

