科学领域最激动人心的发现往往涉及高度专业化的知识,并需要在相距甚远的事实之间建立联系。科学家必须将深度分析与广泛推理策略相结合。
正如许多信息密集型任务一样,研究人员正寻求利用人工智能(AI)系统来加速他们的工作。AI工具或许能够支持关键步骤,例如生成创意、审阅现有工作和分析数据。
最新系统使用大型语言模型(LLMs),使科学家能够自然、直接地与科学文献中以文字形式记录的庞大知识体系进行交互。
然而,正如《自然》杂志刚刚发表的两篇论文所描述的Robin和Co-Scientist这两个新系统所展示的,在科学领域,仅靠语言能实现的成果是有限的。
AI对科学的影响
包括Sakana AI在内的一些组织正尝试自动化整个科学过程。迄今为止,这些努力主要集中在计算机科学领域,其中"实验"主要涉及设计和编写代码。
然而,去年十月在斯坦福大学举办的Agents4Science会议展示了更广泛的AI生成论文。这些论文涵盖从机械工程和蛋白质设计到一个名为BadScientist的系统,该系统故意生成"令人信服但不合逻辑"的研究。
我之前曾对AI科学家对科学生态系统的影响表示担忧。近期研究证实了这些担忧,显示出论文和同行评议数量增加但质量下降、已发表作品中存在伪造参考文献、发现伪造和误导性图像等问题。
科学家如何利用AI
显然,AI系统无法被信任独立完成全部科学过程。但利用AI帮助科学家更快完成更多工作又如何呢?
这正是《自然》杂志描述的两个新系统的目的:由非营利组织"未来之家"(Future House)开发的Robin和来自谷歌DeepMind的Co-Scientist。
这两个系统都旨在通过与科学家合作来加速科学发现。它们也是"多智能体"AI系统,意味着它们被构建成专门针对科学发现过程特定步骤的专用智能体集合,由"监督"智能体协调。
Co-Scientist的智能体旨在模拟抽象认知任务,例如充当批判性科学同行评审者的"反思智能体",评估假设的质量。"排名智能体"在"锦标赛"中辩论研究假设,使用多个交互式LLMs模拟关于两个假设相对优势的讨论。
另一方面,Robin的智能体更专注于与药物重新定位相关的特定任务,旨在为特定疾病识别新药物。一个智能体专注于选择实验测试,而另一个则分析复杂的生物医学数据。
结果表现如何?
Co-Scientist可以使用一种称为埃洛评级(Elo rating)的方法评估其生成提案的质量,这种方法最著名的是用于排名棋手。Co-Scientist对其产出的新颖性和影响力进行的自我评估与人类专家的偏好以及其他LLM系统的判断相当吻合。
在一项药物重新定位实验中,Co-Scientist选出了30种药物候选物,作为治疗一种称为急性髓系白血病的癌症的有希望的治疗方法。专家(人类)肿瘤学家对列表进行了精炼,实验室测试了其中五种药物。其中,三种显示出一些积极结果,一种似乎显示出特别的前景。
其他实验展示了Co-Scientist探索多种药物组合的潜力。
值得注意的是,Co-Scientist的预测并未与数十年计算生物学研究开发的大量靶向计算和机器学习药物重新定位方法进行比较。这意味着我们不知道这种新的通用工具是否优于更具体的AI方法。
两个系统都没有直接验证其假设,这将涉及真正的物理实验。两个系统也都严重依赖人类输入来定义关键科学问题、验证预测并优先考虑进一步调查的预测。
Co-Scientist主要通过复杂的推理智能体生成假设,将验证和解释留给后续步骤。Robin还使用一个智能体分析来自真实世界实验的数据。
Robin被用于为一种称为干性年龄相关性黄斑变性的疾病提出30种药物候选物。选出了前五名进行测试。
Robin还为实验提出了建议,其中几项建议被人类科学家推翻。经过几轮头脑风暴和分析,确定了两种有前景的药物。
对Robin各个智能体的测试显示,那些深入挖掘早期研究的智能体在任务上表现优于通用LLMs。分析智能体在统计和生物信息学问题上的表现较差,并严重依赖人类提供的提示。
仅靠语言的局限性
AI可以帮助科学家驾驭人类千百年来积累的大量已记录知识。利用计算在大数据集中寻找模式、整合分散信息以及从现有文献中推动新发现,几十年来已经为科学进步做出了贡献。
Robin和Co-Scientist等新模型代表了一种转变,即直接在科学的"语言"领域而非原始数据领域工作。这使得科学家与机器之间通过基于语言的"讨论"进行更自然的合作成为可能。
然而,更自然并不一定意味着更有效。基于语言的交流可能不精确且模糊,而科学必须具体明确。
融合这两个世界最佳特点的模型正在出现。这些模型旨在将结构化定量数据与描述其下核心事实的概念和关系联系起来。
这类模型将科学推理建立在知识结构之上。它们允许连接从基因组序列、蛋白质结构到细胞成像的各种科学证据。
语言是科学交流的方式。能够帮助理解隐藏在所有这些语言中的信息的AI工具无疑是有价值的。但自然世界的复杂性意味着,AI(合作)科学家只有在能够超越将词语连接在一起,转而对这些词语描述的系统的全部复杂性进行建模时,才能真正有效。
【全文结束】

