AI“科学家”加入这些研究团队:结果如何What’s it like to work with an AI team of virtual scientists?

环球医讯 / AI与医疗健康来源:www.nature.com英国 - 英文2025-07-10 18:54:17 - 阅读时长9分钟 - 4048字
新兴的“合作科学家”系统通过聊天机器人模仿研究小组的讨论,Nature邀请研究人员测试这些系统,发现它们在快速思考研究假设、生成新想法方面颇具潜力,但也存在局限性。
AI辅助科学研究阿尔茨海默病治疗肝纤维化治疗SARS-CoV-2变体研究癌症研究孤儿疾病研究健康疾病治疗科学研究效率AI角色协作
AI“科学家”加入这些研究团队:结果如何

四月的一个周日早晨,病理学家托马斯·蒙廷(Thomas Montine)主持了他人生中最超现实的一次会议。在名为“虚拟实验室”(Virtual Lab)系统的在线测试界面中,蒙廷组建了一支由六个角色组成的虚拟团队,所有角色均由一家商业大型语言模型(LLM)驱动。他为这些虚拟成员分配了专业领域:几位神经科学家、一位神经药理学家和一位药物化学家。然后,他要求这个虚拟实验室团队探讨阿尔茨海默病的可能治疗方法,并讨论知识空白、进展障碍以及需要验证的假设——这正是他在撰写资助申请时必须考虑的问题。

几分钟后,他得到了一份超过一万字的对话记录。虚拟首席研究员(Principal Investigator)开启了会议:“感谢大家参加这次重要的会议。”

蒙廷是斯坦福大学(Stanford University)研究认知障碍的专家。他正在测试一种新兴趋势中的AI辅助科学研究实例:利用一组具有特定专长的聊天机器人模拟实验室团队的工作方式,以发展科学构思。这些“合作科学家”系统的开发者认为,这种协作可以帮助研究人员迅速梳理研究假设,节省时间,并且更富争议的是,还能产生新的重要研究思路。

多种个性化的AI角色

所有“合作科学家”系统都为代理角色分配特定角色或个性,并让它们互动,但具体细节有所不同。斯坦福大学詹姆斯·邹(James Zou)研究组的计算机科学家凯尔·斯旺森(Kyle Swanson)及其同事开发的“虚拟实验室”系统包含两个默认角色,均基于旧金山科技公司OpenAI的GPT-4o模型。这两个角色分别是首席研究员和批评者(Critic),后者被设计为提供有益反馈。用户(或AI的首席研究员)可以添加任意数量的角色,只需简单描述每个角色的特点即可。用户选择这些角色“发言”的轮次,几分钟内便可生成会议记录。该团队正在探索方法,通过训练这些角色掌握与其专业领域相关的文献(如先前其他研究已实现的),而不仅仅是设定特定角色。

相比之下,谷歌DeepMind的艾伦·卡提克萨林甘(Alan Karthikesalingam)和维韦克·纳塔拉扬(Vivek Natarajan)及其同事开发的谷歌“合作科学家”系统并未允许用户指定科学专长。相反,这些代理角色具有预定义的具体功能:创意生成、反思或批评、创意进化、减少重复的想法、排名和元审查。这六个代理角色由谷歌的LLM Gemini 2.0驱动。

用户向系统输入几句话,包括目标和期望的输出格式,并可选择添加背景信息,例如相关论文。这些代理角色协作解决问题、搜索互联网,最后生成一份总结报告,长度可达数十甚至数百页。“合作科学家就像一个聪明的科学伙伴,能够在海量研究中看到显而易见和不那么显而易见的联系,”纳塔拉扬表示,“我们希望赋予科学家超能力。”

像所有LLM一样,这些代理角色背后的模型有时会‘幻觉’,即生成错误的内容。但多代理对话中引入批评者或评判者的机制通常能够排除不合理的内容。此外,史蒂文斯补充道,幻觉在创造性过程中可能是有用的,比如在头脑风暴时跳出框框思考,只要专家核实输出内容是否有意义即可。

有证据表明,与单独与一个AI代理或机器人对话相比,多代理策略确实能提高输出质量。例如,邹的研究发现,在使用GPT-4o进行研究生水平科学测试时,增加一个批评者可将模型的性能评分提升几个百分点,并改进测试案例中的答案,包括设计放疗治疗计划。

谷歌还测试了其AI合作科学家系统,以验证人类专家是否更倾向于接受多代理生成的答案,而非单一聊天机器人的输出。专家对合作科学家系统生成的想法的新颖性和影响力评价略高于Gemini 2.0或OpenAI的o1。

一些研究甚至深入探讨了最佳代理数量和讨论回合数。上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)的计算机科学家董南庆及其同事正在构建VirSci系统,他们表示,八个代理各进行五轮对话时,创造力达到顶峰。斯旺森则表示,根据他的经验,添加三个以上的专家往往只会导致“浪费文本”,而三轮以上的对话有时会让代理偏离主题。

灵感闪现

经常在工作中使用AI的斯坦福大学医学研究员加里·佩尔茨(Gary Peltz)是谷歌AI合作科学家的首批测试者之一。他希望用它来寻找治疗肝纤维化的药物。由于AI系统仍在开发中,他将查询发送给了谷歌的一名中介人员。他的提示写道:“提出关于肝纤维化中肌成纤维细胞生成所需的基因和表观遗传变化的假设,并指出我们应该测试哪些药物作为肝纤维化的新疗法。”他还附上了一些详细的背景信息。大约一天后,他收到了报告。

经过一些初步内容,报告开始写道:“我们提出一个新的假设……”随后得出结论:“这项研究可能对肝纤维化研究和治疗进展产生深远影响。”(参见“测试AI合作科学家”)

佩尔茨刚刚完成了一份聚焦肝纤维化中表观遗传变化重要性的资助提案,而AI恰好也提出了相同的主题作为治疗建议。“我读到这份报告时,真的差点从椅子上摔下来,”他说。

AI合作科学家建议了三种药物,佩尔茨又提出了两种(所有药物均已批准用于治疗其他疾病)。谷歌支付了费用以加速实验室测试。接下来的几个月,佩尔茨的实验室在其人类类器官模型中测试了这五种药物。AI推荐的三种药物中有两种显示出促进肝再生和抑制纤维化的潜力,而佩尔茨提出的两种药物均未奏效。

这次经历让他印象深刻:“这些LLM就像是早期人类社会发现火一样。”

然而,其他肝脏研究人员表示,AI推荐的药物既不特别创新,也不深刻。“我个人认为它们相当常识化,没有太多洞见,”纽约西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)研究肝病的王双(Shuang Wang)说。对此,谷歌的纳塔拉扬回应道:“有时候事情在事后看来是显而易见的。”

佩尔茨表示,他“特别惊讶于它没有优先考虑我关注的重点”。对于AI候选名单中最有希望的药物伏立诺他(vorinostat),他在PubMed中仅找到两篇与肝纤维化治疗相关的论文。而他的选择有更多引用,看似更明显的候选药物。他补充道,阅读AI报告类似于与博士后讨论。“他们的视角完全不同于我的,”他说。

生硬的对话

斯坦福大学“虚拟实验室”的代码可在开发者平台GitHub上获取,但团队为那些不具备计算机科学技能的测试者创建了一个简化的私人网页界面。斯旺森表示,这一界面与完整系统略有不同,但体验大致相同。

在介绍“虚拟实验室”的论文中,一个AI团队致力于设计能够结合特定SARS-CoV-2变体的生物组件。在人类研究人员主持的一系列实验室会议中,AI选择了纳米抗体(小型抗体片段)并挑选了四种候选物进行优化。研究人员随后要求AI团队选择一些现有软件工具重新设计这些纳米抗体,并指定特定AI代理编写代码以评估和排名结果。最终,该过程设计了92个纳米抗体,其中2个确实在实验室测试中成功结合了SARS-CoV-2变体。

《自然》邀请测试“虚拟实验室”的研究人员并未进行实验或让AI团队编写代码,但他们仍然认为AI很有帮助。例如,蒙廷表示,他的AI团队出色地综合了当前知识(这是其他LLM系统也能很好完成的任务),并优雅地回答了他的资助申请问题。“它的表现比第一次写资助申请的博士后还要好,而且只用了两分钟,”他说,“而且用起来非常有趣。”

另一位测试者、巴塞罗那瓦尔德希伯伦肿瘤研究所(Vall d'Hebron Institute of Oncology)的癌症基因组研究员弗朗西斯科·巴里加(Francisco Barriga)自称是一名生物化学背景出身、专注于小鼠模型和基因组工程的研究人员,几乎没有编码技能,也很少接触AI。他带着怀疑态度参与了测试,认为自己可能会成为某种非技术型对照组。

巴里加要求“虚拟实验室”设计小鼠模型实验,以测试一类被称为I型干扰素的生物化合物对肿瘤或免疫细胞的影响,同时尽量减少小鼠数量——这是一个他非常熟悉的主题(参见“测试AI虚拟实验室”)。AI团队提出的方案正好是他会做的,“选对了模型,选对了实验,”他说。

尽管如此,巴里加仍感到有些关键的东西缺失了。“绝对感觉不到背后有人类。”AI代理轮流发言,常常以编号列表的形式表达,从不粗鲁、打断或争执。“它缺少了一些随机与植物生物学家在下午三点的走廊里喝咖啡时可能获得的直觉飞跃,”他说。当然,他可以添加一名植物生物学家——或者量子物理学家,或任何角色——到他的“虚拟实验室”团队中,但他尚未尝试。

“也许用来碰撞想法还不错,但它会改变我的日常工作吗?我怀疑,”巴里加说。他补充道,这个系统可能适合他的博士生参考:“如果他们遇到麻烦而我太忙,也许我能被取代。”

更广泛的洞见

第三位由《自然》邀请的测试者凯瑟琳·布朗斯坦(Catherine Brownstein)是马萨诸塞州波士顿儿童医院(Boston Children's Hospital)研究孤儿疾病的遗传学家,她对AI工具有更多经验。她说,她使用LLM是为了提高速度、效率,并拓宽思维。但她警告称,用户通常需要具备专业知识,以便识别错误——过去,聊天机器人曾让她陷入耗时的无用功,错误的论文摘要迫使她重读论文及其参考文献以确保没有出错。“你必须对自己的话题有所了解,否则很容易完全被误导,”她说。

然而,当布朗斯坦使用“虚拟实验室”来批评她正在撰写的论文时,她感到震惊——并且感激——AI建议她询问患者,研究应朝哪个方向发展。这一点她从未想过,尽管她承认应该想到。“我感到尴尬,”她说,“我停下来盯着屏幕整整一分钟,心想,‘天哪,我是怎么远离了最初的以患者为中心的研究热情的?’”

一个简单的检查表——或者与朋友、聊天机器人甚至酒保的对话——也可能带来同样的洞见。然而,她说,她的同事中没有人读过她的论文后提出这一点。“这真是一个非常谦卑的时刻。”


(全文结束)

大健康

猜你喜欢

  • 人工智能在医疗保健领域的激动人心的潜力人工智能在医疗保健领域的激动人心的潜力
  • 动脉粥样硬化市场在未来十年将显著增长 - BIS Research动脉粥样硬化市场在未来十年将显著增长 - BIS Research
  • 欧洲咳嗽药在帕金森病痴呆治疗中展现潜力欧洲咳嗽药在帕金森病痴呆治疗中展现潜力
  • 汉密尔顿纪念医院快速应对中风事件彰显本地救生专业能力汉密尔顿纪念医院快速应对中风事件彰显本地救生专业能力
  • Thumbay医疗人工智能实验室在海湾医科大学开幕Thumbay医疗人工智能实验室在海湾医科大学开幕
  • ‘她甚至会微笑’:普莱森维尔园艺天堂提升痴呆社区的生活质量‘她甚至会微笑’:普莱森维尔园艺天堂提升痴呆社区的生活质量
  • AI检测出医生遗漏的隐藏肺部肿瘤——而且速度极快AI检测出医生遗漏的隐藏肺部肿瘤——而且速度极快
  • 心血管护理行动呼吁心血管护理行动呼吁
  • 都柏林母亲讲述产后遭遇改变人生的中风经历都柏林母亲讲述产后遭遇改变人生的中风经历
  • 化疗可使健康血细胞“显老”化疗可使健康血细胞“显老”
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康