自动化和人工智能能否最终让科学以思维的速度运行?埃里克·马分享了为何严谨的系统而非新模型将推动下一波科学发现浪潮。
在上篇对话中,埃里克·马揭示了人工智能在药物发现中的艰难真相,从历史数据缺陷到统计严谨性的系统性缺口。本文作为第二部分,我们从问题转向进展,探索自动化、大型语言模型(LLMs)和更完善的数字基础如何解锁现代科学所需的效率与精度。
自动化:统一趋势的核心
当被问及当前趋势时,马将其凝练为一个词:自动化。无论是机器人实验执行、批量筛选方法还是AI辅助文献搜索,自动化通过消除常规手动步骤,使研究机构更加灵活。
“五年内,我预计实验室科学家将设计由机器人执行或批量筛选的实验方案,”马预测道。对于文献综述,AI智能体将帮助科学家深入挖掘出版物。但马谨慎补充了一个关键提醒,希望“几年后,足够多的人能理解AI如何生成低质量内容,并引导AI避免产生此类内容”。
这并非盲目乐观——而是务实认识到工具的价值取决于使用者的水平。
科学工作流中的LLMs:实际应用
对马个人而言,AI辅助编码已显著影响其日常工作。大型语言模型通过降低入门门槛,帮助他更轻松地解决复杂问题。“如果能让LLM先将方程转化为通俗语言,再转换为PyMC代码,这有助于我理解背后的数学原理,”他解释道。
但LLMs在科学工作流中的真正价值远超代码生成。马描述了如何用它们整合多源上下文——存档在冷门SharePoint位置的PowerPoint、Confluence页面、访谈记录等。他因录音通话而闻名——“并非为了让人不适,只是为了记住关键内容。”这些记录成为理解项目目标和建立安全边界的基础材料。
“没有安全边界,系统会钻入什么死胡同?”马反问道。上下文不仅关乎真实性,更在于将解决方案空间约束在真正相关和可接受的范围内。
向量数据库、知识图谱与可追溯性问题
谈及LLM应用的数据管理,马持务实态度。尽管部分从业者强烈推崇向量数据库或复杂知识图谱架构,马认为这些工具是否适用取决于具体场景。
“向量数据库只是提供了一种快速便捷的检索方式,无需自行编写grep或find工具,”他指出。但他迅速补充道:“若要构建严肃应用,总需进行一些实验。”
针对知识图谱,马尤为谨慎。他承认其有经验证用例,但强调“设计知识图谱架构以适配特定窄域应用需耗费大量精力”。这些图谱常被重新用于架构不匹配的场景。任何架构相比带参考的纯文本都简化了语义可能性——由引用其他Markdown文件的Markdown文件构成的“简易知识图谱”往往足够。
生命科学领域构建有用知识图谱的成本对多数机构过高。“依赖绝对真理的系统极不实用,因为你永远无法抵达真理,”马直言不讳。
给小型生物技术公司的建议:始于愿景
当被问及资源不及莫德纳的小型生物技术公司应如何应对机器学习和AI时,马的建议侧重结构而非技术:“确保其中一位联合创始人具备数字技术愿景。”
若创始人从第一天起不理解严谨统计和数字系统的重要性,这些要素便无法融入根基。他们无需亲力亲为构建系统,但必须足够了解以引入合适顾问并设定正确文化基调。
“要么寻找具备该能力的联合创始人,要么在早期招聘中引入能组建顾问团队塑造该文化的成员,”马建议道。
这切中了行业更广泛误解的核心:人为区分“科技生物”与“生物技术”完全偏离重点。马指出,这些类别是“对行业知识图谱的另一次构建尝试”——过度简化掩盖了技术必须从第一天起在系统层面整合的现实。
结论:超越炒作的诚实进展
通篇对话中,马始终对AI在药物发现中的能力进行现实校准。经济逻辑并非总成立;历史数据比我们承认的更混乱;知识图谱构建维护成本高昂;若未正确引导,LLMs可能生成“低质量内容”。
然而,正因这种毫不妥协的诚实,马对自动化的轨迹仍持乐观态度。关键在于将合适工具匹配到合适问题,维持系统层面的统计严谨性,并认识到构建完善数据基础设施没有捷径。
让科学以思维速度运行,不在于部署最新AI模型,而在于从基础构建有诚信的系统——这些系统能追溯每个决策、记录每个参数,并在扩展时保持一致性。唯有如此,机器学习、自动化和AI助手才能兑现加速发现的承诺。
当革命来临时,它将建立在元数据管理和工作流编排等“枯燥事务”之上。这才是诚实的真相。
若您错过了上篇,请阅读第一部分,了解塑造AI在药物发现中现实的经济与数据挑战。
专家简介
埃里克·马(Eric Ma)——莫德纳公司高级首席数据科学家
作为莫德纳公司高级首席数据科学家,埃里克领导数据科学与人工智能(研究)团队,致力于将科学加速至思维速度。加入莫德纳前,他在诺华生物医学研究所工作,专注于应用贝叶斯统计方法支持新药发现。早年,他于2017年夏季担任洞察健康数据研究员,并于同年春季在麻省理工学院(MIT)生物工程系完成博士论文。埃里克也是开源软件开发者,主导开发了pyjanitor(Python数据清洗的简洁API)和nxviz(NetworkX可视化包),并担任NetworkX和PyMC的核心开发者。此外,他通过编程、博客、教学和写作为更广泛的数据科学社区做贡献。
【全文结束】

