药物研发革命确实存在但被严重夸大,健康聊天机器人已被证实存在隐患,而最重要的疾病仍顽固地无法解决。
2025年末,诺华(Novartis)公司一支研究亨廷顿病的团队利用生成式AI计算设计了1500万种潜在化合物,目标是一种名为分子胶降解剂的分子类型,这种分子能够穿越血脑屏障并攻击与该疾病相关的蛋白质。
在这1500万种候选物中,团队在实验室合成了约60种。他们获得了一个有前景的分子支架,目前正推进进一步优化。1500万种可能性缩小到60种。诚实地讲,这是计算分诊的一项非凡成就。但同样诚实地讲,这也不是亨廷顿病的治愈方法。
AI在实验室中能做的事情与它实际为患者提供的成果之间的差距,正是2026年医疗技术的核心矛盾。行业以革命的语言说话,而证据却以渐进、不确定且经常令人失望的进展语言回应。
在这两者之间,每天有超过4000万人将症状输入ChatGPT,而患者安全组织警告称,这可能是该技术存在的最危险用途。
AI在药物研发中的宣传极具吸引力,在狭义上也是准确的。传统药物研发需要10到15年,每种成功化合物平均耗资25亿美元,约90%的候选物在临床试验中失败。
AI可以将早期发现时间缩短30%至40%,将临床前候选药物开发时间从三到四年缩短至13到18个月。英矽智能(Insilico Medicine)将一种针对特发性肺纤维化的AI发现药物从靶点识别推进到II期临床试验仅用了不到30个月,而传统过程需要六到八年。
据波士顿咨询集团称,截至2024年1月,至少有75种来自以AI为先的生物技术公司的药物或疫苗已进入临床试验。
这些都是真实的成就。但这些成就也远远未能达到终点线。截至2025年12月,没有任何AI发现的药物获得FDA(美国食品药品监督管理局)批准。一个都没有。制药行业90%的临床失败率并未得到明显改善。
科学评论指出,AI发现的化合物似乎显示出与传统发现的化合物相似的进展率,这意味着该技术让我们更快地到达起跑线,但并未改善我们冲过终点线的几率。
拉明德帕尔·辛格博士(Dr Raminderpal Singh)在2026年2月的《药物靶点评论》(Drug Target Review)中撰文,提出了一个任何将加速与转型混淆的人都应必读的总结:他认为,今年最重要的问题不是AI是否能加快临床前时间线(它可以),而是它是否能提高临床成功率。
在III期数据和监管批准回答这个问题之前,制药行业对AI投资的谨慎态度在他看来"完全合理"。一位不愿透露姓名的CEO更为直白:"在过去的十年中,AI在药物发现方面真的让我们大失所望。我们只看到一次又一次的失败。"
为什么无论多少计算都无法治愈阿尔茨海默病、胰腺癌、肌萎缩侧索硬化症(ALS)、亨廷顿病,或那些在AI公司筹集数十亿美元时仍在夺走人命的疾病?原因不是处理能力的缺乏,而是人类生物学本质上是复杂的。机制理解不足的疾病不会仅仅因为你能更快地筛选数百万种化合物就变得容易理解。
瓶颈从来不是分子筛选的速度。它一直是,也仍然是我们对这些疾病在细胞水平上的工作原理、动物模型为何无法预测人类结果,以及临床试验必须经过多年才能确定一种化合物在活体中是否安全有效的根本无知。
AI无法绕过生物学。它不能将五年期的临床试验缩短为五个月。它不能使患者的免疫系统像预测模型一样运作。诺华值得称赞的是,2026年1月在世界经济论坛上坦率承认:人类生物学仍然极其复杂,将研究转化为临床研究需要时间,对于许多疾病,漫长而严格的试验仍然是必要的。该公司表示,AI不是魔杖,而是更智能地应对复杂性的工具。
这是一个可辩护的说法。它也与萨姆·阿尔特曼(Sam Altman)曾提出的观点大相径庭——他曾经设想,总有一天我们可能只需让ChatGPT治愈癌症。
如果说AI在药物发现方面的表现是一个真实但被夸大的进步故事,那么它作为健康助手的表现则更接近于一个警示故事。
2026年1月,患者安全组织ECRI将AI聊天机器人在医疗保健中的误用列为当年头号健康技术隐患。ECRI指出,这些工具未被监管为医疗设备,未经临床使用验证,却越来越被患者、临床医生和医疗保健工作人员所依赖。
ECRI记录了聊天机器人建议错误诊断、推荐不必要的检查、推广劣质医疗用品,甚至至少有一次"发明"了人体部位的案例。根据OpenAI自己的分析,每天有超过4000万人向ChatGPT寻求健康信息。其8亿常规用户中有四分之一每周都会提出医疗保健问题。
2026年2月,牛津大学研究人员在《自然医学》(Nature Medicine)上发表了一项针对1,298名参与者的随机对照研究,这是对这是否真正帮助到人们的最严格测试。结果令人清醒。当单独测试医疗场景时,大型语言模型(LLMs)表现令人印象深刻,在94.9%的案例中正确识别了病情。
但当真实用户使用相同模型评估自身症状时,表现急剧下降:参与者在不到34.5%的案例中识别出相关病情,在不到44.2%的案例中选择了正确的行动方案。这些结果并不比使用网络搜索和自身判断等传统资源的对照组更好。
该研究的主要医学实践者、牛津大学纳菲尔德初级保健部(Nuffield Department of Primary Care)的丽贝卡·佩恩博士(Dr Rebecca Payne)直言不讳:"尽管有各种炒作,"她说,"AI还没有准备好承担医生的角色。"
她解释说,问题在于医学不是知识检索练习,而是一场对话。医生会探究、澄清、检查理解并引导,主动获取患者通常不知道相关信息的信息。而聊天机器人不会这样做。
它们只是对用户输入的内容做出回应,而用户通常不知道该输入什么。结果是双向沟通障碍,模型听起来很有权威性,而患者则带着好坏掺杂、无法分辨的建议离开。
心理健康领域的情况可以说更糟。美国心理学会发布健康预警,指出生成式AI聊天机器人并非为提供心理健康护理而创建,健康应用程序也并非设计用来治疗心理障碍,但两者正被用于这些目的。
斯坦福研究人员发现,治疗聊天机器人对酒精依赖和精神分裂症等状况表现出可测量的偏见,而这种偏见在更新更大模型中依然存在。行业默认的回应——问题会随着更多数据而改善——并未得到证据支持。
这并不意味着AI在医疗保健中毫无用处。那样说就像相反方向的炒作一样不诚实。AI驱动的成像工具正在改善某些癌症的早期检测。行政应用,如转录咨询、生成转诊信、总结患者记录,正在为临床医生节省真实时间。
药物发现尽管未能产出获批药物,但在早期阶段正变得更快、更具计算复杂性。这些都是真正的贡献。值得注意的是,这些贡献属于辅助而非智能的范畴:当技术做文书工作而不是临床推理时,表现最佳。
佩恩博士用行业应该采纳的精确性描述了这一点。她说,大型语言模型在医疗保健中的适当角色是"秘书,而非医生"。这一句话捕捉到了数十亿美元投资未能体现的东西:对这些工具实际定位的现实评估。
预计到2030年,阿尔茨海默病将影响全球7800万人。根据2025年《英国医学杂志》(BMJ)的研究,帕金森病预计到2050年将达到2500万。胰腺癌的五年生存率几十年来几乎没有变化。
这些正是AI本应是我们破解的最佳希望的疾病。
然而,在生成式AI时代进入第三年之际,该技术最明显的健康应用是每天4000万人向聊天机器人询问头痛是否意味着严重问题,而患者安全组织则告诉他们要非常、非常小心对待答案。
【全文结束】

