人工智能在临床开发中的变革潜力,取决于行业重建破碎数据基础设施的能力。
"垃圾进,垃圾出"的规律自1950年代提出至今依然成立,在大型语言模型和AI驱动分析时代甚至更为显著。尽管人工智能为临床试验带来变革性前景,但其成功依赖于一个常被忽视的基础要素:清洁、高质量、实时的数据。
尽管生命科学行业持续创新,企业仍在与碎片化的数据生态系统作斗争。调和不同数据源的负担——往往需要事后手动完成——削弱了人工智能本应加速的成果。为释放人工智能的全部潜力,临床开发领导者必须从底层重构其数据战略。
医疗保健正日益个性化,精准医疗旨在将正确疗法匹配给正确患者,将治疗策略从人群均值转向个体化护理。但这一愿景不仅需要突破性科学,更需要能捕获并连接临床开发全周期每个相关信号的数据基础。
数据洪流:机遇与障碍
过去十年,临床试验中的数据量与多样性呈爆炸式增长。随机对照试验的传统病例报告表,如今被电子健康记录、保险理赔、可穿戴设备、患者登记库等真实世界数据所补充。这些外部输入不仅能提供更丰富的患者结局全景视图,在许多情况下,试验的主要和次要终点指标都依赖于它们。
在DPHARM 2025会议上,塔夫茨药物开发研究中心(Tufts CSDD)的肯尼斯·格茨指出,III期试验平均生成近600万数据点,远高于2020年的360万和2012年的100万,但大量数据仍未被充分利用。与病例报告表收集的结构化数据不同,真实世界数据(RWD)常存在不完整问题,且在代表性与相关性方面可靠性不足,难以实现规模化整合分析。
真实世界数据的承诺与持续障碍
随着医疗数字化深入,真实世界数据正日益主流化,信息采集范围已远超临床试验场所。美国食品药品监督管理局(FDA)和欧洲药品管理局等全球监管机构已认可RWD的潜力,发布鼓励其在申报中负责任使用的框架。疫情更推动了去中心化试验和远程监测,使真实世界数据进入主流。
然而,整合仍处于零散状态:此处接入传感器,彼处对接电子健康记录管道,形成脆弱的系统拼图。常见挑战包括:
- 数据孤岛与不兼容:试验数据、理赔记录、电子健康记录、实验室数据等常以不一致格式呈现,存在不同术语体系、编码标准和颗粒度层级
- 数据质量与偏差:真实世界源可能包含缺失值、不完整结局,或源于非随机患者选择的偏差,限制其作为独立证据的使用并增加误判风险
- 操作拖累:许多申办方依赖手工清理和调和拼凑的单点解决方案栈,导致耗时的启停循环
- 互操作性缺口:尽管Fast Healthcare Interoperability Resources(FHIR)和CDISC等全球标准取得进展,但持续采用仍参差不齐,使系统间整合缓慢、昂贵且易出错
- 监管障碍:确保患者隐私、满足数据溯源要求及证明方法学严谨性仍是挑战。全球试验还面临数据本地化限制和患者同意问题
若缺乏严格的实时数据协调,真实世界数据乃至人工智能的承诺将困于数据孤岛之中。
基于标准的数据协调必要性
目标不仅是更多数据,而是更好数据。将真实世界数据与传统试验数据协调,可创建受控环境与真实世界中的治疗表现高保真视图。但这需要方法转变。
从源头嵌入CDISC和FHIR等标准,确保数据在试验全周期中一致流动。这种前瞻性策略能消除下游高成本、易出错的调和过程,实现实时分析、监管就绪和AI驱动的洞察。
相比之下,当前事后拼凑并行管道的做法,制造了脆弱的整合与延迟。早期协调将数据从负债转变为资产,为AI驱动临床生态系统的速度、质量和信任奠定基础。
人工智能需要新数据基础设施
人工智能已在重塑生命科学,从影像分诊到风险评分。在药物开发中,其潜力巨大:预测建模、模拟对照组、自适应试验设计等。
但这些创新未解决操作拖累的核心瓶颈。试验仍需10-15年,其中仅小部分时间用于给药和患者测量等证据生成。其余时间消耗在研究启动、受试者招募、数据处理和申报包装上。
人工智能与协调数据有望显著压缩临床时间线并产生重大影响。例如,III期试验通常耗资约3600万美元(部分超1亿美元),近40%用于运营和管理开销。
通过人工智能优化工作流程可立即获得显著投资回报。除效率提升外,人工智能通过模拟对照组和预测建模实现更智能的试验,优化入组并指导研究设计决策。最终,实时数据支持持续学习和自适应试验设计,为大幅加速执行铺平道路——若数据清洁、整合且可靠,原本12年周期可缩短至5-6年。
构建人工智能驱动研究的生态系统
为实现这一愿景,行业必须重构数据基础设施,关键要素包括:
- 实时双向数据流:以流式更新替代夜间批处理,确保所有利益相关者同步获取真相
- 原生集成:将标准化嵌入平台核心,而非附加组件
- 开放标准:避免供应商锁定,支持跨平台协作
- 隐私与溯源:将去标识化和审计级数据血缘作为负责任重用的基本要求
人工智能的真正承诺,是将临床开发从瓶颈转变为人类健康的通量引擎。药物发现已在加速——人工智能每天识别数千条新治疗路径,但每个突破性构想仍需历经I至III期试验。
通过优化临床开发和重构数据基础设施,行业可提升管线通量,实现精准医疗规模化。
数据统一对业务成果的影响
理论构想常被质疑"如何切实帮助申办方"。根据DPHARM 2025展示的案例研究,某顶尖制药申办方通过统一数据策略显著优化了业务流程、开发管线通量和商业智能。
通过消除并行数据管道,为数据管理、临床运营、生物统计、医学和安全团队建立单一真相源,申办方可实现:
- 加速监管申报:数据已按CDISC协调且具备审计级血缘,使SDTM/ADaM汇编、TLF生成及eCTD包装转为连续流程而非间歇操作
- 实时运营与科学洞察:以单一双向数据织物替代批处理,获得运营表现全景视图及按需科学分析
- 强化安全与卫生经济证据:通过整合试验数据与电子健康记录、理赔和登记库,增强药物警戒并扩展站点外证据基础
- 加速研究启动:基于协议、活动时间表和电子病例报告表的标准库,结合原生FHIR集成,压缩可行性评估与站点启动周期
- 人工智能创新基础:具备可解释、可审计、可复现的AI基底,团队能安全部署高价值AI用例,避免为每个项目重新搭建数据管道
结论:从瓶颈到突破
临床试验的未来不仅是更快,更是更智能——但前提是始于高质量协调数据。人工智能无法修复错误输入。正如谚语警示:垃圾进,垃圾出。
要变革临床开发,我们必须先变革数据管理方式:采用标准优先设计、实时协调、为速度、规模和科学严谨性构建的统一生态系统。
唯其如此,人工智能方能兑现承诺,开启证据生成、药物开发与人类健康的新纪元。
【全文结束】

