理解将数据集引入临床试验工作流程的好处和担忧。
Paul Mancinelli博士是WCG的首席技术官
在当今快速发展的技术环境中,强大的数据集已成为临床试验中不可或缺的部分。随着诸如人工智能(AI)和大型语言模型(LLM)等创新技术的发展,数据集的质量和可靠性成为这些进步的基础。高质量的数据集(定义为满足准确性、完整性、一致性、及时性、相关性、有效性、粒度、文档等方面的批准标准)可以提高效率,简化招募和保留过程以及站点识别。数据集还促进了临床试验中的突破性创新,例如谷歌AI开发的用于解读胸部X光扫描以早期发现结核病迹象的AI系统。它们确保了全面的分析,减少了研究启动时间,提高了效率,并支持靶向治疗的发展。随着这项技术的不断发展,使用数据集创建AI算法时必须考虑数据隐私、知情同意、潜在偏见和输入信息的质量。
数据集的角色和影响
数据本身可能是有趣的,但数据的真正价值在于如何使用它以及从中获得的见解。如果你将高质量的数据应用到AI模型中,那么它才会变得有用、有洞察力和有影响力。
但并不是所有的数据都适用。应用于这些模型和AI算法的数据需要经过准确性的验证,以减少偏见并预测准确的结果。拥有高质量的数据集是创建能够显著改进临床试验各个方面的AI模型和算法的重要基础,从参与者招募到结果。
利用和整合数据集的挑战
目前,我们在临床试验中引入的所有数据缺乏一致性。这甚至可能取决于地理位置。例如,美国和欧盟有一个标准化的临床试验列表,而世界其他地区如亚洲和非洲则缺乏这种标准化。这种全球范围内的数据规范化不足是一个挑战,在较小规模的站点和公司内部也同样存在。为了未来的数据共享、互操作性和比较全球临床试验结果,这个问题需要得到解决。处于创新前沿的公司现在正在对临床试验数据集和协议进行业务和技术定义的规范化和标准化,然后构建自己的互操作技术平台。整个行业都需要这种类型的努力来应对这一全球挑战。
另一个潜在的障碍是,大多数被引入这些AI模型的数据是自由文本。例如,通过扫描电子医疗记录(EMR)来寻找患者,其中大部分是医生的笔记。手动提取这些信息是一个较慢的过程,也提供了人为错误的机会,这可能会对这些数据集及其运行的模型产生影响。收集这类数据的数字化不足是另一个需要解决的问题,以保持高质量的数据集。
此外,数据处理方式的互操作性也存在不足。市场上各种类型的软件使得以一致的方式整合数据集变得困难,特别是如果它们没有共同的业务定义。这导致大部分时间都花在使数据规范化以使其一致上,以便每个数据字段都以相同的方式定义。主题专家和思想领袖目前并且应该继续聚在一起,就数据字段的业务术语达成一致,以确保所有试验的互操作性。一旦获得了该字段的通用业务定义,就可以开始在数据管理和规范化中引入自动化。
AI当前在临床试验中的应用
我们目前能够将数据聚合并应用到大型语言模型、机器学习和其他AI模型中。这些模型越来越多地被构建到我们所做的每一件事中,甚至在临床试验之外也是如此。在参与者招募方面,数据匹配就是一个可以通过AI的力量简化的例子。我们可以查看医疗记录,并使用AI将纳入和排除标准与协议进行比较,以确定参与者是否适合试验。以这种方式利用AI算法可以帮助加快招募过程,而不牺牲研究启动过程的质量和完整性。
这些模型可以在异常数据条目发出警告的情况下主动工作。举一个简单的例子,在收集参与镇痛试验的参与者数据时,如果他们在很长一段时间内每天都输入相同的疼痛水平,这些模型可以将其标记为数据异常。当然,更复杂的离群值也可以以类似的方式标记。这个警告允许现场工作人员更仔细地检查这一点,看看是否有任何需要关注的问题。及早发现并解决这些问题可以更准确地反映临床终点,并使试验保持在正轨上。
还可以利用大型语言模型和AI来分析研究协议并确定其优化程度。我们可以看到某些标准可能具有排斥性,从而增加参与者的负担,这会影响招募和保留。这些可能是站点位置不太理想的情况,要求长时间通勤或需要过夜住宿。借助高级数据集,我们可以使用AI算法找到研究协议中未解决的患者负担区域,并在它们破坏研究之前对其进行修订。最终,我们能够优化参与者和站点的集合,以确保临床试验成功执行的最高概率。
其他许多手动过程也可以通过AI算法自动化,包括:
- 通过处理电子健康记录(EHR)和实验室数据来识别患者。
- 比较新旧政府监管文件的变化。
- 在患者参与前分析医疗保险覆盖情况。
- 更准确高效地将站点/参与者面向的文件翻译成不同语言。
展望未来
展望未来,利用数据集在高级算法中的应用时,有一些需要考虑的因素。其中之一是负责任、安全和合乎伦理地使用数据和AI在临床试验中的应用,行业团体正在对此进行定义。AI模型中可能存在偏见,因此意识到这一点意味着我们可以努力合乎伦理地构建这些模型,以确保不会进一步歪曲输出数据。
另一个潜在的担忧是数据隐私,确保在利用这些数据集和算法时,试验遵守HIPAA和其他法规。从参与者那里获得使用试验中获取数据的知情同意对于数据隐私也是至关重要的。此外,在处理这些数据集时,网络安全应始终放在首位。无论是通过加密还是其他手段,确保参与者的数据安全将是关键焦点,现在和将来都是如此。
此外,对算法的透明度可能很难实现,但这是确保输出准确性的必要条件。由于这些数据集非常庞大,且这些算法使用的数据非常广泛,因此很难理解某些大型语言模型是如何得出答案的。了解这一点是另一种确保输出质量并避免不必要的偏见污染发现的方法。
虽然在使用数据集时存在一些担忧和考虑因素,从确保数据的准确性到使用数据的安全性,但这些进步将进一步改善当前的临床试验流程。AI算法和大型语言模型已经在整个行业中得到应用,并将继续深入整合到临床试验的所有方面。通过这些明确定义的数据集,我们能够实施生成式AI、机器学习和其他分析技术,以加速临床试验。这包括更快地识别最佳试验站点和患者,跨越地理和所有治疗领域。尽早了解这些好处和担忧将意味着在临床试验中取得更多积极进展,并进一步重视高质量数据集的开发和利用。
(全文结束)

