詹姆斯库克大学领导的一项最新研究表明,一种设计用于分类复杂医疗案例文档的人工智能模型在与人类挑战者的较量中败下阵来,但研究人员表示,这项AI技术仍然可能带来巨大的益处。
在这项由詹姆斯库克大学主导的研究中,五名人类临床文档编码员与基于ChatGPT的大规模语言模型进行了对比,分析了100份随机选择的、涵盖五大疾病类别的具有挑战性的临床患者摘要。该论文发表在《国际医学信息学杂志》上。
ChatGPT的准确率为22%,而研究中表现最好的人类编码员的准确率为47%。
“我们看到有几位人类编码员在几乎所有情况下都比工具表现得更好,”该研究的主要作者、JCU博士候选人阿克拉姆·穆斯塔法说。
“有些编码员的表现较差,但如果把五个类别综合起来看,总体上人类编码员表现更好。”
编码员将健康记录转化为标准化的字母数字代码,这些代码随后被用于州和联邦的数据报告、卫生服务规划以及医院资金模式。
穆斯塔法先生表示,虽然之前的研究已经比较了人类编码员与AI在分类医疗文档方面的表现,但这项研究更进一步。
“有些临床病例很容易分类,之前的机器学习模型或普通映射工具已经可以很好地完成。但我们想看看那些对主流工具来说分类具有挑战性的临床文档的情况,”他说。
“我们想看看在这些具有挑战性的病例中,当某些信息缺失或记录不够详细时,大规模语言模型AI工具与人类编码员相比如何。”
该研究的共同作者、JCU电子与计算机工程教授莫斯塔法·拉希米·阿兹加迪表示,团队还在研究过程中比较了ChatGPT 3.5与ChatGPT 4的表现,发现后者在反复处理相同的临床文档时,生成的疾病分类结果更加一致。
“ChatGPT 4更加稳定。86%到89%的情况下,它给出了完全相同的疾病预测,”阿兹加迪教授说。
“这类似于将一份临床记录交给一位医生并要求他们做出诊断,然后第二天再问同样的问题。”
阿兹加迪教授表示,应该将该模型视为一种可以补充人类编码的工具,特别是在减少不一致性和提高效率方面。
“目前,所有这些文档都需要由人类进行编码。他们坐下来查看大量的文本,其中包括患者的个人信息、医院评估、治疗进展以及所用药物等信息,”他说。
“一种混合方法可能是利用大规模语言模型的速度和标记困难病例的能力,并结合人类监督,以应对分类更为困难的情况。这可能会提高编码准确性并简化流程。”
阿兹加迪教授表示,下一步将是增加模型的“可解释性”,使其能够提供更多详细的理由来说明为什么将患者归类为某种特定状况。
(全文结束)

