随着人工智能在医学领域的应用不断推进,人们对利用AI模型来解释复杂的医学信息越来越感兴趣,这超出了AI传统医疗用途的范畴。目前,AI在医学任务中的应用主要集中在任务自动化和模式识别上,例如用于回答患者查询的聊天机器人、预测疾病的算法、生成隐私保护的合成数据以及为医学生提供教育工具。
然而,尽管取得了这些进展,解释医学信息涉及更高层次的理解和区分复杂的医学概念,且具有生死攸关的后果。最近,本古里安大学的研究人员在同行评审期刊《计算机在生物学和医学中的应用》上发表了一项研究,揭示了AI模型在解读医学数据方面的表现,展示了它们的潜力和显著局限性。
博士生奥菲尔·本·肖姆(Ofir Ben Shoham)和来自大学软件与信息系统工程系的纳达夫·拉帕波特博士(Dr. Nadav Rappaport)进行了一项研究,评估AI模型理解医学概念的有效性。他们开发了一个专门的评估工具“MedConceptsQA”,其中包括超过80万个涵盖不同复杂度的问题。该工具旨在评估模型解读医学代码和概念(如诊断、程序和药物)的能力。
“MedConceptsQA”中的问题分为三个难度级别:简单,需要基本的医学知识;中等,要求对医学概念有适度的理解;困难,测试区分密切相关的医学术语的能力。研究结果令人惊讶。大多数AI模型,包括那些专门针对医学数据集训练的模型,表现不佳,通常不比随机猜测好多少。然而,一些通用模型,如ChatGPT-4,表现优于其他模型,准确率约为60%。尽管比随机猜测好,但这种表现仍不足以满足关键医疗决策所需的精确度。
“通常情况下,专门为医疗需求训练的模型达到的准确率接近随机猜测。即使在医学数据上进行了专门训练,也不一定能提高解读医学代码的表现。”拉帕波特博士表示。
有趣的是,像ChatGPT-4和Llama 3-70B这样的通用AI模型,表现优于专门的临床模型,如OpenBioLLM-70B,高出9-11%。这不仅突显了当前临床模型的局限性,也展示了通用模型的适应性,尽管它们缺乏医学焦点,研究人员表示。
该研究显示,AI模型需要更多的专门培训,以处理多样化的高质量临床数据,从而更好地理解医学代码和概念。这可能有助于开发更有效的AI工具。随着进一步的发展,AI可以在分诊患者、根据病史推荐治疗方案或标记潜在的诊断错误方面发挥作用。
研究结果还表明,AI模型需要更好的训练,以处理医学编码的复杂性,这可以简化行政任务,提高医疗系统的效率。“我们的基准测试为评估大型语言模型解读医学代码和区分概念的能力提供了宝贵的资源。”本·肖姆解释道,“它使我们能够测试新模型并将其与现有模型进行比较。”
(全文结束)

