最近的人工智能(AI)技术进步催生了能够协助临床医生管理患者分流、收集病史甚至提供初步诊断的工具。虽然像ChatGPT这样的模型在这类任务中显示出潜力,但它们在现实医疗环境中的表现引发了疑问。
哈佛医学院和斯坦福大学的研究人员在《自然医学》上发表的一项研究介绍了一个新的评估框架——CRAFT-MD(医学测试中的对话推理评估框架),用于评估大型语言模型在模拟真实患者互动中的能力。研究表明,尽管这些模型在标准医学考试中表现出色,但在更接近真实的对话场景中,其效果明显下降。这种发现强调了需要更全面的评估方法来反映临床沟通的复杂性。
研究人员指出,AI在模拟对话中的表现限制突显了改进评估方法的重要性。当前的测试实践主要依赖于从医学执照考试中提取的选择题,这往往简化了诊断过程。正如其中一位合著者所说,传统评估方法无法捕捉到现实生活中医患咨询的非结构化性质。
CRAFT-MD专门设计用于解决这一问题,允许AI模型与模拟患者进行逼真的对话。该框架评估模型收集相关信息、做出准确诊断以及跟随对话流程的能力。研究涉及对四个不同的AI语言模型进行测试,涵盖了2000个代表常见初级保健情况的临床场景。
结果显示,所有被测模型在发起和维持有效的临床对话方面都遇到了挑战。它们经常未能提出必要的后续问题,忽视了关键的病史细节,并难以整合分散的信息。面对开放式问题时,AI模型的准确性显著下降,而这些问题在结构化的选择题格式中表现良好。
基于这些发现,研究团队向AI开发者和监管机构提出了一些建议,包括:
- 在设计和测试AI工具时采用更贴近真实世界的对话和开放式提问技术。
- 评估AI模型提出相关问题和提取关键信息的能力。
- 创建能够管理多个对话线程并整合来自不同来源信息的模型。
- 将非语言沟通分析(如语调和肢体语言)纳入AI模型训练。
此外,研究还提倡在评估过程中结合AI评估员和人类专家。这种方法不仅提高了效率,还减少了让实际患者暴露于未经验证的AI技术的风险。CRAFT-MD展示了其能够在比传统人工评估更短的时间内评估数千次对话的能力。
研究人员表示,他们致力于持续更新和完善CRAFT-MD框架,以确保AI模型在临床环境中的性能不断改进。这项举措旨在促进AI工具在医疗实践中的有效和道德整合,最终提升患者护理水平。
(全文结束)

