评估框架测试AI医生的沟通能力 - AI与医疗健康

评估框架测试AI医生的沟通能力New Framework Assesses AI Doctors' Communication Skills

环球医讯 / AI与医疗健康来源：themunicheye.com德国 - 英语2025-01-02 21:00:00 - 阅读时长2分钟 - 962字

哈佛医学院和斯坦福大学的研究人员开发了一种新的评估框架CRAFT-MD，用于测试大型语言模型在模拟真实医患对话中的表现，揭示了这些模型在处理开放性问题和复杂对话时的局限性，并提出了改进建议。

最近的人工智能（AI）技术进步催生了能够协助临床医生管理患者分流、收集病史甚至提供初步诊断的工具。虽然像ChatGPT这样的模型在这类任务中显示出潜力，但它们在现实医疗环境中的表现引发了疑问。

哈佛医学院和斯坦福大学的研究人员在《自然医学》上发表的一项研究介绍了一个新的评估框架——CRAFT-MD（医学测试中的对话推理评估框架），用于评估大型语言模型在模拟真实患者互动中的能力。研究表明，尽管这些模型在标准医学考试中表现出色，但在更接近真实的对话场景中，其效果明显下降。这种发现强调了需要更全面的评估方法来反映临床沟通的复杂性。

研究人员指出，AI在模拟对话中的表现限制突显了改进评估方法的重要性。当前的测试实践主要依赖于从医学执照考试中提取的选择题，这往往简化了诊断过程。正如其中一位合著者所说，传统评估方法无法捕捉到现实生活中医患咨询的非结构化性质。

CRAFT-MD专门设计用于解决这一问题，允许AI模型与模拟患者进行逼真的对话。该框架评估模型收集相关信息、做出准确诊断以及跟随对话流程的能力。研究涉及对四个不同的AI语言模型进行测试，涵盖了2000个代表常见初级保健情况的临床场景。

结果显示，所有被测模型在发起和维持有效的临床对话方面都遇到了挑战。它们经常未能提出必要的后续问题，忽视了关键的病史细节，并难以整合分散的信息。面对开放式问题时，AI模型的准确性显著下降，而这些问题在结构化的选择题格式中表现良好。

基于这些发现，研究团队向AI开发者和监管机构提出了一些建议，包括：