新研究揭示了大型语言模型在药学决策中的临床应用能力。发表在《Healthcare》杂志上的研究对ChatGPT-3.5和OpenAI o3两款生成式AI系统进行了能力评估,将其与约旦25名执业临床药剂师在四类治疗领域的多选题测试中进行对比验证。
这项题为《针对临床药剂师的ChatGPT-3.5与OpenAI o3基准测试:药学多选题临床准确率、灵敏度及特异性的初步研究》的研究,基于60道经学术和专业专家验证的临床多选题构建测试体系。研究结果对AI在临床药学教育、实践及决策支持领域的未来发展提出了重要启示。
研究团队评估了心血管、内分泌、感染和呼吸四大治疗领域题目的AI表现。所有试题均依据现行治疗指南设计,并经过难度分级与清晰度审查。为确保数据可靠性,研究人员对每个AI模型进行了隔离会话测试,并在两周后重复测试以验证结果一致性。
数据显示OpenAI o3在各项参数上全面超越ChatGPT-3.5和人类药剂师。OpenAI o3达到83.3%的准确率,灵敏度为90.0%,特异性70.0%;ChatGPT-3.5获得70.0%准确率(灵敏度77.5%,特异性55.0%);药剂师组平均69.7%准确率(灵敏度77.0%,特异性55.0%)。
研究发现AI性能随问题难度呈显著下降趋势。即便如此,OpenAI o3在心血管领域仍保持93.3%的准确率优势,而ChatGPT-3.5在感染疾病模块表现相对突出,显示出不同模型存在领域特异性差异。
研究结果引发对AI在临床环境应用潜力的深入思考。OpenAI o3在知识型测试中的超人表现预示着AI临床决策工具的应用前景,可作为药剂师的辅助工具提升用药管理和治疗方案制定的时效性与精准度。作者强调,AI在快速检索和解读循证医学内容方面的优势,使其特别适用于时间紧迫、资源有限的临床场景,且其两周间隔测试结果的稳定性证实了作为药物管理参考工具的可靠性。
但研究同时警示不可过度依赖AI系统。在复杂或临床模糊度较高的测试中,AI模型有效性明显下降,反映出其在情境依赖性决策中的局限性。这表明AI应作为临床决策的补充工具,在有经验的医务人员监督下使用。
研究建议将AI工具整合进药学教育体系,通过即时反馈机制强化指南驱动的学习效果,并通过对比人机决策路径培养批判性思维。政策制定层面,随着OpenAI o3等模型日益融入数字健康平台,监管机构需建立包含问责机制、患者安全标准和模型透明度在内的新规范框架。
后续研究将聚焦AI在真实临床场景中的表现,包括风险评估和多学科协作等超越结构化多选题范围的应用场景。
【全文结束】

