安大略省总审计长在一份新报告中指出,该省医生使用的基于人工智能的笔记记录工具提供了不准确和不完整的信息,或表现出"幻觉"问题,并且没有得到充分评估。
安大略省总审计长雪莉·斯宾塞(Shelley Spence)在一项关于省级公共服务中人工智能使用情况的广泛调查中得出了这一结论。
根据《The Register》报道,总审计长表示,在省级政府采购基于AI的医疗系统(用于转录医生与患者之间的对话)的过程中,政府评估人员发现了20个程序生成的转录中的严重错误。
这些发现来自加拿大安大略省审计长办公室,包含在一份关于省级公共服务使用人工智能状况的更广泛报告中。这些内容特别涉及安大略省卫生部为全省医生、医助和其他医疗专业人员发起的AI Scribe项目。
作为采购过程的一部分,官员们使用模拟的医生-患者对话录音进行了评估。然后,医疗专业人员将原始录音与AI生成的笔记进行比对,以评估其准确性。
他们发现的结果,老实说,对于任何关心在关键情况下AI准确性的人都令人震惊。
20个AI系统中有9个"编造信息并对患者的治疗计划提出建议",而这些在录音中根本没有讨论过。报告称,评估人员在样本报告中发现了潜在破坏性的错误信息,例如识别出从未在录音中讨论过的医疗问题或将患者标记为焦虑。
20个程序中有12个创建的转录包含不准确信息,例如提及与医生处方不同的药物。
17个系统"遗漏了患者心理健康问题的关键细节",而这些细节在录音中已经讨论过。报告称,6个系统"完全或部分遗漏了患者的心理健康问题或遗漏了关键细节"。
为医生采用新技术提供支持的OntarioMD组织(也参与了AI Scribe的采购过程)建议医生手动检查AI生成的笔记以确保其准确性,但报告指出,在任何已批准的AI Scribe系统中都不存在强制验证功能。
AI Scribe相关准确性、安全性和保密性的初步评估仅占总分的一小部分
AI系统出错并不太令人震惊。面向消费者的AI平台倾向于向用户提供错误的医疗信息,一些研究发现,LLM模型在约80%的测试案例中未能提供适当的诊断。但这里评估的工具是为医生设计的,而不是消费者,这样的表现不佳需要解释。报告的很大一部分将责任归咎于系统的评估方式。
据报告称,AI Scribe各项性能类别的权重分配不平衡。虽然一个平台30%的评估分数仅取决于其在安大略省市场的存在,但医疗笔记的准确性仅占总分的4%。
系统偏见控制仅占总评估分数的2%;威胁、风险和保密性评估占另外2%;SOC 2 2型合规性又贡献了4个百分点。
换句话说,与准确性相关的标准、偏见控制以及关键的安全和保密措施仅占AI Scribe系统总评估分数的一小部分。
所有这些因素促成了总审计长关于这些AI Scribe系统"未得到充分评估"的总体结论。"重要的是,AI Scribe系统应该经过测试,以提供对生成笔记质量的保证,并尽量减少不准确性。"同时建议使用这些系统的IT部门应要求医生"在将笔记输入患者档案之前确认已检查生成的笔记"。
报告中关于评分系统的表述称:"不准确的权重可能导致选择那些AI工具可能生成不准确或有偏见的医疗记录,或者没有足够的保护来保护个人健康敏感信息的供应商。"
审计还披露,在20个供应商中,至少有5个没有按照招标程序的要求提交风险评估和保密影响报告,但仍然获得了批准。
安大略省的公立卫生服务机构没有义务在工作中使用这些基于人工智能的转录系统,如果需要,他们可以从未经批准的供应商处购买转录服务。
【全文结束】

