自2022年ChatGPT推出以来,科技公司一直在竞相将生成式AI工具推向医疗市场。然而,医疗服务提供者面临一个难题:如何选择合适的AI产品。随着谷歌、亚马逊、微软和OpenAI迅速扩展其人工智能产品线,提供者表示他们不知道如何比较产品的有效性或确定哪种工具最能满足他们的特定需求。
由波士顿马萨诸塞综合医院布里格姆(Mass General Brigham)领导的一组医疗系统希望解决这一问题。周三,这家学术医学中心启动了“医疗AI挑战协作”项目,允许参与的临床医生在模拟临床环境中测试最新的AI产品。临床医生将通过直接竞争评估这些模型,并在年底前发布商业工具的公共排名。
参与的医疗系统表示,直接比较AI产品已经迫在眉睫。尽管AI在医疗领域的应用迅速增加,但行业在评估质量方面进展缓慢。行业组织曾尝试推出评估框架,但指南仍处于草案阶段。没有标准化的评估指标,即使是相似的工具也难以进行比较,威斯康星大学医学院和公共卫生学院放射学副教授兼信息学副主席理查德·布鲁斯(Richard Bruce)表示:“目前,除了用户的调查和轶事外,工具之间没有直接的基准对比。没有一种简单的方法可以进行一对一的比较。”
目前,埃默里医疗保健(Emory Healthcare)、威斯康星大学医学院和公共卫生学院的放射科、华盛顿大学医学院的放射科以及行业组织美国放射学会(American College of Radiology)正在参与该合作项目。马萨诸塞综合医院布里格姆(MGB)表示,他们计划扩大该项目。
据MGB发言人称,医疗系统将首先测试九个模型,包括来自微软、谷歌、亚马逊网络服务、OpenAI和Harrison.AI的产品。临床医生将根据报告生成、关键发现、鉴别诊断等因素评估这些模型。布鲁斯表示,评估模型的指标正在不断发展,可能取决于工具的具体临床用途。例如,虽然模型准确性始终非常重要,但在某些情况下,如用于生成文本报告时,可读性可能更为重要。
“有些指标将非常主观,”布鲁斯说,“例如,我是否觉得这种文本呈现方式更容易阅读或更易于患者理解?”
最终,医疗系统将创建一个“排行榜”,据华盛顿大学放射学系教授兼主任杜尚特·萨哈尼(Dushyant Sahani)表示,排行榜将用于向技术公司提供反馈,并帮助医疗系统选购技术。未直接参与挑战的医疗系统也可以使用这些排名来决定购买哪些工具,萨哈尼认为这有助于实现医疗公平。
在实施AI的竞争中,专家们担心资源较少的小型医疗服务提供者可能因缺乏研究新工具的时间而被甩在后面。“医疗系统可以利用透明的排名来指导决策并建立基准标准,”萨哈尼说,“联盟的见解和最佳实践可以被非参与的医疗系统采用。”
谷歌和微软拒绝就本文发表评论。
(全文结束)

