哪种AI聊天机器人能最准确地评估癌症病例?Which AI Chatbot Can Assess Cancer Cases Most Accurately?

环球医讯 / AI与医疗健康来源:www.cancertherapyadvisor.com美国 - 英语2024-10-24 00:00:00 - 阅读时长3分钟 - 1282字
研究发现,多模态AI聊天机器人在评估癌症病例方面的准确性并不优于单模态聊天机器人,但仍需进一步研究以优化其医学准确性和可靠性。
AI聊天机器人癌症病例评估多模态单模态准确性JAMANetworkOpen临床肿瘤学
哪种AI聊天机器人能最准确地评估癌症病例?

据《JAMA Network Open》上发表的一项研究,多模态人工智能(AI)聊天机器人在评估癌症病例方面并不比单模态聊天机器人更准确。研究人员假设,多模态聊天机器人能够处理复杂的医疗图像和基于文本的信息,因此在回答有关癌症病例的问题时会优于仅处理文本的单模态聊天机器人。

研究人员评估了10个聊天机器人对79个癌症病例问题的回答准确性,其中包括提供的图像。这3个多模态聊天机器人分别是ChatGPT-4 Vision、Claude-3 Sonnet Vision和Gemini Vision。7个单模态聊天机器人分别是ChatGPT-3.5、ChatGPT-4、Claude-2.1、Claude-3 Sonnet、Gemini、Llama2和Mistral Large。

对于选择题,最准确的聊天机器人是Mistral Large,正确回答了72.15%的问题。Claude-3 Sonnet Vision紧随其后,正确率为70.89%,ChatGPT-4的正确率为68.35%。大多数不准确的回答是简单的错误(89.0%),但在某些情况下,聊天机器人拒绝回答,有的没有给出理由(7.14%),有的给出了理由(3.87%)。

总体而言,聊天机器人在回答诊断选择题时的准确性显著高于回答临床管理选择题时的准确性。然而,在自由文本回答中,诊断和管理问题的准确性没有显著差异。提供最准确自由文本回答的聊天机器人是ChatGPT-4、Claude-3 Sonnet和Claude-3 Sonnet Vision(三者正确率均为37.97%)。其次是Mistral Large(36.71%)、Gemini(31.65%)和Gemini Vision(31.65%)。大多数不准确的自由文本回答是错误的(90.0%),但聊天机器人偶尔也会因有理由(8.19%)或无理由(1.86%)而拒绝回答。

“在这项针对临床肿瘤学病例的聊天机器人准确性的横断面研究中,多模态聊天机器人的准确性并不始终优于单模态聊天机器人,”研究人员总结道。“这些结果表明,需要进一步研究以优化多模态聊天机器人,使其更好地利用图像信息,提高肿瘤学特定的医学准确性和可靠性。”

该研究部分得到了加拿大放射肿瘤学协会加拿大放射肿瘤学基金会Pamela Catton暑期学生奖学金和Robert L. Tundermann及Christine E. Couturier慈善基金的支持。一位研究作者披露了利益冲突。详情请参阅原始参考文献。

参考资料:

Chen D, Huang RS, Jomy J, et al. Performance of multimodal artificial intelligence chatbots evaluated on clinical oncology cases. JAMA Netw Open. Published online October 23, 2024. doi:10.1001/jamanetworkopen.2024.37711


(全文结束)

大健康

猜你喜欢

  • AI应用Soula旨在改善孕妇的医疗保健AI应用Soula旨在改善孕妇的医疗保健
  • AI模型在诊断感染性角膜炎方面与眼科医生相当AI模型在诊断感染性角膜炎方面与眼科医生相当
  • Artera获得加州许可,推出基于AI的前列腺癌检测Artera获得加州许可,推出基于AI的前列腺癌检测
  • Zoom将使用AI医疗记录员进行远程医疗服务Zoom将使用AI医疗记录员进行远程医疗服务
  • AI 应用 Soula 致力于改善孕妇的医疗保健AI 应用 Soula 致力于改善孕妇的医疗保健
  • AI Wellness 在整合肿瘤学国际会议上推出由AI驱动的健康平台AI Wellness 在整合肿瘤学国际会议上推出由AI驱动的健康平台
  • AI系统革新试管婴儿胚胎评估AI系统革新试管婴儿胚胎评估
  • 利用AI预测紧急住院情况利用AI预测紧急住院情况
  • AI应用程序Soula旨在改善孕妇的医疗保健获取AI应用程序Soula旨在改善孕妇的医疗保健获取
  • AI生成的患者门户消息获得褒贬不一的评价AI生成的患者门户消息获得褒贬不一的评价
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康