Med-PaLM：面向医疗领域的专业语言模型 - AI与医疗健康

Med-PaLM

谷歌研究团队开发的面向医疗领域的大规模语言模型。

引言

Med-PaLM是一款大型语言模型(LLM)，专为提供高质量的医疗问题解答而设计。我们的第二代版本Med-PaLM 2是MedLM系列模型之一——MedLM是一组针对医疗保健行业微调的基础模型。MedLM现已向谷歌云客户提供，这些客户正在探索从基础任务到复杂工作流程的各种应用。

Med-PaLM利用了谷歌大型语言模型的力量，我们已将其与医疗领域对齐，并使用医学考试、医学研究和消费者查询进行评估。我们的Med-PaLM第一版于2022年底预印，并于2023年7月发表在《自然》杂志上，它是首个在美国医师执照考试(USMLE)风格问题中超过及格线（>60%）的人工智能系统。根据医师和用户专家组的评判，Med-PaLM还能为消费者健康问题生成准确、有帮助的长篇回答。

我们于2023年3月在谷歌健康年度活动"The Check Up"上推出了Med-PaLM 2。Med-PaLM 2是首个在回答USMLE风格问题方面达到人类专家水平的模型。根据医师们的反馈，该模型对消费者医疗问题的长篇回答有了显著改进。

在研究中，Med-PaLM 2在MedQA医学考试基准测试中达到了86.5%的准确率。

由于医学本质上是多模态的，我们还推出了Med-PaLM的多模态版本研究，称为Med-PaLM M。我们还在探索多种其他技术，以构建能够整合来自广泛数据模态信息的医疗AI系统。

医疗问答：人工智能的重大挑战

过去十年中，人工智能的进步使其在医疗保健和医学领域发挥越来越重要的作用。诸如Transformer等突破性技术使大型语言模型（如PaLM）和其他大型模型能够扩展到数十亿参数，让生成式AI超越早期AI有限的模式识别能力，进入从语音到科学建模等新型内容创作领域。

开发能够准确回答医疗问题的人工智能一直是长期挑战，过去几十年有多项研究进展。尽管主题广泛，但回答USMLE风格问题最近已成为评估医疗问答性能的流行基准。

准确回答问题需要读者理解症状、检查患者的检测结果、对可能的诊断进行复杂推理，并最终选择最合适的疾病、检测或治疗方法。简而言之，要做好这一点，需要结合医学理解、知识检索和推理能力。临床医生需要多年的培训才能准确一致地回答这些问题。

大型语言模型的生成能力也使其能够为消费者医疗问题生成长篇回答。然而，确保模型响应准确、安全且有帮助一直是关键的研究挑战，尤其是在这个安全性至关重要的领域。

在一项配对研究中，Med-PaLM 2的回答在九个评估维度中的八个优于医生回答。

评估回答质量

我们使用名为"MultiMedQA"的基准测试评估了Med-PaLM和Med-PaLM 2，该基准测试结合了七个涵盖专业医学考试、医学研究和消费者查询的问答数据集。Med-PaLM是首个在MedQA数据集的USMLE风格问题中获得及格分数的人工智能系统，准确率为67.6%。Med-PaLM 2进一步提升了这一表现，达到了86.5%的最先进性能。

重要的是，在这项工作中，我们超越了多项选择题的准确性，以衡量和改进医疗问答模型的能力。我们的模型长篇回答针对多个标准进行了测试——包括科学事实性、精确性、医学共识、推理、偏见和可能危害的可能性——这些由来自不同背景和国家的临床医生和非临床医生进行评估。Med-PaLM和Med-PaLM 2在三个消费者医疗问题数据集上表现令人鼓舞。在一项配对研究中，Med-PaLM 2的回答在九个评估维度中的八个优于医生回答。

查看Med-PaLM 2如何回答医疗问题

*仅作示例。Med-PaLM 2目前正在评估中，以确保安全负责的使用。

查看Med-PaLM 2如何回答医疗问题

*仅作示例。Med-PaLM 2目前正在评估中，以确保安全负责的使用。

将Med-PaLM 2扩展到语言之外

医学实践本质上是多模态的，包含来自图像、电子健康记录、传感器、可穿戴设备、基因组学等的信息。我们相信，利用自监督学习大规模利用这些数据的AI系统，同时谨慎考虑隐私、安全和医疗公平性，将成为下一代医疗AI系统的基础，将世界级医疗保健扩展到每个人。

基于"PaLM-E"视觉语言模型，我们设计了Med-PaLM的多模态版本，称为Med-PaLM M。该系统可以综合和传达来自胸部X光、乳房X光等图像的信息，帮助医生提供更好的患者护理。除了语言外，范围还包括多种模态：皮肤科、视网膜、放射科（3D和2D）、病理学、健康记录和基因组学。我们很期待探索这项技术如何在未来使临床医生受益。

*仅作示例。此图像反映了对Med-PaLM M未来能力的早期探索。

局限性

虽然Med-PaLM 2在多项多项选择医疗问答基准测试中达到了最先进性能，并且我们的人类评估显示其回答在多个临床重要维度上优于医生回答，但我们知道还需要做更多工作，以确保这些模型能够安全有效地部署。

需要仔细考虑这项技术的伦理部署，包括在不同临床环境中进行严格的质量评估，并设置防护措施以减轻风险。例如，使用LLM诊断或治疗疾病可能带来的危害，远大于使用LLM获取疾病或药物信息。需要进一步研究以评估医疗保健中使用的LLM是否存在同质化和放大来自基础模型的偏见和安全漏洞。

我们在Med-PaLM和Med-PaLM 2论文中深入探讨了许多重要研究领域。

媒体报道

文章

《家用AI聊天机器人能诊断医疗状况吗？效果如何？》《科学美国人》

文章

《谷歌正在开发其医疗AI的更新版本，可回答健康问题》CNBC

文章

《谷歌AI在美国医师执照考试中达到"专家"水平》《Med Page Today》

文章

《谷歌AI在回答医疗和健康问题方面表现最佳》《新科学家》

文章

《生物伦理学家和医学教授谈医疗保健中AI的监管》《经济学人》

文章

《AI医生即将来临？》《Advisory Board》

文章

《谷歌将允许医疗保健客户测试其生成式AI模型，加剧与GPT-4的竞争》《STAT》

文章

《谷歌将提供有限访问医疗LLM》《Mobi Health News》

文章

《科技领袖如何在医疗保健AI之战中竞争》《福布斯》

博客

《MedLM：为医疗保健行业微调的生成式AI》《谷歌云博客》

致谢

Med-PaLM研究：

Karan Singhal*，Shekoofeh Azizi*，Tao Tu*，S. Sara Mahdavi，Jason Wei，Hyung Won Chung，Nathan Scales，Ajay Tanwani，Heather Cole-Lewis，Stephen Pfohl，Perry Payne，Martin Seneviratne，Paul Gamble，Chris Kelly，Abubakr Babiker，Yu-Han Liu，Nathanael Schärli，Aakanksha Chowdhery，Philip Mansfield，Dina Demner-Fushman，Blaise Agüera y Arcas，Dale Webster，Greg S. Corrado，Yossi Matias，Katherine Chou，Juraj Gottweis，Nenad Tomasev，Yun Liu，Alvin Rajkomar，Joelle Barral，Christopher Semturs，Alan Karthikesalingam**，和Vivek Natarajan**

Med-PaLM 2研究：

Karan Singhal*，Tao Tu*，Juraj Gottweis*，Rory Sayres*，Ellery Wulczyn，Le Hou，Kevin Clark，Stephen Pfohl，Heather Cole-Lewis，Darlene Neal，Mike Schaekermann，Amy Wang，Mohamed Amin，Sami Lachgar，Philip Mansfield，Sushant Prakash，Bradley Green，Ewa Dominowska，Blaise Aguera y Arcas，Nenad Tomasev，Yun Liu，Renee Wong，Christopher Semturs，S. Sara Mahdavi，Joelle Barral，Dale Webster，Greg S. Corrado，Yossi Matias，Shekoofeh Azizi**，Alan Karthikesalingam**，Vivek Natarajan**

Med-PaLM M研究：

Tao Tu*，Shekoofeh Azizi*，Danny Driess，Mike Schaekermann，Mohamed Amin，Pi-Chuan Chang，Andrew Carroll，Chuck Lau，Ryutaro Tanno，Ira Ktena，Basil Mustafa，Aakanksha Chowdhery，Yun Liu，Simon Kornblith，David Fleet，Philip Mansfield，Sushant Prakash，Renee Wong，Sunny Virmani，Christopher Semturs，S Sara Mahdavi，Bradley Green，Ewa Dominowska，Blaise Aguera y Arcas，Joelle Barral，Dale Webster，Greg S. Corrado，Yossi Matias，Karan Singhal，Pete Florence，Alan Karthikesalingam和Vivek Natarajan

- 等贡献

** - 等领导

额外贡献者：

Preeti Singh，Kavita Kulkarni，Jonas Kemp，Anna Iurchenko，Lauren Winer，Will Vaughan，Le Hou，Jimmy Hu，Yuan Liu，Jonathan Krause，John Guilyard，Divya Pandya。

我们感谢Michael Howell，Boris Babenko，Naama Hammel，Cameron Chen，Basil Mustafa，David Fleet，Douglas Eck，Simon Kornblith，Fayruz Kibria，Gordon Turner，Lisa Lehmann，Ivor Horn，Maggie Shiels，Shravya Shetty，Jukka Zitting，Evan Rappaport，Lucy Marples，Viknesh Sounderajah，Ali Connell，Jan Freyberg，Dave Steiner，Cian Hughes，Brett Hatfield，SiWai Man，Gary Parakkal，Sudhanshu Sharma，Megan Jones-Bell，Susan Thomas，Martin Ho，Sushant Prakash，Bradley Green，Ewa Dominowska，Frederick Liu，Kate Weber，Annisah Um'rani，Laura Culp和Xuezhi Wang在研究过程中提供的帮助、见解和反馈。

我们还要感谢Yossi Matias，Karen DeSalvo，Zoubin Ghahramani，James Manyika和Jeff Dean在整个项目中的支持。

【全文结束】