ChatGPT-4o与多模态大语言模型的医疗愿景The Healthcare Vision of ChatGPT-4o and Multimodal LLMs

环球医讯 / AI与医疗健康来源:www.linkedin.com美国 - 英文2025-07-09 23:57:26 - 阅读时长6分钟 - 2575字
本文探讨了多模态大语言模型(M-LLMs)在医疗领域的潜力,这些模型不仅能处理多种数据类型、打破语言障碍,还能连接不同医院系统,从而彻底改变未来医学实践的方式。
健康医疗人工智能多模态大语言模型ChatGPT-4oGemini医疗转型医学分析语言障碍医院系统互操作性
ChatGPT-4o与多模态大语言模型的医疗愿景

毫无疑问,医学的未来与人工智能(AI)的发展密不可分。尽管这一革命已经酝酿多年,但过去几个月标志着一个重大转变,因为算法终于走出了专业实验室,进入了我们的日常生活。

随着各大科技公司开始推出其多模态大语言模型,并承诺这些技术将很快向公众开放,这场革命进一步加速。最新的、也许是最重要的突破来自OpenAI发布的ChatGPT-4o。该模型被描述为“原生多模态”,谷歌的Gemini在发布时也声称具备这一特性。然而,虽然普通用户目前仍无法完全访问Gemini的多模态功能,但ChatGPT-4o的部分多模态能力已对免费账户开放,尽管使用范围有限。

那么我们是如何走到这一步的?为什么这一点如此重要?让我们回顾一下过去18个月的发展历程,并展望未来,以更好地理解其意义!

大型语言模型(LLMs)的公开亮相取得了巨大成功,例如ChatGPT成为史上增长最快的消费者应用程序。LLMs是一种基于海量文本数据训练的机器学习模型,能够根据所学的模式和结构生成类似人类的文本。它们在规模、能力和潜在影响方面与之前的深度学习方法有着显著差异。

大型语言模型很快将进入日常临床环境,这主要是因为全球医疗人员短缺问题日益严重,而AI可以协助完成那些不需要高技能医疗专业人员的任务。但在这一切发生之前,在建立足够健全的监管框架之前,我们已经看到这项新技术如何融入日常生活。

为了更好地理解未来趋势,让我们探索另一个将在医疗转型中发挥重要作用的关键概念:多模态性。

医生和护士是超级计算机,而医疗AI只是计算器

多模态系统可以同时处理和解释多种类型的数据输入,例如文本、图像、音频和视频。当前的医疗AI只能处理一种类型的数据,例如文本或X射线图像。

然而,医学本质上是多模态的,人类亦然。为了诊断和治疗患者,医疗专业人员需要倾听患者的描述、阅读他们的健康档案、查看医学影像并解读实验室结果。这是当今任何AI都无法做到的事情。

两者的区别可以比作跑步运动员与五项全能选手之间的差异。跑步运动员擅长单一领域,而五项全能选手必须在多个领域表现出色才能取得成功。

目前大多数大型语言模型(LLMs)都是单模态的,这意味着它们只能分析文本。GPT-4能够分析图像并在手机应用中理解语音指令,ChatGPT-4o同样如此。这些模型还可以生成图像。但其余的多模态功能尚未对普通用户开放。其他广泛使用的LLMs,如谷歌的Gemini或Claude AI,可以解释图像提示(例如图表),但还不能生成图像响应。与此同时,据报道,谷歌正在开发一系列医疗大语言模型,包括最新版本Med-Gemini。

从《医学未来学家》的角度来看,很显然具有完整功能的多模态大语言模型(M-LLMs)即将问世,否则AI将无法显著贡献于医学和护理的多模态本质。这些系统将大幅减轻——但不会取代——人类医疗专业人员的工作负担。

未来属于M-LLMs

M-LLMs的发展至少会产生三个重要后果:

1. AI将处理多种内容类型,从图像到音频

M-LLM能够处理和解释各种类型的内容,这对于医学中的全面分析至关重要。我们可以列举数百个此类系统的益处示例,但以下仅提及五个主要类别中的几个例子:

  • 文本分析:M-LLMs将能够处理大量行政、临床、教育和营销任务,从更新电子病历到解决案例研究。
  • 图像分析:这是一个潜在用例广泛的领域,涵盖从阅读手写笔记到分析放射学(眼科、神经科、病理学等)图像。
  • 声音分析:M-LLMs最终将能够在疾病监测中发挥作用,例如检查心脏和肺部异常声音以实现早期检测,但声音分析也可以为心理健康和康复应用提供宝贵信息。
  • 视频分析:先进的算法可以在虚拟现实手术培训中指导医学生如何精准瞄准、移动和进行操作,同时视频还可用于检测神经系统疾病或支持使用手语沟通的患者。
  • 复杂文档分析:这将包括文献综述和研究支持、临床决策的医疗指南分析以及临床编码等多种用途。

2. 打破语言障碍

这些M-LLMs将轻松促进讲不同语言的医疗服务提供者和患者之间的交流,实现实时翻译。正如我们已经通过ChatGPT-4o看到的实时翻译效果一样。消除语言障碍对于医疗预约的重要性显而易见。

专科医生:“请指出哪里疼痛?”

M-LLM(为患者翻译):“¿Puede señalar dónde le duele?”

患者指向下腹部。

M-LLM(为医生翻译):“患者指向下腹部。”

专科医生:“请用1到10的等级评估您的疼痛程度。”

M-LLM(为患者翻译):“En una escala del 1 al 10, ¿cómo calificaría su dolor?”

患者:“是8。”

M-LLM(为医生翻译):“是8。”

3. 实现互操作性,连接和协调各种医院系统

M-LLM可以作为中央枢纽,帮助访问医院中使用的各种单模态AI,例如放射科软件、保险处理软件、电子病历(EMR)等。当前的情况如下:

一家公司为放射科部门制造软件,其中使用的AI格式特定于其日常工作;另一家公司的算法则用于管理医院的电子病历;还有第三方供应商创建AI来编译保险报告。然而,医生通常只能访问与其领域严格相关的系统,例如放射科医生可以访问放射科AI,但心脏病专家却不能。当然,这些算法之间也无法相互通信。如果心内科使用的算法能分析心脏和肺部体征,胃肠科医生或精神科医生很可能无法访问它——即使这些发现对其诊断也可能有帮助。

当M-LLMs最终能够理解所有这些软件的语言和格式,并帮助人们与之交互时,这将是一个重要的里程碑。届时,普通医生将能够轻松使用放射科AI软件、管理EMR的AI软件,以及医院中使用的第四种、第八种(等等)AI工具。

这种潜力非常重要,因为这样的突破不可能通过其他方式实现。没有任何一家公司能够开发出这样的软件,因为他们无法获得个别公司开发的AI数据。然而,M-LLM可以单独与这些系统通信,并作为一个中央枢纽,为医生提供极其重要的工具。

从单模态到多模态AI的过渡是充分释放AI在医学中潜力的必要步骤。通过开发能够处理多种内容类型、打破语言障碍并促进访问其他AI应用的M-LLMs,我们将彻底改变医学实践的方式。从计算器到媲美我们称为“医生”的超级计算机的旅程充满挑战,但这是一场正在我们眼前发生的革命。


(全文结束)

大健康

猜你喜欢

  • 爱丁堡研究机构获360万英镑资助用于人工智能健康项目爱丁堡研究机构获360万英镑资助用于人工智能健康项目
  • 新型人工智能模型在临床发病前检测1型糖尿病风险新型人工智能模型在临床发病前检测1型糖尿病风险
  • Aidoc发布BRIDGE:指导安全、可扩展临床AI部署的全新行业框架Aidoc发布BRIDGE:指导安全、可扩展临床AI部署的全新行业框架
  • HSS在EULAR 2025年大会上利用AI模型根据健康社会决定因素预测患有红斑狼疮的孕妇再入院情况HSS在EULAR 2025年大会上利用AI模型根据健康社会决定因素预测患有红斑狼疮的孕妇再入院情况
  • 东北部正利用人工智能塑造NHS的未来东北部正利用人工智能塑造NHS的未来
  • 尿液分析市场至2033年的规模、需求与主要份额尿液分析市场至2033年的规模、需求与主要份额
  • 推出图片库以解决医疗保健领域缺乏多样化摄影的问题推出图片库以解决医疗保健领域缺乏多样化摄影的问题
  • 全球精准医疗领域的人工智能市场预计到2032年将实现约33%的显著增长 | DelveInsight全球精准医疗领域的人工智能市场预计到2032年将实现约33%的显著增长 | DelveInsight
  • 到2030年,人工智能在远程患者监测(RPM)市场价值将达到84.385亿美元,复合年增长率为27.5% | MarketsandMarkets™到2030年,人工智能在远程患者监测(RPM)市场价值将达到84.385亿美元,复合年增长率为27.5% | MarketsandMarkets™
  • MHRA的AI医疗创新支持计划获100万英镑资金推动MHRA的AI医疗创新支持计划获100万英镑资金推动
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康