AI工具在医学中的应用：“大致方向正确，但缺乏细节” - AI与医疗健康

AI工具在医学中的应用：“大致方向正确，但缺乏细节”AI tools for physicians, researchers: ‘Right ballpark,’ but low on ‘nitty gritty details’

环球医讯 / AI与医疗健康来源：www.healio.com美国 - 英语2025-05-29 22:00:00 - 阅读时长6分钟 - 2866字

本文讨论了OpenEvidence和ChatGPT-4o等AI工具在医学研究和患者管理中的优缺点，并探讨了未来十年这些工具可能的发展方向。

随着新一代医疗数据聚合器使用AI提供一种不同的界面，PubMed或许将被取代。这些工具可能为获取医疗信息的未来提供了新的方式。

Healio采访了华盛顿大学圣路易斯分校的MD/PhD候选人John Michael Warrington，讨论了这些产品的一些优缺点，它们作为新一代医疗保健提供者的临床和教育工具的意义，以及未来十年及以后AI在医学和研究中的前景。

Healio: OpenEvidence在“对话”方面有多用户友好？它理解和回应您所说内容的能力如何？它的优点和缺点是什么？

Warrington: 用户界面并不好。在我搜索时，出现了许多关于OpenEvidence其他服务的广告。然而，它确实链接到了真实的文章，这是一个改进。一个缺点是它引用的论文往往非常过时或不相关。这可能是由于大型期刊设置的付费墙造成的。例如，当我询问有关将细胞疗法转移到试验中的监管指导时，它并没有提到任何现有的FDA文件。我不确定这里的确切训练数据是什么，但它可能无法访问这些文件。搜索来源、综合信息需要一段时间，然后答案很简短，包含了一些不一定正确的内容。

Healio: 你问了哪些类型的问题？

Warrington: 我问了各种关于CAR T细胞疗法和启动临床试验的问题，以及关于新药后一周出现药物诱发的阵发性夜间呼吸困难的问题。它立即诊断为心力衰竭，而不是任何医生都能识别的药物副作用。即使我纠正了它，它仍然说心力衰竭是最可能的原因，并建议按此进行处理。这是基于一个真实患者的错误。

Healio: ChatGPT-4o对同样的问题生成了什么？

Warrington: 我使用了ChatGPT-4o的付费版本。响应是即时的。答案布局非常清晰，分为几个小节，尽管它没有引用任何来源，但它指出了我需要填写的正确FDA表格的名称。一个缺点是缺乏引用，尽管如果你要求它“搜索网络”，它可以并会给出引用，尽管通常不是医学参考文献。对于阵发性夜间呼吸困难的问题，它也错误地进行了初步检查并诊断为心力衰竭。然而，在纠正它之后，它给出了一个详细的计划来调整剂量或停止或更换药物。

Healio: 你对这两种工具在研究或患者管理方面的评估是什么？

Warrington: 这两种工具作为研究工具表现不错，但在患者管理方面并不出色。来自任何大型语言模型（LLM）系统的响应必须谨慎对待，因为它们可能会产生幻觉。幻觉是这些系统的一个特征，而不是一个错误，因此很难在任何LLM或生成式AI中解决这些限制。此外，很多医学实践是从患者互动和所有历史互动的总和中学到的——即病史的艺术。在这种情况下，LLM目前的形式不能提出跟进问题，如果您的提示不够明确，它会直接跳到诊断或行动计划，这可能是完全错误的。这是LLM在医学中的最大问题。

Healio: 你如何评价所提供信息和数据的可靠性和可信度？

Warrington: OpenEvidence在引用一般相关论文方面做得相当好。然而，这些论文通常不是最具影响力或最相关的。通常引用的论文并不是该领域思想的核心论文。对于ChatGPT-4o，这个网站不会引用论文。当它引用某些东西时，通常是网站。

Healio: 更专注于医学的工具（如OpenEvidence和ScopusAI）提供的信息是否比那些非专门用于医学环境的工具（如Google、OpenAI和ChatGPT）更准确或可靠？

Warrington: OpenEvidence肯定提供了更好的引用材料。根据我之前的经验，ChatGPT和Google Gemini经常会引用不适当的来源，而OpenEvidence主要引用研究论文。然而，这些研究论文通常不是我在写关于某个主题时会引用的论文，很多时候只是与查询相似，因此被引用了。但这是一个可以解决的问题，很可能是因为受限于顶级期刊文章的付费墙。

Healio: 对于这些网站的创建者和开发者，你有什么建议？

Warrington: 对于OpenEvidence，解决引用无关或低影响论文的一个潜在方法是对用于训练的各种数据的重要性进行排名。例如，使用UpToDate进行微调会使响应更接近医生日常使用的资源。这样，他们可以以某种方式对随时间引用的数据进行排名，但这有一个缺点，即较新的论文——尤其是那些改变临床实践的论文——可能会被忽视。这是一个非常困难的问题。我还与OpenAI合作过。如果他们对医学领域进行微调，这将是变革性的。总的来说，这是最好的模型，也是我日常使用的模型，经常在4o和o3-mini-high之间切换，用于推理和编码。OpenEvidence在短期内对OpenAI有优势，因为他们与《新英格兰医学杂志》达成了协议，使用他们的文章进行训练，但从长远来看，我会把赌注押在最大的模型上。目前，这些模型来自OpenAI、Google、Anthropic和X.AI的实验室。

Healio: 你认为生成式AI和LLM是医疗提供者的前进方向吗？未来的医学生和执业医师是否会通过这种方式获取信息？

Warrington: 目前，它们更像是学习工具，而不是实际的诊断工具。如果你对某个主题一无所知，它们可以让你非常接近真相，但如果你想了解具体细节，你还是需要自己去查找和阅读文章。这些工具能让你大致了解信息的方向，而这往往是很难知道的。LLM已经开始在医学和研究培训中显示出其价值，帮助学生学习和推理案例。

Healio: 这些产品的使用有多普遍？

Warrington: 根据我的经验，还没有广泛采用。目前，我没有看到医生使用这些模型来辅助诊断，但现在的状态已经是这些模型最糟糕的时候了，而且它们仍然相当不错。五年后，这些模型将呈指数级改善，并且很可能被许多临床医生用来写笔记和诊断。

Healio: 你能为这些工具的普及设定一个时间表吗？

Warrington: 在短期内——也许10年左右——AI将首先对农村社区和医疗资源有限的社区产生影响。你可以训练护士、NPs和PAs来进行病史采集和体检，同时AI在后台记录，然后提示提供者提出某些问题以排除“罕见”诊断和其他可能致命的条件。然后，对话会被转录，生成一份清晰简洁的笔记，发送给远程医生，由远程医生从AI生成的一组选择中选择正确的行动方案。这样，医生最终做出决定，而农村地区的患者可以快速获得顶级医疗服务。最终，数据将显示这些模型在诊断方面优于人类。这实际上只是模式识别，计算机永远不会像人类那样疲劳。这将成为所有医疗保健的模式。

Healio: 你对使用AI工具进行医学研究和患者管理还有哪些担忧？

Warrington: 目前，幻觉率太高，无法单独信任AI机器人。在医学中，有很多边缘情况是它们会错过的。然而，随着时间的推移，这种比率会下降，机器人将比人类更好。对于背景研究，我唯一的担忧是人们盲目信任AI。它所说的每一件事都应该在合理范围内验证其有效性，因为它可能是错误的。但对于寻找正确信息的路径，它确实非常出色。

(全文结束)