随着人工智能(AI)及其赋能技术的出现,每位专科医生的患者都可以获得无限的医疗顾问,这些顾问通过ChatGPT(OpenAI)、Meta AI(Meta)、Google Gemini(前身为Bard,Alphabet)、Microsoft Copilot(前身为Bing Chat,Microsoft)和Grok(xAI)的循环神经网络进行筛选,并即时提供。任何使用过这些自动程序的人都可以看到它们通过以简单、对话式风格提供深入研究的答案而带来的好处。
对用户而言,感觉就像是在与一位伟大而强大的巫师交谈。但就像文学和电影中一些著名的"伟大而强大"的巫师一样,这些聊天机器人的背后公司希望你不要窥视幕布后面。因为在那里,你会发现它们的知识并非来自精选的资料汇编,而是仅仅来自互联网上发布的人类集体知识。互联网。社交媒体虚假信息的家园,冒充医生的网站,留言板,网络喷子等。所有这些都被扔进了汤里。
这引发了关于聊天机器人可信度的问题。我们是否还记得2024年著名的AI推荐在披萨上涂胶水的丑闻?在AI领域,事实错误通常被称为"幻觉"。虽然我们可能愿意在食谱或送礼建议等信息上冒险,但我们真的能依靠它为患者提供医疗指导吗?
无论临床医生是否信任它,他们都必须面对这样一个事实:在患者的耳边有第二个意见。为了在这个新的AI时代中取得成功,眼科医生的成功可能取决于他们是否能够学会与这些机器人合作。
补充而非替代
"类似于互联网(或WebMD等资源),聊天机器人和其他人工智能工具将被使用,无论是否被推荐,"美国领先的护眼健康和安全非营利组织防盲基金会(Prevent Blindness)的总裁兼首席执行官杰夫·托德(Jeff Todd)说。"虽然这些工具有时可以提供一般性教育,但它们绝不应被视为对合格眼科专业人员提供的直接医疗建议、诊断或治疗的替代品。"
但考虑到AI驱动的聊天机器人可以带来的所有好处,建议患者完全避开(或者期望他们即使你要求也会避开)是不合理的。对于外行来说——也许被医生复杂的医学术语所困扰——转向AI聊天机器人来澄清、管理、监控和更好地理解自己的健康是非常诱人的。虽然眼科领域的AI聊天机器人无法提供训练有素的人类临床医生那样全面、个性化的护理,但它们确实有可能为患者提供有价值的医疗信息。
"我们也承认,从iPhone到AI的不断发展的技术,已经在帮助视力受损或失明的人过上更加活跃、独立的生活,理想情况下有视力康复专家的支持。无论是用于教育目的还是辅助技术,我们鼓励公众依靠可信的教育资源和经过验证的技术,并始终与他们的眼部健康提供者讨论他们所学到的知识,"托德先生表示。"在许多情况下,尤其是眼疾方面,早期发现和治疗提供了获得积极结果的最佳机会。这就是为什么寻求能够准确定位问题并制定独特治疗计划以帮助预防不必要的视力丧失的熟练专业人员的护理仍然至关重要。"
AI聊天机器人已在为眼科患者提供建议
"据我所知,许多患者已经在使用聊天机器人咨询眼部护理问题,特别是关于'轻微'问题,如眼睛发痒和眼睛刺激,"加州大学圣地亚哥分校眼科信息学和数据科学部副主任、医学博士莎莉·巴克斯特(Sally Baxter)说。"我甚至有患者来到诊所直接说,'ChatGPT告诉我应该使用这种药物来治疗眼睛发痒——你怎么看?'"
自2022年ChatGPT(OpenAI)发布以来,聊天机器人的使用率已翻了一番多,约33%的美国人仅在过去3个月内就使用了该技术。那些发现AI驱动的聊天机器人的人,被这个看似按需获取事实的系统所吸引。随着最年轻的婴儿潮一代现在已进入60多岁,近20%的这一代人使用聊天机器人,它不可避免地会被要求处理各种与年龄相关的医疗问题。
"考虑到ChatGPT日益增长的趋势和日益普及,人们很可能会依赖它来提出与眼科相关的问题,特别是在化学物质引起的紧急眼部损伤等情况下,"发表在《医学互联网研究形成性研究杂志》的一份报告称。"ChatGPT的回复相当快,让人们可以快速获取信息——在某些情况下,这种速度在需要快速参考资料的紧急情况下可能是至关重要的。"
而这只是冰山一角。年轻患者以更高的比率使用这些技术。它们融入日常生活的趋势是不可避免的——就像智能手机和互联网在之前的几十年中一样。"无论这些工具是否得到医疗保健提供者的正式认可,患者都可能转向这些聊天机器人寻求医疗建议,因为他们已经在网上搜索医疗建议,"2025年8月的一项研究称。"虽然基于大语言模型(LLM)的系统并非旨在取代人类眼科医生,但未来可能会有它们增强眼科医生的工作并在适当监督下为患者教育提供支持的情况。"
事实上,最近的一项研究表明,患者可能实际上更愿意与这些设备分享他们的病史,他们可能认为这些设备"不带评判且情绪中立"。几份研究报告显示,患者"明确表示,与人类提供者相比,他们向聊天机器人透露污名化行为(如吸烟或饮酒)时感觉更自在。"
未来很明确:你将与聊天机器人共同管理患者。而且这并非没有风险。"我认为危险在于,如果患者将一些非常现成的、用于一般任务的东西应用到非常具体的情况中,"斯坦福大学拜尔斯眼科研究所(Byers Eye Institute)的索菲亚·英格·王(Sophia Ying Wang)博士说。虽然这可能看起来很直观,但学术文献中可获得的许多研究——包括王博士自己撰写的一项研究——得出了临床医生可能感到惊讶的结论:在许多情况下,聊天机器人似乎能够以高度准确性回答有关眼部健康的问题,通常与人类临床医生相匹配。
聊天机器人在临床试验中的表现
自ChatGPT发布以来的几年中,大量期刊文章探讨了它们在解决患者需求方面的使用。患者正在向聊天机器人提问"我有干眼症吗?""什么是干眼症?"
患者可能会带着从聊天机器人交互中收集的信息进来,因此临床医生可能需要解释,干眼症诊断需要全面的临床检查,因为仅凭症状并不总是可靠的。这也提供了一个机会,告知患者生活方式因素和风险暴露可能导致干眼症。临床医生可能能够利用这些对话向患者教育关于年龄、隐形眼镜佩戴、近距离工作、饮酒和户外活动等因素如何导致干眼症状和体征。
报告显示,ChatGPT(OpenAI的GPT-3.5版本)在回答患者关于青光眼的问题方面具有能力,专家认为70.8%的问题-答案对是适当的,根据发表在《医学前沿》上的一项研究。这项研究是首批专门针对青光眼症状研究大语言模型使用的报告之一。与文献中其他使用标准化考试问题的论文相比,这项研究特别努力为大语言模型制定"现实世界"的问题。
然而,报告称,大语言模型在青光眼中的使用仍处于起步阶段,需要进一步研究和验证。
一项关于AI聊天机器人的调查显示,ChatGPT-4、Gemini(当时称为Bard)和Microsoft Copilot(当时称为Bing Chat)在提供青光眼相关信息方面表现出不同程度的准确性和全面性。Bing(Microsoft Copilot)和ChatGPT提供的信息比单独的网站搜索更准确,而Bard的准确性明显低于其他AI聊天机器人。然而,美国眼科学会的小册子信息仍然是最准确的来源。
在该研究中,63%的ChatGPT回答、90%的Bing回答和26%的Bard回答被评为76%-100%准确。"ChatGPT回答中存在有害不准确性的现象已在眼科和其他医学领域的几项研究中得到证实,"研究作者称。"为了最小化这种潜在危险,医生应该询问患者问题,提供详细的患者指示,并鼓励患者在做出任何医疗决定之前与医生交谈。"
ChatGPT-4还在生成对一系列糖尿病视网膜病变(DR)问题的适当回答方面表现出高水平的准确性,视网膜专家对回答适当性的共识率为96.8%,根据发表在《印度眼科杂志》上的一项横断面研究。该研究还揭示了专家对AI生成回答完整性的稳健共识。
然而,也注意到了一些不准确之处,特别是关于激光光凝疗法的不良反应和治疗依从性。该研究承认存在局限性,如问题集较小和潜在偏见。
聊天机器人对眼科患者有多可靠?
在一项探索AI在科学写作中作用的比较评估中,ChatGPT-4在撰写全文原创论文的引言方面,在语言质量、数据安排和事实准确性方面表现可与经验丰富的眼科医生相媲美。在近一半的论文中,很难区分由ChatGPT编写的内容和由专家眼科医生生成的内容。
AI聊天机器人生成了平均质量的眼科科学摘要,但平均幻觉率在29%至33%之间,根据发表在《美国医学会眼科杂志》上的一项横断面比较研究。该报告强调,聊天机器人生成的内容必须经过审查和验证。
一项调查比较了A-Eye Consult、ChatGPT-4.0、Google Gemini和Copilot在回答眼内炎问题方面的准确性、可靠性和可读性。A-Eye Consult在可靠性方面得分最高,其次是ChatGPT-4.0。Google Gemini和Copilot的可靠性较低,但仍然可以接受。Google Gemini的回答最容易阅读,而A-Eye Consult的回答更复杂,但非常准确。
尽管A-Eye Consult和Open Evidence AI等技术目前是为协助临床医生而非患者而设计的,但这些发现可能为AI在传达医疗数据细微差别方面的普遍适用性提供相关见解。
最近的研究表明,各种GPT模型在生成专业领域的响应方面表现出令人满意的能力,如验光和视觉科学。早期的ChatGPT模型(GPT-3.5和GPT-4)在回答验光和视觉科学问题方面表现参差不齐,但总体上可以接受。然而,2025年7月的一份报告显示,较新的ChatGPT模型(o1)在所有问题类型上都表现出色。
另一项最近的研究使用近7000个眼科问题评估了OpenAI的o1模型,发现它在几种大语言模型中表现出最高的准确性。然而,GPT-4o和GPT-4在推理能力方面优于o1。
尽管如此,误用的潜在风险仍然存在。"眼科医生应告知患者,聊天机器人并非总是能够获取围绕专业眼科护理问题的所有可用信息,它们无法亲自检查患者并了解他们特定的眼部检查情况,并且它们仍然容易产生'幻觉'或凭空编造虚假信息,"巴克斯特博士说。"因此,我们仍然不能依赖聊天机器人的回答作为真正的临床指导,因此,最佳的教育和个性化指导来源仍然是人类眼科护理提供者。"
对AI和偏见的担忧
直观上可能会认为,由于聊天机器人是在人类知识上训练的,而人类容易受到各种偏好(种族、性别、富裕程度等)的影响,AI可能已经继承了我们的一些坏习惯。
但这些机器可能有另一种偏见,一种有利于用户的偏见,因为聊天机器人看待用户的方式。"有很多文章讨论聊天机器人如何有点谄媚。它们倾向于同意并强化用户的意见,如果你告诉它'我不同意'或'我想知道这是否真的正确',它会试图找到一种方式来同意你,"王博士解释道。
在她的研究中,王博士和她的团队遇到了一个典型的例子。一位患者问聊天机器人"我哥哥接受了白内障手术和晶状体置换,他的眼睛大小缩小了。有办法解决这个问题吗?"聊天机器人的取悦客户本能启动了,确认了患者关于白内障手术会减小眼睛大小的错误信念。她的团队指出,正确的回答应该描述白内障手术后上睑下垂的风险,这可能看起来使眼睛变小。同一项研究发现聊天机器人声称(错误地)后玻璃体脱离可以改变患者的散光或需要更新眼镜处方。王博士解释说,人类医生会立即发现这个错误并适当指导患者。然而,"当你在与AI聊天时,AI不一定拥有所有[医学]背景。因此,它可能会给出不适合你的建议。"
至于那些聊天机器人可能继承的人类偏见,开发人员正在评估应对它们的方法。"人们担心AI可能会进一步放大偏见,也无法识别存在的偏见,"王博士解释道。"我们在医学院做的一件事就是学习不同类型的偏见,以便我们能够更好地识别偏见并减少其对我们患者沟通和患者护理的影响。AI可以采用类似的策略,有目的地更好地训练它来识别偏见,随后试图减轻其回答中的偏见。幸运的是,有许多研究人员和开发人员认识到偏见是AI开发中的关键问题,并正在研究开发这些工具的方法。"
考虑到王博士的观点,2025年3月发表在《NPJ数字医学》上的一项研究回顾了近100篇同行评审文章,并评估了AI医疗保健建模中常见的偏见类型。研究人员提供了可用于患者护理中任何AI使用的偏见缓解策略。
考虑到这一点,同样有效的问题是,AI聊天机器人是否可能减少而非加剧眼科护理中的健康差异。"我认为两种可能性都存在。一方面,聊天机器人可以帮助为可能面临获取眼科护理提供者重大障碍的人提供教育或指导,例如农村地区的人。聊天机器人还使将眼科护理信息翻译成多种语言和不同健康素养水平变得容易,这可以使教育信息对更广泛的患者群体更具可及性和亲和力,"王博士说。
"然而,AI聊天机器人也需要互联网连接和一定程度的计算资源才能访问。某些国家可能有AI聊天机器人而其他国家没有,这可能是由于许可限制或其他监管要求,这意味着拥有更好AI基础设施的国家的人可能比那些基础设施较差的人受益更多。这是所谓的'数字鸿沟'的延伸,可能会加剧健康差异,"她补充道。
未来方向
虽然显示聊天机器人准确性的数据可能让一些人放心,但目前许多AI选项都是在包括虚假信息、网络喷子和许多其他令人担忧的来源在内的互联网数据上训练的,这是不争的事实。这引发了一个问题,不应该有一个更好的、经过策划的AI聊天机器人,让患者能够获取经过验证的健康信息吗?
"它们由互联网上的数据训练,但可能无法访问专门的医疗数据,这些数据可能无法公开获取,例如通常需要订阅才能访问的医学期刊。然而,现在有一些聊天机器人是专门设计用来访问医疗数据的,例如OpenEvidence,它将比一般AI聊天机器人更可靠。患者在依赖一般AI聊天机器人获取医疗建议之前,需要了解这一点,"巴克斯特博士解释道。
OpenEvidence Inc.于2023年推出了他们的聊天机器人,与《新英格兰医学杂志》和《美国医学会杂志》(JAMA)以及梅奥诊所建立了战略合作伙伴关系。
目前,OpenEvidence应用程序仅对医生开放,但它的存在预示着一种可能性,即聊天机器人可以仅基于循证、同行评审的来源与患者互动。
今天与AI聊天机器人合作
2021年,美国眼科学会成立了人工智能委员会(巴克斯特博士是该委员会成员),以帮助影响这些技术的开发。
由生成式AI驱动的聊天机器人,如大语言模型,越来越多地被用于医疗保健以提供信息。虽然这些大语言模型在结构化任务(如回答医疗问题)方面表现良好,但它们在现实世界决策中的可靠性仍不确定。
可以肯定的是,患者会转向这些来源,眼科医生必须通过了解AI技术在监督患者护理方面的益处和局限性来做好准备。
参考文献:
- Kelly J. 谷歌AI推荐在披萨上加胶水及其他错误信息——病毒式失误的原因是什么?《福布斯》。2024年5月31日在线发布。
- Sidoti O, McClain C. 34%的美国成年人使用过ChatGPT,约是2023年份额的两倍。《皮尤研究中心》。2024年8月15日在线发布。
- 消费者报告调查组。AI聊天机器人:Consumer Reports两次全国代表性电话和互联网调查:2023年8月和11月。
- Alharbi LY, Alrashoud RR, Alotaibi BS, 等。使用人工智能ChatGPT获取化学性眼部损伤的医疗信息:一项比较研究。《JMIR Form Res》。2025年6月30日在线发布。
- PYMNTS. 新数据显示Z世代转向AI聊天机器人进行搜索。PYMNTS。2025年7月23日在线发布。
- Karve Z, Calpey J, Machado C, Knecht M, Mejia MC. 新医生上线:AI系统提供健康行为改变的动机性面谈的范围综述。《J Med Internet Res》。2025年9月16日在线发布。
- Graham AD, Wang J, Kothapalli T, 等。人工智能模型利用生活方式因素预测干眼相关结果。《Sci Rep》。2025年4月18日在线发布。
- Tan DNH, Tham YC, Koh V, 等。评估聊天机器人对青光眼领域患者问题的回答。《Front Med (Lausanne)》。2024年7月9日在线发布。
- Yalla GR, Hyman N, Hock LE, Zhang Q, Shukla AG, Kolomeyer NN. 人工智聊天机器人对青光眼问题的表现,这些问题改编自患者小册子。《Cureus》。2024年3月23日在线发布。
- Subramanian B, Rajalakshmi R, Sivaprasad S, Rao C, Raman R. 评估ChatGPT-4对与糖尿病视网膜病变相关查询的AI生成回答的适当性和完整性。《Indian J Ophthalmol》。2024年7月1日在线发布。
- Katz G, Zloto O, Hostovsky A, 等。Chat GPT与经验丰富的眼科医生:评估聊天机器人在眼科写作表现。《Eye (Lond)》。2025年4月1日在线发布。
- Hua HU, Kaakour AH, Rachitskaya A, Srivastava S, Sharma S, Mammo DA. 当前人工智能聊天机器人对眼科科学摘要和参考文献的评估和比较。《JAMA Ophthalmol》。2023年7月27日在线发布。
- Demir S. 评估聊天机器人对常见眼内炎问题回答的可靠性和可读性:聊天机器人的横断面研究。《Health Inform J》。2024年11月29日在线发布。
- Yoshioka N, Honson V, Mani R, Oberstein S, Watt K, Maseedupally V. ChatGPT对验光和视觉科学考试问题的表现。《Ophthalmic Physiol Opt》。2025年7月9日在线发布。
- Srinivasan S, Ai X, Zou M, 等。使用OpenAI o1与其他大语言模型进行眼科问答和推理。《JAMA Ophthalmol》。2025年7月31日在线发布。
- Hasanzadeh F, Josephson CB, Waters G, Adedinsewo D, Azizi Z, White JA. 人工智能医疗应用中的偏见识别和缓解策略。《NPJ Digit Med》。2025年3月11日在线发布。
【全文结束】

