今天的文章中,我将探讨并分析一项最近的研究结果,该研究考察了使用专门调校的生成式AI进行有限范围内的心理健康治疗的有效性。这项研究对受试者进行了为期八周的监测。结果显示,治疗组的参与者似乎从这种调校过的生成式AI中受益,从而在应对各种心理健康问题(如抑郁、体重相关问题和焦虑)方面取得了进步。
这是一个令人鼓舞的迹象,表明生成式AI和大型语言模型(LLM)有可能在心理健康治疗中发挥重要作用。然而,仍有一些重要的注意事项需要进一步研究和考虑。
让我们来谈谈这个问题。
我对AI突破的分析是我持续报道AI最新进展的一部分,包括识别和解释各种有影响力的AI复杂性。
AI与心理健康治疗
我一直在广泛地报道和分析当代AI在生成心理健康建议和进行互动式AI驱动治疗方面的各种方面。这种AI使用的迅速增加主要是由于生成式AI和大型语言模型(LLM)的广泛应用。
这些努力带来了巨大的好处,但同时也伴随着隐藏的风险和陷阱。我经常就这些问题发表意见,包括在CBS《60分钟》节目中。有关我在AI心理健康治疗方面的专栏文章的简要总结,请参阅链接,其中包括我发布的超过一百篇专栏文章中的四十篇。
AI用于心理健康的历史背景
关于AI在心理健康领域的应用,已经有多年活跃而广泛的研究。
最早且最引人注目的实例之一是在1960年代,当时一个名为Eliza的简单程序通过模仿心理治疗师的方式与用户互动。这在当时是一个惊喜,因为一个简单的计算机程序竟然能让人们相信自己正在与一位高水平的心理健康专家或心理学家交谈。
几乎十年后,著名的天体物理学家和科学传播者卡尔·萨根在1975年预测AI最终会成为人类的心理治疗师。正如我在链接中讨论的那样,他在许多方面是正确的,但在其他方面则有些偏离,我们还没有完全见证他的全部预测。
在专家系统的鼎盛时期,许多努力试图利用基于规则的能力来充当治疗师。这个想法是,可以识别出人类治疗师在进行治疗时所使用的所有规则,并将其嵌入到知识系统中。
专家系统的优点是,可以合理地测试AI并评估其是否会提供适当的建议。构建这样的AI系统的人可以详尽地检查各种路径和规则,以确保专家系统不会产生不恰当的建议。AI领域的术语称这种AI为确定性的。
相比之下,今天的生成式AI和LLM倾向于以非确定性方式工作。AI使用统计和概率来生成响应。一般来说,无法完全测试这种AI,因为输出是不可预测的。
正因为如此,我们需要特别谨慎地推广生成式AI和LLM作为进行治疗的便捷工具。尽管如此,人们仍在这样做,而且往往不知道AI可能会给出不当的建议,包括所谓的AI幻觉,即提供无根据的虚构内容。
我反复指出,我们正处于一场涉及全球人口的大型实验中,使用生成式AI进行心理健康咨询。这种基于AI的治疗正在大规模使用。我们不知道有多少人在积极使用LLM进行这一目的,但估计达到数百万用户。
一个有趣的权衡正在进行。
一方面,大规模可用的基于AI的治疗几乎是零成本的,随时可用,这可能是对大众心理健康的一大福音。问题是,我们还不知道这最终会带来正面还是负面的结果。一种自由放任的情况正在发生,似乎只有时间才能告诉我们这种不受限制的AI使用是否会有净正回报。
最近的研究仔细观察
最近的一项研究决定仔细观察专门调校的生成式AI可能的表现,并在一个精心设计的实验环境中进行。我们确实需要更多这样精心设计的研究。目前关于这一重要话题的大部分讨论都是基于推测,缺乏严谨和细致的分析。
在这篇题为“生成式AI聊天机器人用于心理健康治疗的随机试验”的研究中,Michael V. Heinz, Daniel M. Mackin, Brianna M. Trudeau, Sukanya Bhattacharya, Yinzhou Wang, Haley A. Banta, Abi D. Jewett, Abigail J. Salzhauer, Tess Z. Griffin 和 Nicholas C. Jacobson 在《新英格兰医学杂志AI》上于2025年3月27日发表的文章中提出了以下关键点(摘录):
- “我们展示了一项随机对照试验(RCT),测试了一个由专家调校的生成式AI驱动的聊天机器人Therabot,用于心理健康治疗。”
- “我们在全国范围内进行了一项随机对照试验,对象是患有临床显著症状的主要抑郁症(MDD)、广泛性焦虑障碍(GAD)或处于进食障碍高风险状态的成年人(N=210)。”
- “参与者被随机分配到4周的Therabot干预组(N=106)或等待列表对照组(WLC;N=104)。WLC组在研究期间没有访问应用程序的权限,但在研究结束8周后获得了访问权限。”
- “与WLC组相比,Therabot用户在干预后(4周)和随访(8周)时表现出更大的抑郁、焦虑和CHR-FED症状的减少。”
- “次要结果包括用户参与度、可接受性和治疗联盟(即患者和治疗师之间的合作关系)。”
- “经过调校的生成式AI聊天机器人提供了一种可行的方法,可以在大规模上提供个性化的心理健康干预,但仍需进一步研究以确认其有效性和普遍适用性。”
对此话题感兴趣的读者应考虑阅读完整的研究报告,以了解所用程序和方法的详细信息。
混合与匹配正在进行
一些额外的历史背景可能有助于理解这些问题。
之前有许多研究集中在主要基于专家系统的AI心理健康治疗上,例如一个知名的商业应用程序Woebot,一个针对进食障碍的基于规则的应用程序Tessa,以及其他许多应用程序。
那些拥有基于规则解决方案的人通常寻求通过结合生成式AI功能来增强他们的系统。这很有意义,因为生成式AI提供了传统专家系统通常缺乏的流畅交互能力。想法是你可以获得两者的最佳效果,即专家系统的可预测性与LLM的高度交互性。
挑战在于生成式AI具有我之前提到的问题,因为它具有非确定性。如果你将一个经过严格测试的专家系统与更松散的生成式AI功能结合起来,你可能会在AI提供心理健康建议时冒险。
这是一个相当棘手的问题。
另一个角度是看看是否可以通过足够的技术护栏和人工监督来约束生成式AI,使其不至于走偏。这是促使人们对专门为心理健康领域定制的AI基础模型产生兴趣的原因。
对这一领域AI研究的思考
让我们从宏观层面考虑各种研究追求。我们可以从中获得有用的见解,了解这些研究是如何进行的,以及如何在未来继续进行此类研究。
以下是五个值得考虑的重要方面:
- (1) 开发者和研究人员有时交织在一起。在这一领域的研究中,研究人员往往是AI心理健康应用程序的开发者。好消息是,作为开发者和研究人员,他们对应用程序非常了解,甚至可以对其进行调整。缺点是可能存在利益冲突,因为他们可能潜意识地希望AI成功。如果与特定AI系统无关的研究人员能够接手并进行独立的第三方研究,那将是有帮助的。
- (2) 将AI与什么都不比较有点软弱。在这一领域的研究中,通常会设计一个实验环境,其中AI应用程序作为治疗方法,然后有一个对照组不使用AI。这很好。了解AI是否对心理健康结果有影响是有用的。但问题在于,有人认为几乎任何东西都可能产生积极的心理健康结果。在这种意义上,AI几乎像是一种安慰剂(有人这样认为)。为了应对这种可能性,可以同时使用一组鼓励访问在线心理健康信息的群体作为比较基础。与简单的在线信息访问相比,AI应用程序有多大的提升?这是一种更具示范性的差异。
- (3) 外部处理的数量。当AI应用程序出现问题或检测到用户表达的担忧(如自残)时,这些实验通常会有一个过程,通知外部人员,如待命的心理健康专业人士。媒体在报道这些研究时通常不会过多关注这些外部接触点。这是不幸的。媒体倾向于传达的信息是AI是完全自主的。了解遇到的外部处理数量可以作为AI在实际使用中所需支持的一个风向标。
- (4) AI的定制程度。另一个需要考虑的重要方面是生成式AI或LLM在多大程度上被定制为提供心理健康建议。是小幅度调整还是大幅度改造?同样,媒体有时会认为一般生成式AI已经得到了验证,但这可能是一个误导或错误的指示。研究中使用的AI可能与一般的生成式AI不再相似。因此,尝试将定制版本与人们每天使用的通用生成式AI进行比较是完全不对等的。
- (5) 受试者熟悉生成式AI。一个越来越难应对的问题是,这一领域的受试者很可能已经使用过生成式AI,甚至每天都在使用。问题在于,这是否使他们比那些不经常使用生成式AI的人更容易使用定制的AI应用程序。研究应该询问受试者之前的生成式AI使用情况。这将有助于澄清这种使用对治疗组和对照组的影响。事实上,如果对照组没有使用定制的AI应用程序,他们可能在实验过程中秘密使用通用生成式AI。这是值得了解的。
宏观视角
旨在高度系统化和系统性的这一领域的研究通常会采用长期验证的RCT(随机对照试验)方法。这种方法包括设计一个实验设计,将受试者随机分配到治疗组或实验组,以及其他受试者分配到对照组。这种严格的途径旨在尽量防止混淆因素干扰研究结果的适当声明。
首先,让我们给使用RCT的研究以应有的赞誉。
所需的时间和精力可能是巨大的。与其他更临时的研究方法相比,尽力做到最好可能既耗时又昂贵。愿意并坚持以这种方式进行AI相关研究是非常值得赞扬的。感谢你们的努力。
关于RCT的一个问题或挑战是,由于它通常需要较长时间来实施,时间滞后可能会成为结果的一种缺点或阻碍。特别是在高科技领域,包括AI。AI的进步非常迅速,通常是几天、几周或几个月。然而,其中一些RCT研究可能需要一两年才能完成,包括撰写研究报告并发表。
有些人会说,这些研究常常带有后视镜视角,谈论的是过去而不是现在或未来。RCT目前正处于争议之中。它是黄金标准,顶尖的科学研究依赖于RCT。但时间滞后是否会导致结果过时或不再相关?
在一篇题为“修复数字技术危害的科学”的挑衅性文章中,Amy Orben 和 J. Nathan Matias 在2025年4月11日的《科学》杂志上提出了这一有趣的观点:
- “当科学家研究新技术时,他们自然会采用‘常规科学’——缓慢、谨慎的工作,旨在最大限度地减少导致社会进步的错误。然而,数字技术的变化速度现在超过了科学知识的创造速度,以至于变得不可用。”
- “‘常规科学’的缓慢实践可能无法防止生计、健康和生命的损失。”
我们似乎面临一个痛苦的选择:一方面是具有强大可信度的长期研究,另一方面是更快但结果难以接受的不那么严格的方法。我当然不希望新手研究人员在AI领域认为这场激烈的争论给了他们放弃RCT的借口。
不。
这不是答案。
我们需要在AI心理健康领域的坚实研究。这是必须的。与此同时,也许我们可以找到一些中间地带,既能吃蛋糕又能吃掉它。请继续关注我即将发布的深入探讨这一难题的文章。
最后,引用马库斯·奥勒留斯的一句名言,他曾经说过:“没有什么比系统而真实地调查生活中所有你观察到的事物更能开阔你的思维。”让我们充分拥抱这一信条。
(全文结束)

