一种名为Therabot的生成式人工智能(Gen-AI)驱动的治疗聊天机器人与多种心理健康状况的显著减少有关,包括重度抑郁症(MDD)。
该应用程序由调查团队成员开发,是一款移动应用,允许用户与一个他们知道不是真实人物的数字存在进行互动。通过用户的提示和对话历史,聊天机器人提供量身定制的对话,包括共情回应和有针对性的问题。
在一项涉及200多名美国参与者的随机对照试验(RCT)中,接受聊天机器人干预4周的参与者在MDD、广泛性焦虑障碍(GAD)和进食障碍(EDs)的症状减少方面显著优于未获得应用程序访问权限的对照组(等待名单控制组),达到了其主要结果。
平均而言,与应用程序的互动持续了6小时以上,并且受到患者的高度评价。
“这些效应不仅显著,而且非常大且具有临床意义——与人类在较长时间内提供的黄金标准剂量的循证治疗所见的效果相当,”高级研究作者、达特茅斯学院盖塞尔医学院生物医学数据科学和精神病学副教授Nicholas Jacobson博士告诉《Medscape Medical News》。
像人类治疗师一样回应
Therabot是一种专门为心理健康治疗设计的“专家微调”Gen-AI驱动的聊天机器人,专家们根据认知行为疗法编写了治疗师-患者对话。
Jacobson还担任达特茅斯技术与行为健康中心的主任,他指出,研究人员从2019年开始开发这款应用程序,现在已有超过10万小时的工作投入其中,包括软件创建和改进。
“Therabot旨在通过大规模提供个性化、基于证据的心理健康干预来增强和补充传统的心理健康治疗服务,”研究人员写道。
Jacobson指出,为心理健康领域创建的其他数字干预措施通常更加结构化,不够灵活或个性化,导致较低的参与度和较高的退出率。此外,许多系统的安全性和有效性尚未得到充分验证,他说。
使这款应用程序与众不同的是其长期开发历史,它提供了勤勉的监督,并且其“个性化动态反馈”像人类治疗师一样回应,他说。
“我们设计了自己的数据集,写出了针对每种与这些疾病及其共病相关的查询的黄金标准响应的转录本,”Jacobson说。
起点
研究人员招募了210名成人(女性占59.5%;平均年龄33.9岁),这些人有严重的MDD或GAD症状,或处于进食障碍高风险状态。所有参与者被随机分配到每天与聊天机器人互动4周(n = 106)或不使用应用程序(等待名单,n = 104)。
Jacobson指出,研究人员希望集中于这三种特定情况,因为它们是最常见的精神障碍之一。
“我们希望有一个起点,未来可以扩展到其他条件,”他补充道。
在整个4周的治疗期间,每天都会提醒参与者与Therabot互动。4周后,提示停止,但该组仍可在随后的4周干预后阶段继续访问应用程序。
尽管等待名单组在研究期间无法访问应用程序,但在8周随访结束时可以访问。
共同的主要结果是从基线到4周和8周的症状变化。测量工具包括患者健康问卷9项、《精神疾病诊断与统计手册第四版》中的广泛性焦虑障碍问卷以及斯坦福-华盛顿大学进食障碍中的体重关注量表。
用户参与度、可接受性和“治疗联盟”都是次要结果。研究人员将后者定义为“协作的患者和治疗师关系”,通过工作联盟清单-简短修订版(WAI-SR)进行测量。其他衡量指标包括患者满意度调查和发送给应用程序的消息数量。
有效且令人满意的结果
结果显示,与等待名单组相比,聊天机器人组在4周(平均变化,-2.63 vs -6.13;P < .001)和8周(平均变化,-4.22 vs -7.93;P < .001)时MDD症状显著减少。
同样,聊天机器人组在4周(平均变化,-0.13 vs -2.32;P = .001)和8周(平均变化,-1.11 vs -3.18;P = .003)时GAD症状也显著减少,在两个时间点上进食障碍症状也显著减少(平均变化,-1.66 vs -9.83;P = .008 和 -3.7 vs -10.23;P = .03)。
这些改善“与传统门诊治疗报告的结果相当,表明这种AI辅助方法可能提供具有临床意义的好处,”Jacobson在一份声明中说。
根据WAI-SR评分,参与者平均报告的治疗联盟与门诊心理治疗样本中的规范相当,研究人员报告说。
总体满意度评分为平均5.3分(满分7分)。此外,应用程序在易用性方面得分为6.4分,在直观性方面得分为5.6分,在会话后感觉更好方面得分为5.4分,在应用程序被评为“类似于真实治疗师”方面得分为4.9分。
参与者发送的消息平均数为260条,与应用程序互动的总时间为6.2小时。
研究人员指出,他们和训练有素的临床医生检查了应用程序的所有响应,如果发现任何不当响应,他们会直接联系患者。
在研究结束时,由于安全问题(如参与者表达自杀意念)需要工作人员干预15次,因应用程序响应不当(如提供医疗建议)需要干预13次。
首次此类研究
“这是首次随机对照试验,证明了完全由Gen-AI驱动的治疗聊天机器人在治疗临床水平心理健康症状方面的有效性,”研究人员指出。
他们将聊天机器人的成功归功于三个因素:它基于针对三种治疗条件的循证心理疗法,无限制/随时访问,以及“与现有的心理健康治疗聊天机器人不同,Therabot由Gen-AI驱动,允许自然、高度个性化的开放式对话。”
然而,首席研究作者、达特茅斯助理教授Michael Heinz博士提出了一些警告。
“使AI如此有效的特性也带来了风险——患者可以对它说任何话,它也可以回应任何话,”他在声明中说。因此,正在开发的各种系统需要严格的安效基准,以及心理健康专家的监督/参与,他说。
“我不认为它们一定需要用处方模式使用。我只是认为我们需要人类专家在循环中,直到我们对其安全性和有效性有很好的了解,”Heinz告诉《Medscape Medical News》。
他补充说,Therabot并不经常需要人工干预,“但这始终是生成式AI的风险,我们的研究团队已经做好了准备。”
那么下一步是什么?虽然Therabot目前尚未向患者或临床医生开放,仍处于研究阶段,但目标是在未来几年内使其广泛可用,Jacobson说。
“但我们希望谨慎行事。我们的很多工作是为了最终扩大规模,但这些模型带有更大的风险——部分原因是它们的灵活性。因此,在我们开放之前,我们希望有更多的监督和进一步的试验,”Jacobson补充道,他指出这最终可能包括与真人提供者进行头对头比较。
更多问题而非答案
哥伦比亚大学纽约市精神病学教授Paul Appelbaum博士在接受《Medscape Medical News》采访时,描述了这项研究很有趣,结果很有前景。
然而,这是一项单一研究,“关于使用AI驱动的聊天机器人提出了更多问题而不是答案,”Appelbaum说,他并未参与该研究。
他指出,由于干预的相对短暂性,可能存在“新奇效应”,并且选择偏差(研究者在论文中提到)可能导致对数字干预在这三种情况下有效性的高估。
“愿意参与聊天机器人研究的人可能倾向于认为技术方法具有吸引力。因此,一般人群是否会做出同样的反应是一个开放的问题,”Appelbaum说。
他还指出,对照组没有接受任何干预,并质疑一个更积极的对照干预与聊天机器人的比较。“两组之间的差异是聊天机器人的效果还是仅仅是因为对照组被告知‘你只是在等待名单上’而产生的负面影响?”
Appelbaum还指出了研究人员对AI的持续监督以确保患者安全的重要性。
“我认为这是一个非常重要的注意事项。有一种诱惑是将这项研究解读为我们可以简单地将患者交给聊天机器人,让他们处理——但事实并非如此,”他说。
(全文结束)

