随着医疗系统负担过重、等待名单漫长以及成本不断上升,许多人开始转向像ChatGPT这样的AI驱动聊天机器人进行自我诊断。根据最近的一项调查,约六分之一的美国成年人每月至少会使用聊天机器人获取健康建议。
然而,牛津大学领导的一项最新研究表明,过度依赖聊天机器人的输出可能具有风险,部分原因在于人们难以知道该向聊天机器人提供哪些信息以获得最佳的健康建议。
“这项研究揭示了双向沟通的中断,”牛津互联网研究所研究生学习主任、该研究的合著者亚当·马赫迪 (Adam Mahdi) 告诉TechCrunch。“那些使用聊天机器人的人并没有比依赖传统方法(如在线搜索或个人判断)的参与者做出更好的决策。”
在这项研究中,研究人员招募了大约1,300名英国参与者,并向他们提供了一组医生编写的医疗场景。参与者需要识别这些场景中潜在的健康状况,并利用聊天机器人及自己的方法来确定可能的行动方案(例如,看医生或去医院)。
参与者使用了ChatGPT背后的默认AI模型GPT-4o,以及Cohere的Command R+和Meta的Llama 3(后者曾支持Meta AI助手)。根据研究人员的说法,这些聊天机器人不仅降低了参与者识别相关健康状况的可能性,还让他们更容易低估所识别出的病情的严重性。
马赫迪表示,参与者在查询聊天机器人时常常遗漏关键细节,或者收到难以解读的答案。
“他们从聊天机器人那里得到的回答经常混合了好建议和差建议,”他补充道。“目前对聊天机器人的评估方法并未反映出与人类用户互动的复杂性。”
尽管如此,许多科技公司仍在积极推动AI作为改善健康结果的一种方式。据报道,苹果正在开发一款能够提供与运动、饮食和睡眠相关的建议的AI工具。亚马逊则正在探索一种基于AI的方法,用于分析医疗数据库中的‘健康社会决定因素’。微软也在帮助构建一种AI系统,用于对患者发送给护理人员的信息进行分类。
然而,正如TechCrunch此前报道的那样,无论是专业人士还是患者,对于AI是否已准备好应用于高风险健康领域仍存在分歧。美国医学会建议医生不要使用像ChatGPT这样的聊天机器人辅助临床决策,而包括OpenAI在内的主要AI公司也警告不要根据其聊天机器人的输出进行诊断。
“我们建议依赖可信赖的信息来源来做医疗决策,”马赫迪说。“当前对聊天机器人的评估方法未能反映它们与人类用户互动的复杂性。就像新药的临床试验一样,聊天机器人系统在部署前应经过真实世界的测试。”
(全文结束)

