主持人:如果您正向人工智能寻求医疗建议,嗯,或许需要三思。最新研究表明,多款热门聊天机器人在健康指导方面存在大量错误信息。尼克·蒂勒是哈伯-加州大学洛杉矶分校医学中心的研究员,作为该研究的共同作者,他今早带来详细发现。早上好,尼克。
尼克·蒂勒:早上好,很荣幸参与。
主持人:研究团队测试了Gemini、DeepSeek、Meta、ChatGPT和Grok,发现这五款AI聊天机器人都给出了大量不准确且不完整的回复。请介绍研究发现。
尼克·蒂勒:正如您所说,我们选取了这些最主流的聊天机器人——当然ChatGPT可能最受欢迎。我们向每款机器人提出10个问题,覆盖癌症、疫苗、干细胞、营养和运动表现这五个易传播错误信息的领域。每个领域的两位专家采用三级评估标准进行评分:无问题、部分问题或严重问题。结果甚至令我们惊讶:近半数回复(49.6%)被认定存在问题,其中30%属于部分问题,20%即五分之一属于严重问题。所谓严重问题,是指若用户遵循该建议,可能直接造成健康危害。这对公共卫生产生切实影响。
主持人:研究还发现聊天机器人宁可编造答案也不愿承认无知,这很人性化。您如何看待这种现象?能否举例说明其危害性?
尼克·蒂勒:聊天机器人始终以高度自信和权威口吻回应,用户会误判其可信度。我们还发现它们更倾向给出阅读难度较高的回复,这进一步制造虚假可信度。在250个健康相关提问中,仅Meta AI两次拒绝回答,这个比例低得惊人。若向医疗专业人员提出250个健康问题,他们很可能在某些时刻坦承"我不确定,但会咨询同事或查阅资料"。聊天机器人并非如此设计——它们优先保证回答完整性而非准确性。而在医疗领域,准确性才是重中之重。我们期待它们更常声明"我不具备回答资格",但其程序设定更侧重提供完整答案。这存在巨大隐患。
主持人:鉴于此,向AI寻求健康建议是否完全不可取?如何判断何时需要咨询专业医师?
尼克·蒂勒:作为用户,首先应了解这些系统的工作原理:它们被设计得善于对话流畅、语言流畅,我们喜欢与之互动,但它们不具备人类的知识储备能力,绝非医疗专业人士,也未经医学训练。我们需要认清其优势与局限,学会用正确措辞和术语提问以提高准确率。但若您重视答案准确性,就绝不该使用AI聊天机器人获取医疗建议——这正是医疗专业人员存在的意义。虽然就医有时困难,促使人们转向AI,但我们必须系统性改进医疗体系。感谢您的时间。
主持人:感谢尼克。人们总渴望快速获得正确答案,但健康问题容不得侥幸。
【全文结束】

