由贝斯以色列女执事医疗中心(BIDMC)的亚当·罗德曼(Adam Rodman)领导的一项研究表明,AI驱动的聊天机器人不仅未能帮助减少种族和民族偏见,反而可能加剧医学领域的不平等现象。众所周知,医生在治疗黑人患者的疼痛时往往不如对待白人患者那样积极。这种差异在各种医疗环境中和不同类型疼痛中都有体现,通常归因于对黑人患者疼痛的低估。这只是一个例子,最初人们认为使用人工智能(AI)可以消除医学中的偏见,希望通过数据驱动的算法提供客观评估,摆脱影响人类判断的偏见和误解。
“这些模型非常擅长反映人类的偏见,而不仅仅是种族偏见,这在用于任何医疗决策时都是有问题的,”罗德曼说。“如果系统和人类一样有偏见,它只会放大我们的偏见或使人类更加自信于他们的偏见。这只会让人类更坚定地坚持他们原有的做法。”
大型语言模型(LLMs),也称为聊天机器人,越来越多地被整合到临床实践中。谷歌的Gemini Pro和OpenAI的GPT-4可以通过处理大量现有来源的数据,提供诊断建议,甚至评估患者症状,从而协助临床决策。然而,这项新研究表明,随着LLMs梳理大量人类知识,源材料中的人类偏见也随之而来。
为了调查这一问题,罗德曼和他的同事,乔治城大学-美星华盛顿医院中心和加州大学伯克利分校的Brototo Deb博士,设计了一项实验,复制了2016年的一项研究,该研究考察了医学生和住院医师的种族偏见。在原始研究中,222名医学生和住院医师被呈现了两个描述两个人物的医疗场景——一个白人,一个黑人——然后要求他们在10分制的量表上评估他们的疼痛水平。此外,参与者还评估了他们对种族生物学错误信念的认同度,例如广泛但错误的观念认为黑人的皮肤更厚。
罗德曼和Deb进一步扩展了这项研究,应用类似的实验设置来测试Gemini Pro和GPT-4,以了解这些LLMs在种族和族裔背景下的疼痛评估情况,以及它们对种族生物学的理解。尽管AI模型和人类受训者给出了相似的疼痛评分,但种族差异依然存在。总体而言,无论评估者是人类还是AI,黑人患者的疼痛都被低估了。Gemini Pro AI模型表现出最高的错误信念百分比(24%),其次是人类受训者(12%),GPT-4最低(9%)。
随着更多医院和诊所采用AI进行临床决策支持,这项研究表明,聊天机器人可能会加剧医学中的种族和民族偏见,导致医疗保健中的进一步不平等。需要更多的研究来探索人类如何与AI系统互动,特别是在临床环境中。随着医生越来越依赖AI进行指导,确认偏差——即人们只信任与他们已有信念相符的机器输出——可能导致更根深蒂固的不平等。
“我并不担心LLM系统会自主做出决定——这肯定不会很快发生,”罗德曼说。“但在我们的研究中,我们看到了一个主题,即当这些系统确认人类已经认为的事情时,人类会同意,但当它们提供比人类更好的答案,与人类观点相悖时,人类往往会忽略它。”
(全文结束)

