波士顿,马萨诸塞州——由贝斯以色列女执事医疗中心(BIDMC)的亚当·罗德曼(Adam Rodman)领导的一项研究揭示,人工智能驱动的聊天机器人不仅未能帮助减少种族和族裔偏见,反而可能加剧和恶化医学中的不平等现象。众所周知,医生对黑人患者的疼痛治疗不如对白人患者充分。这种差异在各种医疗环境中和不同类型疼痛的情况下都存在,通常归因于对黑人患者疼痛的低估。这只是一个例子,最初人们认为使用人工智能可以消除医学中的偏见,希望数据驱动的算法能够提供客观评估,不受影响人类判断的偏见和误解的影响。
“这些模型非常擅长反映人类的偏见,而不仅仅是种族偏见,”罗德曼说,“如果你要用它们来做任何医疗决策,这是个问题。如果系统和人类有相同的偏见,它只会放大我们的偏见或让人类更加自信于他们的偏见。它只会让人类更坚定地坚持他们所做的。”
大型语言模型(LLM),也称为聊天机器人,越来越多地被整合到临床实践中。谷歌的Gemini Pro和OpenAI的GPT-4可以通过处理大量现有来源的数据来协助临床决策,提供诊断建议,甚至评估患者症状。然而,正如这项新研究所示,当LLM扫描大量人类知识时,源材料中的人类偏见也随之而来。
为了调查这个问题,罗德曼和他的同事,乔治城大学MedStar华盛顿医院中心和加州大学伯克利分校的布罗托托·德布(Brototo Deb)博士,设计了一项研究,复制了2016年的一项实验,该实验考察了医学生中的种族偏见。在原始研究中,222名医学生和住院医师被呈现两个医疗场景,分别描述一名白人和一名黑人,然后要求他们在10分制的量表上评估他们的疼痛水平。此外,参与者还评估了他们对错误的种族生物学信念的同意程度,例如错误但普遍存在的观点,即黑人的皮肤更厚。
罗德曼和德布进一步推进了这一先前的研究,并采用类似的实验设置,应用Gemini Pro和GPT-4来评估不同种族和族裔背景下的疼痛,以及它们对种族生物学的理解。尽管AI模型和人类学员给出了相似的疼痛评分,但种族差异依然存在。总体而言,无论评估者是人类还是AI,黑人患者的疼痛都被低估了。Gemini Pro AI模型表现出最高的错误信念百分比(24%),其次是人类学员(12%),GPT-4最低(9%)。
随着更多医院和诊所采用AI进行临床决策支持,这项研究表明,聊天机器人可能会延续医学中的种族和族裔偏见,导致医疗保健中的进一步不平等。需要更多的研究来探索人类如何与AI系统互动,特别是在临床环境中。随着医生越来越多地依赖AI进行指导,确认偏见——即人们只在机器输出与其预先存在的信念相符时才信任机器输出——可能导致更根深蒂固的不平等。
“我不担心LLM系统做出自主决策——这肯定不会很快发生,”罗德曼说,“但在我们的研究中,我们看到了一个主题,即当这些系统确认人类已经认为的事情时,人类会同意它,但当它提供比人类更好的答案,与人类观点相矛盾时,人类倾向于忽略它。”罗德曼报告称,他从戈登和贝蒂·摩尔基金会以及梅西基金会获得了与提交工作无关的人工智能研究资助。没有其他披露。
(全文结束)

