当个人在医疗网站的聊天框中提交查询时,最重要的事情是避免冒犯或歧视用户,这可能导致护理交付的失败。谷歌研究在《自然医学》杂志上发表了一项研究,介绍了工具和技术,以改进由大型语言模型(LLMs)生成的人工智能响应可能对健康公平造成的危害评估。这些技术并不提供所有文本相关人工智能应用的全面解决方案,但通过提出可以被采用和改进的AI系统,推动了实现促进可及性和公平医疗保健的共同目标。
无偏见的医疗LLM
大型语言模型(LLMs)可以在基于文本的复杂健康信息分析中发挥作用,例如临床笔记和解释报告。然而,如果没有适当的保护措施,LLM在医疗领域的使用可能会加剧全球健康结果的现有差距。风险因素包括数据集中不成比例的代表性、与患者身份相关的持久健康误解以及不同人群之间系统性能的差异。共同主要作者Stephen R. Pfohl博士和Heather Cole-Lewis博士合作开发了一个灵活的框架,用于人类评估和对抗性数据集输入,称为EquityMedQA。开发人类评估标准框架以识别健康公平危害和偏见,基于一个迭代参与方法,涉及一个多元化的评分者群体评估由Google Research专门针对医疗领域定制的大型语言模型Med-PaLM 2产生的响应。为了设计对抗性数据集,研究人员从多个来源汇集了问题,包括先前文献和红队测试(一种尝试挑战系统弱点的方法)。
研究表明,他们的方法揭示了纯人工和其他评估技术可能忽略的偏见。研究结果强调了采用综合方法的必要性,该方法结合了来自不同背景的医生、健康公平专家和消费者等多样的评估者,以及定制的标准,以识别偏见并确保LLM促进健康公平。该方法的进一步完善对于促进对抗性问题的大规模生产至关重要。
适用于所有全球环境的解决方案
这种方法旨在适应不同的模型、用例和危害来源,尽管它不能替代特定上下文中偏见后果的具体评估。因此,迫切需要开发基于LLM使用具体上下文的评估程序,并招募专门的评分者,以评估这些上下文中的偏见。
(全文结束)

