引言
本研究评估大型语言模型(LLMs)在细分健康信息检索中的能力。LLMs(如GPT-3、Claude、Perplexity等)已成为信息检索的重要工具,其生成式AI服务通过人机对话交互帮助公众便捷获取科学知识。然而,这种技术普及也引发了关于使用风险的讨论,促使"负责任AI"概念的兴起,其中"数据公平性"成为核心议题。通过系统分析LLMs生成的细分健康信息,本文评估公开健康数据中种族群体代表性的公平性。
数据细分与LLM中的数据公平性
美国政府通过"Equitable Data工作组"强调数据公平性对多民族社会的重要性,指出需要通过数据细分确保边缘群体在政策决策中的可见性。例如,在现有统计中,中东/北非裔与亚裔细分群体常被忽视。研究显示:印度裔家庭收入中位数为12.37万美元,而缅甸裔仅为4.44万美元;25%的缅甸裔和19%的老挝裔生活在贫困线以下;印度裔高等教育持有率达74%,而柬埔寨裔仅15%。
LLM的数据公平性问题更为复杂:不同于传统人口调查中数据收集的偏差(如抽样误差、无应答误差),LLMs使用二次信息内容(政策报告、新闻、论文)进行训练,导致偏差叠加。此外,某些"有趣"发现可能被反复输入系统,算法处理过程缺乏透明度,且生成结果可能反向强化训练数据偏差。这使得数据公平性渗透整个数据生命周期。
方法与数据收集
本研究选取全球广泛使用的ChatGPT作为数据收集平台。通过美国人口普查局的21个亚裔细分分类(如孟加拉裔、不丹裔、缅甸裔等),采用提示词"生成特定人群应关注的重要健康问题",设置10次生成循环获得1000份样本。使用GPT-3.5模型(温度参数1),数据采集于2024年8-10月。
分析结果
研究问题1:LLM健康信息检索的相似性
通过健康状况级、话题级(BERTopic+对应分析)多维度分析发现:
- 低差异组:华裔、台湾裔、韩裔在所有指标中距离参考组(亚裔美国人)最近,表现为文化、社会因素的趋同性
- 高差异组:菲律宾裔(欧式距离2.4595)、缅甸裔、斯里兰卡裔显示显著差异,可能与文化/社会因素相关
- 区域集群:东亚群体(中日韩)聚集在参考组附近,东南亚群体(缅越老)距离较大(欧式距离1.0-1.3),南亚群体(印巴斯)表现中等至高度差异
研究问题2:健康信息多样性
通过词数、条件数、辛普森多样性指数分析:
- 南亚群体(印度/巴基斯坦/斯里兰卡)在词数(nWords)和条件数(nConds)上显著较高,可能与其人口规模、英语熟悉度有关
- 东南亚群体(缅/老/越)在所有指标中数值最低,反映语言和健康状况指标的多样性不足
- 东亚群体(中/日/韩)虽在RQ1中与参考组最相似,但细分信息可能存在语言(英语)获取障碍
研究问题3:健康信息准确性
通过正则表达式提取健康状况并验证发现:
- 准确呈现的状况:心理健康问题、心血管疾病、糖尿病、乙肝、肥胖、癌症、呼吸道疾病等普遍性健康问题在多数群体中得到准确反映
- 遗漏的重要状况:苗族女性宫颈癌发病率(36.6/10万)比泛亚裔群体高3倍以上,越/柬/缅裔的肝癌高发问题未被充分呈现。这些缺失可能源于数据聚合化处理和英语资料可及性限制
讨论与结论
本研究揭示LLMs在呈现亚裔细分群体健康信息时的系统性偏差:
- 东亚群体代表性差异:华/台/韩群体虽总体最接近参考组,但特定健康问题(如乳腺癌、胃癌)被过度泛化
- 南亚群体多样性:印/巴/斯里兰卡群体在代谢综合征、胆囊疾病等细分领域呈现较好代表性,但不丹/尼泊尔群体存在信息缺失
- 东南亚群体代表性不足:除菲律宾裔外,多数群体在健康状况数量和多样性上存在显著不足,重要问题如肝癌、宫颈癌未被充分呈现
研究建议:需优化提示词设计、整合权威医学数据源、持续承诺数据公平性,以确保LLMs能准确反映多元群体的健康挑战。
【全文结束】

