大型语言模型中的细分健康数据：评估亚裔美国人代表性的数据公平性 - AI与医疗健康

大型语言模型中的细分健康数据：评估亚裔美国人代表性的数据公平性Disaggregated Health Data in LLMs

环球医讯 / AI与医疗健康来源：arxiv.org美国 - 英语2025-08-07 09:21:08 - 阅读时长4分钟 - 1634字

本研究通过统计和机器学习工具评估大型语言模型（LLMs）在亚裔美国人细分群体健康信息检索中的表现，重点分析数据公平性。研究揭示了LLMs在呈现细分健康数据时的差异性，强调了在数据生命周期中维护公平性的必要性，为负责任的AI发展提供了重要参考。

引言

本研究评估大型语言模型（LLMs）在细分健康信息检索中的能力。LLMs（如GPT-3、Claude、Perplexity等）已成为信息检索的重要工具，其生成式AI服务通过人机对话交互帮助公众便捷获取科学知识。然而，这种技术普及也引发了关于使用风险的讨论，促使"负责任AI"概念的兴起，其中"数据公平性"成为核心议题。通过系统分析LLMs生成的细分健康信息，本文评估公开健康数据中种族群体代表性的公平性。

数据细分与LLM中的数据公平性

美国政府通过"Equitable Data工作组"强调数据公平性对多民族社会的重要性，指出需要通过数据细分确保边缘群体在政策决策中的可见性。例如，在现有统计中，中东/北非裔与亚裔细分群体常被忽视。研究显示：印度裔家庭收入中位数为12.37万美元，而缅甸裔仅为4.44万美元；25%的缅甸裔和19%的老挝裔生活在贫困线以下；印度裔高等教育持有率达74%，而柬埔寨裔仅15%。

LLM的数据公平性问题更为复杂：不同于传统人口调查中数据收集的偏差（如抽样误差、无应答误差），LLMs使用二次信息内容（政策报告、新闻、论文）进行训练，导致偏差叠加。此外，某些"有趣"发现可能被反复输入系统，算法处理过程缺乏透明度，且生成结果可能反向强化训练数据偏差。这使得数据公平性渗透整个数据生命周期。

方法与数据收集

本研究选取全球广泛使用的ChatGPT作为数据收集平台。通过美国人口普查局的21个亚裔细分分类（如孟加拉裔、不丹裔、缅甸裔等），采用提示词"生成特定人群应关注的重要健康问题"，设置10次生成循环获得1000份样本。使用GPT-3.5模型（温度参数1），数据采集于2024年8-10月。

分析结果

研究问题1：LLM健康信息检索的相似性

通过健康状况级、话题级（BERTopic+对应分析）多维度分析发现：

低差异组：华裔、台湾裔、韩裔在所有指标中距离参考组（亚裔美国人）最近，表现为文化、社会因素的趋同性
高差异组：菲律宾裔（欧式距离2.4595）、缅甸裔、斯里兰卡裔显示显著差异，可能与文化/社会因素相关
区域集群：东亚群体（中日韩）聚集在参考组附近，东南亚群体（缅越老）距离较大（欧式距离1.0-1.3），南亚群体（印巴斯）表现中等至高度差异

研究问题2：健康信息多样性

通过词数、条件数、辛普森多样性指数分析：

南亚群体（印度/巴基斯坦/斯里兰卡）在词数（nWords）和条件数（nConds）上显著较高，可能与其人口规模、英语熟悉度有关
东南亚群体（缅/老/越）在所有指标中数值最低，反映语言和健康状况指标的多样性不足
东亚群体（中/日/韩）虽在RQ1中与参考组最相似，但细分信息可能存在语言（英语）获取障碍

研究问题3：健康信息准确性

通过正则表达式提取健康状况并验证发现：

准确呈现的状况：心理健康问题、心血管疾病、糖尿病、乙肝、肥胖、癌症、呼吸道疾病等普遍性健康问题在多数群体中得到准确反映
遗漏的重要状况：苗族女性宫颈癌发病率（36.6/10万）比泛亚裔群体高3倍以上，越/柬/缅裔的肝癌高发问题未被充分呈现。这些缺失可能源于数据聚合化处理和英语资料可及性限制