摘要
在预测2型糖尿病不良并发症时,通常采用两种不同方法:基于临床数据的预测或使用行政健康数据的预测。目前尚无研究评估这两种方法是否能达到可比的预测效果。本研究比较了这两种数据源的预测性能,并检验了所开发模型的算法公平性。我们开发了XGBoost模型来预测2型糖尿病患者两年内发生肾病、组织感染和心血管事件的风险。仅使用临床数据的模型平均AUC达到0.78,而仅使用行政健康数据的模型平均AUC为0.77。结合两种数据类型的混合模型在各种并发症预测中平均AUC达到0.80。模型分析显示,实验室数据是预测肾病的关键因素,而合并症和糖尿病病程对组织感染预测最为重要。对于心血管事件,年龄和充血性心力衰竭病史是最重要预测因子。我们的分析发现所有三种结果中都存在性别特征的偏见:模型往往低估女性风险而高估男性风险,表明在这些应用中需要解决公平性问题。本研究证明了使用两种数据类型的机器学习模型在预测糖尿病并发症方面的有效性。然而,性别偏见的存在突显了提高模型公平性以确保临床可靠应用的重要性。
引言
糖尿病是一个日益严重的全球性问题。2021年,国际糖尿病联合会估计全球有5.37亿成年人患有糖尿病,但到2030年,这一数字预计将增至6.43亿成年人。全球患病率上升由两个因素驱动:1990年至2021年间,全球糖尿病发病率翻了一番;同时,糖尿病人群的死亡率在一些高收入国家趋于平稳甚至下降,导致更多人带着糖尿病度过生命中的更大比例。糖尿病并发症显著增加了糖尿病患者的痛苦和过早死亡风险,综述估计仅心血管并发症就导致全球27%以上的糖尿病患者死亡。有效预测和预防糖尿病并发症对于减少糖尿病并发症造成的危害至关重要,并且随着全球糖尿病患者数量的增长,这一点将继续至关重要。
机器学习的最新发展在预测糖尿病患者未来并发症风险方面显示出潜力。并发症的准确预测有可能实现精准医疗策略,提高预防性疾病管理的效率。现有文献指出了此类预测模型的两种独立使用场景:首先,作为临床环境中的预后工具;其次,作为公共卫生背景下的群体风险管理工具。
在大多数研究中,模型作为临床或公共卫生工具的使用场景要么是预先确定的,要么是基于数据可用性。临床决策工具通常源自电子健康记录(EHR)中的信息,包括基本人口统计学信息(如年龄和性别)、诊断和治疗史,以及门诊和住院环境中的实验室检测结果。相比之下,虽然实验室结果通常对公共卫生管理者不可用,但还有许多其他类型的数据,包括收入和教育梯度、总医疗利用以及种族或民族,这些数据可能预测健康风险,而在临床决策工具中可能缺失。就我们的目的而言,我们沿这些界限区分两种数据环境:临床数据(EHR)包括基本人口统计学信息、诊断和实验室检测结果,而行政健康数据(AHD)包括基本人口统计学信息、医疗利用统计数据以及包括收入、教育和种族/民族在内的额外非健康数据。
临床机器学习方法
临床决策文献流依赖于治疗医生通常可获得的医学和生物数据。这些模型的目的是为治疗医生提供并发症风险的预后预测,用于对患者进行风险分层,使预防性治疗指南更加个性化。该文献主要依赖经典统计方法预测不同并发症指标,AUC在0.66至0.75之间。最常用的特征是简单的人口统计学信息,如年龄、性别和种族;与吸烟状况、BMI和体力活动相关的生活方式指标;以及与HbA1C、血压、高血压和胆固醇相关的实验室检测结果和药物处方。最近,机器学习方法已被应用,Tan等人(2023年)对该文献的综述发现了32项研究,包含87种机器学习建模方法来预测糖尿病并发症。神经网络和集成模型是最常用的机器学习方法,其中随机森林模型似乎具有最佳预测性能。年龄、BMI和糖尿病持续时间是最常用的特征,但许多研究也包括实验室结果。预测性能优于传统统计方法,微血管并发症的AUC约为0.85,大血管并发症的AUC约为0.70。
公共卫生机器学习方法
在许多情况下,生物特征和详细的临床结果数据对非临床用途不可用。相反,第二种文献流依赖于利用包括人口统计学、诊断和来自索赔数据的医疗利用以及收入和教育数据(如可用)的预测模型。这些研究从公共卫生角度审视糖尿病患者并发症的风险。Ravaut等人(2021年)开发了一种面向公共卫生的机器学习模型,该模型对研究人群施加了有限的限制,并仅使用AHD预测加拿大安大略省糖尿病患者多种不同并发症的风险。他们的模型报告AUC约为0.78,并发现年龄、性别、移民身份、收入水平和居住地区是并发症风险的一致重要预测因子。Vimont等人(2023年)使用法国公共保险系统的AHD预测糖尿病患者的并发症风险,心血管并发症的AUC在0.72至0.79之间,其他并发症的AUC在0.67至0.85之间。Dworzynski等人(2020年)使用丹麦行政登记数据预测丹麦糖尿病患者的合并症,该数据包含有关个人人口统计学、经济、教育水平和健康信息(包括诊断、治疗和处方)的信息。这些作者还仅基于行政数据在整个丹麦人群中实现了预测模型的高准确性。尽管这些研究在人群、观察期、特征和结果上有所不同,但所有研究都实现了合理的预测能力,尽管缺乏临床数据。
研究目标
本研究的目标是比较使用AHD与使用EHR和实验室数据的机器学习模型在识别糖尿病导致的心血管事件、组织感染和肾病方面的预测性能。我们为每种方法选择数据子集,以模拟在公共卫生部门(AHD数据)或医生诊疗点(EHR数据)的实施策略。
为此,我们开发了多个极端梯度提升(XGBoost)模型,旨在预测2型糖尿病(T2D)患者两年内发生一系列不良并发症的风险。我们还调查了模型内算法公平性的程度,以评估是否存在对特定子群体的显著歧视。这意味着所开发的模型可能对某个子群体的预测风险产生偏斜评估。
结果
模型比较与性能分析
按照相关文献,我们使用ROC曲线下面积(AUC)作为评估模型性能的主要指标。AUC作为比较不同数据源之间相对性能的基础。我们在补充材料表S1中报告了F1分数、召回率和精确度,图S1中显示了ROC曲线。性能结果如图1所示。对于临床模型(以绿色表示),基线模型(模型C1)的平均AUC为0.74,表明健康状况和基本人口统计学因素是各种结果的有效预测因子。在临床模型中加入实验室结果(模型C2)将平均AUC提高到0.78。这种预测性能的提升主要由肾病结果的大幅改善驱动,而心血管事件和组织感染结果的性能几乎没有显著提高。
对于AHD模型(以蓝色表示),基线模型(模型A1)的平均AUC为0.77。纳入高级人口统计学特征(如教育、收入和家庭特征)似乎并未提升模型性能。
最后,同时包含临床和AHD的模型(完整模型,以红色表示)是表现最佳的模型,平均AUC为0.80。包含所有数据后,肾病是表现最好的模型(AUC为0.88),而心血管模型表现最差(AUC为0.72)。
总体而言,临床和AHD似乎具有相似的性能,这可能是由于健康状况和基本人口统计学特征段的强有力贡献。
模型和结果间的特征贡献
图2展示了对每个结果贡献最大的前六个特征,按其对完整模型的重要性排序。对于肾病结果,实验室检测结果是最重要的特征组。相比之下,组织感染和心血管事件的预测主要由人口统计学变量和健康状况驱动。
在所有模型中,即使排除实验室数据(模型A2),肾病仍然保持预测能力,表明合并症信息也具有预测价值。对于组织感染,我们发现CCI合并症、糖尿病年龄(T2D年龄)和性别始终是最重要的预测因子。对于心血管事件结果,年龄、ECI(充血性心力衰竭)和性别是最重要特征。在所有模型和结果中,健康状况指标,特别是CCI合并症,显示出持续高重要性。这表明总体疾病负担在预测未来并发症中起着关键作用。
评估算法公平性
为了评估不同亚群的预测性能,我们在不同人口统计学和临床亚群中评估了算法公平性:最低收入四分位数(Q1)的个体、具有基础教育的人、性别、丹麦种族以及观察期间未进行HbA1c测量的人。
在肾病方面,模型对未进行HbA1c测试和女性的个体表现较差。在其他测试变量中几乎没有发现显著不公平的迹象。这些结果在补充表S2中呈现。组织感染和心血管并发症模型在性别上存在差异化偏见,但在其他变量上不存在。不同模型类型之间的模型公平性模式一致,其中包含不同的特征。
在所有结果中,最显著的歧视是基于性别。我们通过比较所有三种并发症中男性和女性的性能指标来评估这一点。图3说明了各种指标中的这种歧视。所有模型为男性分配的基础风险高于女性,特别是在心血管事件中,肾病是最不偏见的模型。这种模式反映在统计均等性的显著性别差异中。我们在所有模型中也看到男性的FPR率更高,心血管事件和组织感染的男性的TPR更高。相反,女性在并发症的阴性预测中被过度代表。总体准确性在所有模型中对女性高于男性,这由高FPR驱动,因此对男性的并发症高估。
肾病在两种情况下勉强超过ε阈值。尽管是最不偏见的模型,但仍存在一些偏见。组织感染在几乎所有指标中都超过了阈值,表明模型高度偏见。同样,对于心血管事件,阈值在四个指标中被超过,表明显著偏见,所有模型中观察到最大的比率。
讨论
本研究的目标是比较使用两种视角的数据识别糖尿病并发症的机器学习模型的预测性能:临床环境中的EHR和实验室数据,以及使用行政健康和人口统计学数据的公共卫生环境。次要目标是评估具有所有可用数据的模型的算法公平性。
我们的结果显示,总体而言,临床和公共卫生方法之间的预测性能相当,尽管不同并发症的模型性能存在差异。在各种并发症中,仅使用年龄、性别和诊断史的模型预测性能最差。纳入实验室数据或医院利用和人口统计学特征改善了模型性能,而纳入两类信息会产生性能最强的模型(心血管并发症除外,在该领域健康数据并未提升AHD模型的性能)。
算法公平性分析揭示了模型中存在基于性别的强烈偏见,以及肾病在缺少HbA1c数据时的偏见。在其他健康相关结果的机器学习模型中也记录了针对女性的类似性别偏见,包括高假阴性率。现有文献记录了糖尿病并发症风险的性别差异以及预测风险评分的性别差异,这可能导致模型不公平。健康结果在性别间的差异以及机器学习预测中性别相关偏见的存在,突显了在机器学习建模中报告公平性的重要性。这可能表明需要开发针对特定性别的糖尿病并发症模型。
两种数据源和糖尿病并发症机器学习预测方法在预测性能上几乎没有差异,个体层面的预测相当可比。尽管如此,包含两种数据类型的模型性能最佳。这些发现表明,两种方法可以相互补充,而不会导致矛盾的预测和隐含的治疗建议,并且在任一环境中包含所有可用数据都是有利的。
本研究有几个局限性。我们仅评估了预测因子测量和结果之间两年的缓冲期,未探索替代缓冲期长度如何影响模型性能。最佳缓冲长度可能因结果而异,例如心血管事件可能受益于更长的缓冲期,以及时捕获相关风险因素进行干预。
我们仅使用XGBoost评估模型性能。虽然更先进的算法可能提高准确性,但我们关注的是相对而非绝对性能。XGBoost在结构化数据方面仍然是一个强大且常用的算法,因其稳健性、可解释性和可扩展性,适合本研究。然而,不同模型可能依赖不同特征进行预测,使用其他模型的算法公平性评估可能不同。
模型使用丹麦的国家健康登记数据开发,这可能限制了它们对其他人群的普遍适用性。各国在医疗政策、临床实践和个人健康行为方面的差异可能影响预测性能和公平性结果。
一些性能指标,特别是F1分数和精确度,相对较低,这反映了数据的高度不平衡性。然而,本研究的主要目的是评估不同数据源之间的相对差异并评估模型的算法公平性。虽然这些指标的绝对值应谨慎解释,但以公平性为导向的见解仍然有效,并突显了在决策环境中应用机器学习时需要考虑的重要问题。
方法
数据源
本研究中使用的数据来自丹麦国家健康登记系统。所有健康数据在患者住院、看全科医生或在药店取药时报告。其他登记系统包含人口统计学和经济社会地位信息。所有数据安全存储,公众无法访问。丹麦每位公民都可通过社会保障号码(CPR)识别。此CPR号码被加密为唯一的个人识别号码(PNR)。PNR是一个密钥,可实现跨登记系统的数据链接。表1展示了特定数据库。
肾病、组织感染和心血管事件等结果由国家患者登记系统(LPR)中的ICD-10代码定义。所用的特定ICD-10代码可在补充表S3中找到。
对于每种结果,我们开发了五个不同阶段的模型,以评估使用不同数据源的模型性能。五个模型的规范在表2中指定。
已知合并症和多病共存是疾病进展的已知风险因素。Charlson合并症指数(CCI)基于ICD10诊断,是最常用的发病率衡量标准之一。如果患者在过去五年中有包含的ICD10诊断之一,我们将CCI包含为等于1的二元指标。为了改善预测的发病率信号覆盖范围,我们通过添加基于Elixhauser合并症指数(ECI)的特征来改进发病率的替代衡量标准。该指数也基于ICD10诊断,我们添加了充血性心力衰竭、抑郁症历史登记和肥胖登记的二元特征。
队列和排除标准
在丹麦,2型糖尿病由丹麦健康数据管理局定义,该机构为选定的慢性疾病和严重精神障碍开发了一种算法,称为RUKS。使用RUKS算法,获取2014-2019年期间所有2型糖尿病患者的PNR。这使得可以通过PNR链接这些患者在不同登记系统中的所有健康信息。
实验室检测结果仅在定义的时间段内对南丹麦、北日德兰和西兰地区可用。这意味着居住在首都地区和中日德兰地区的糖尿病患者被排除在外,有效地将患者群体减半。使用此队列,我们最终获得104,341名符合条件的唯一糖尿病患者。队列特征的描述性统计在补充材料表S4中,以及训练、验证和测试集的描述性统计。
研究设计
数据集由实例组成,每个实例是一个观察期、缓冲期和目标窗口。这已应用于每个符合条件的患者,使得可能有多个观察值。每个实例偏移三个月,以便目标窗口不重叠。这种方法在图4和图5中说明,并已在类似先前研究中使用。
对于观察期,我们使用了一年的数据,这足以捕获每个实例的相关特征。这一选择进一步得到了临床实践的支持,其中建议每年至少进行一次HbA1c测试。
缓冲期是观察和预测之间的时期。缓冲期设定为两年,这意味着预测在观察窗口之后两年。这使得可以预测不良结果的两年风险。选择两年缓冲期是因为某些情况下并发症的不良结果可以通过干预或减缓来避免,具体取决于并发症。
结果预测的目标窗口,即"并发症预测",在缓冲期后三个月。具有此数据结构,患者最多可生成8个实例。在数据不允许完整实例的情况下,该实例被排除。
患者前两个实例的示例可能是:实例1:2014年1月至2014年12月的观察期,2015年1月至2016年12月的缓冲期,以及2017年1月至2017年3月的目标窗口。实例2:2014年4月至2015年3月的观察期,2015年4月至2017年3月的缓冲期,以及2017年4月至2017年6月的目标窗口。
数据在个体层面上随机分为三个不同的数据集。属于个体的所有实例都在同一个数据集中。例如,在图5中,患者1的所有实例都在训练数据中,患者2的所有实例都在验证集中,患者3的所有实例都在测试集中。
模型开发
本项目使用Python 3.10.10版本实现。使用的关键库包括用于模型训练的xgboost (v1.7.5),用于可解释性分析的shap (v0.41.0),以及用于模型公平性评估的dalex (v1.6.0)。其他核心包可在补充表S5中找到。
我们使用XGBoost,一种高效强大的机器学习算法进行预测。XGBoost广泛应用于使用表格数据的研究中,在表格应用中表现出稳健的性能。对于此类任务,已被证明是一种表现良好的算法,即使与深度学习技术相比也是如此。此外,它能够处理缺失值,而由于实验室检测结果往往有相当大频率的缺失值(因为有些患者未接受测试),这是必要的。缺失值甚至可能提供有用信息,因此可以识别这些行为模式。
由于所有结果的类别分布都不平衡(因为在任何3个月内糖尿病并发症的频率较低),有必要平衡数据以避免有偏预测和性能不佳。为此,训练数据经过欠采样,使阴性案例的维度与阳性案例相当。欠采样仅应用于训练数据。验证和测试数据集保留其原始类别分布。
为了评估训练模型的性能,每个模型使用随机重启重新训练五次。我们这样做是为了考虑由阴性案例随机欠采样引入的训练集差异。通过多次重复训练过程,我们旨在解决这些差异并报告更稳健的模型性能。
为了找到XGBoost模型中最优的超参数,我们使用网格搜索方法找到产生最优模型的参数。对于每个模型和每个结果,使用python模块Hyperopt找到最大化验证AUC的最优超参数。每个模型和结果的最终超参数在补充表S6中呈现。
特征重要性分析
为了调查哪些特征对模型预测贡献最大,我们分析了不同结果的特征重要性。特征重要性使用python模块shap中的SHAP(SHapley Additive exPlanations)值计算。我们计算了每个特征的平均绝对SHAP值,在五次独立运行中取平均以确保稳定性和稳健性。为了估计特征贡献,我们使用测试数据。按平均SHAP值排名的前六个特征在图2中为每个模型和结果报告。补充材料图S2中提供了额外的SHAP分析。
评估模型的算法公平性
为了调查机器学习模型中的潜在差异,我们使用混淆矩阵(补充图S3)比较各种性能指标:真阳性率(TPR)、假阳性率(FPR)、预测均等率(PPV)、统计均等性(STP)和准确率(ACC)。我们将这些指标与子群体(如男性)与其对应群体(如女性)进行比较,以了解模型在这些亚群中的性能。
如果两个群体之间性能指标的比率超出指定范围,则认为该特征存在偏见。比较男性和女性时,如果该比率在以下范围内,则确定模型是公平的:ε < 女性指标/男性指标 < 1/ε。其中ε设为0.8,因为这是最常用的阈值,对应于四分之五规则。
如果数据中存在编码偏见、数据缺失或不平衡,或者模型严重依赖敏感属性,则机器学习模型可能对子群体表现出歧视。数据中的偏见可能源于历史不平等、非代表性抽样或社会刻板印象,随后可能被模型学习和延续。对于使用健康数据的预测,两个子群体也可能在生物学上不同,因此经历不同的预后。
【全文结束】

