本研究旨在开发和验证一种结合膳食抗氧化剂的机器学习模型,用以预测糖尿病患者的心血管疾病(CVD)风险。通过利用SHAP值分析关键抗氧化剂的贡献,研究提供了基于证据的见解和饮食建议,以改善糖尿病患者的心血管健康。
研究利用了美国国家健康与营养检查调查(NHANES)的数据,构建了包含抗氧化相关变量(如维生素、矿物质和多酚)以及人口统计学、生活方式和健康状况因素的预测模型。数据预处理包括去除共线性、标准化和类别不平衡校正。研究使用mlr3框架开发并评估了多种机器学习模型,并通过基准测试比较其预测性能。最佳模型中的特征重要性通过SHapley Additive exPlanations(SHAP)进行了解释。
研究纳入了来自NHANES的1,356名糖尿病患者的数据,其中包括332名合并心血管疾病的患者。在去除共线性变量后,保留了27个膳食抗氧化特征和13个基线协变量。在所有模型中,XGBoost表现出最佳的预测性能,准确率为87.4%,错误率为12.6%,AUC和PRC值均为0.949。SHAP分析突出了染料木素(Daidzein)、镁(Mg)、表没食子儿茶素没食子酸酯(EGCG)、天竺葵素(Pelargonidin)、维生素A和茶黄素-3'-没食子酸酯(Theaflavin 3'-gallate)作为最具影响力的预测因子。
结论表明,XGBoost在预测糖尿病患者心血管疾病风险方面表现最佳。SHAP分析强调了膳食抗氧化剂的显著贡献,其中染料木素和镁被确定为最具影响力的预测因子。
(全文结束)

