全球范围内,心脏病一直是导致死亡的主要原因之一。本研究旨在利用机器学习算法构建一种能够准确预测心脏病的方法。作者使用了多种特征选择策略,包括卡方检验、方差分析和互信息方法,选出了三个特征组SF-1、SF-2和SF-3,并运用了十种机器学习算法,如支持向量机、XGBoost等,来确定最准确的技术和特征子集。研究使用了私人数据集和公共数据集,并通过不同的交叉验证方法评估了所提出的心脏病预测技术。为解决数据不平衡问题,采用了合成少数过采样技术(SMOTE),并基于SHAP方法开发了可解释的人工智能方法来理解系统的最终预测。实验结果表明,XGBoost算法在结合数据集和SF-2特征子集上表现最优,准确率达97.57%,敏感性为96.61%,特异性为90.48%,精度为95.00%,F1分数为92.68%,AUC为98%。
研究还指出了所提方法的多个独特贡献,如综合特征选择方法、跨多种机器学习分类器的评估、利用私人健康数据集、采用SMOTE解决数据不平衡、开发可解释的人工智能方法以及通过移动应用实现实际应用。同时,讨论了研究的局限性,包括数据集质量和可用性、类别不平衡、算法选择、领域适应和缺失数据等问题。最后,作者正在开发一款智能手机应用,未来工作将考虑扩展研究,纳入其他可解释的人工智能技术,以提高透明度和可解释性。

