在临床基因组学快速发展的背景下,高通量测序技术让识别罕见和新型基因变异变得前所未有的容易。然而这项技术进步也带来了显著的诊断挑战:当发现某个基因变异时,其临床意义往往并不明确。对于患者和临床医生而言,核心问题始终存在:特定的基因突变是否必然导致疾病发生?这就是遗传学中的"外显率"问题——指携带特定基因变异个体表现出相关性状或疾病的概率。
传统评估外显率的方法通常局限于大规模人群研究,采用二元分类法(患者/非患者)进行结果判定。这种方法在高度外显的孟德尔遗传病诊断中效果显著,却难以捕捉糖尿病、心血管疾病或高血压等复杂多因素疾病的连续谱系特征。这些疾病受遗传易感性和环境因素共同作用,呈现出广泛的病情严重程度差异。
西奈山伊坎医学院的研究团队通过创新性的数据驱动方法填补了这一关键空白。他们利用人工智能和机器学习技术,开发出超越简单二元诊断的风险评估模型。相关突破性研究成果发表在2025年8月28日的《科学》在线期刊。
量化风险的机器学习框架
该团队的方法代表了疾病外显率评估的范式转变。他们并未采用传统二元结果判定,而是训练机器学习模型在连续谱系维度上量化疾病特征。模型训练使用了来自超过100万份电子健康记录(EHRs)的真实世界患者数据。
这种新方法的核心优势在于训练数据的选择。研究团队不仅依赖医生诊断结果,还整合了EHRs中常规临床和实验室检测结果,包括胆固醇水平、血细胞计数和肾功能检测等常规指标。通过分析这些精细化的定量数据点,AI系统获得了更全面的疾病进展认知。例如,模型不仅能识别高血压诊断,还能解读患者的血压读数——这个更具信息价值的连续变量。
这种分析能力转化为0到1区间的"机器学习外显率(ML penetrance)"评分。接近1的评分表示基因变异导致疾病发展的高概率,而接近0则意味着风险微乎其微。应用该框架,研究团队成功为1600多种罕见基因变异计算出ML外显率评分,为那些被标记为"意义不明"的变异提供了可操作的见解。
临床实践变革
对实验室专业人员而言,这项研究具有深远影响。ML外显率评分可整合进基因检测报告,为临床决策提供更精确的工具。相较于含糊的"意义未明变异"描述,数据驱动的评分有助于制定个性化诊疗方案。
该技术对实验室到临床的工作流程具有三大影响:
- 精细的变异解读:提供量化指标辅助罕见和新型变异分类,减少模糊结果,优化变异解读流程
- 针对性筛查预防:高风险评分可触发早期或更频繁筛查建议,如林奇综合征相关基因变异患者可能获得更早的结肠镜检查
- 避免过度治疗:低风险评分帮助医患双方避免不必要的担忧、过度监测甚至治疗
研究首席作者艾恩·福里斯特博士指出:"虽然我们的AI模型并非要取代临床判断,但它能在检测结果不确定时成为重要决策支持工具。"
未来发展路径
研究团队正致力于扩大模型的应用范围和能力:
- 拓展疾病覆盖范围:纳入更多疾病类型和遗传变异谱系
- 人群多样性:应用于不同种族和族裔群体,确保模型的普适性和准确性
- 前瞻性验证:通过长期跟踪研究验证预测准确性,评估早期临床干预对疾病风险的缓解效果
西奈山团队的研究标志着数据科学和基因风险评估融合的新前沿。正如多博士所言:"我们的研究指向这样的未来——AI与常规临床数据协同运作,为面对基因检测结果的患者和家庭提供更个性化的可操作见解。我们希望这种技术能成为支持更优决策、清晰沟通和增强基因信息认知信心的可扩展解决方案。"
这项工作不仅深化了对复杂基因相互作用的理解,更为将新技术能力整合到精准医学日常实践中(从诊断实验室到患者床边)提供了强大框架。
【全文结束】