癌症起源追踪
大多数脑转移性肿瘤并非起源于大脑,而是由肺部、乳腺、皮肤、肾脏或消化道等部位的癌症转移而来。明确脑转移瘤的原发灶是临床诊疗中的关键环节,尤其对接受立体定向放射外科手术(SRS)的患者而言至关重要。这种单次大剂量放疗技术虽高效,但过度辐射可能引发副作用或损伤健康组织。通过匹配原发癌类型优化放疗方案可显著降低风险,例如对放射敏感的肺癌可采用低剂量,而耐辐射的肾癌则需更高剂量。
“大脑是高度敏感器官,我们必须精准确定靶区并制定治疗方案。”南卡罗来纳医科大学的Mario Fugal博士表示,“但首先需要明确治疗对象的癌症类型。”尽管电子健康记录包含大量诊断信息,人工提取临床笔记中的关键细节耗时费力。“医疗记录并非为科研设计,它们通常杂乱无章,”研究负责人Jihad Obeid医生解释,“但如果能解读这些数据,就能推动精准医疗发展。”
NLP填补编码空白
国际疾病分类(ICD)编码虽为标准化诊断语言,但对复杂病例存在局限。例如,当患者同时存在多种癌症或早期转移时,ICD编码难以标注肿瘤原发部位,且缺乏亚型信息。“临床笔记比编码更接近诊疗真相。”Fugal强调,“例如,编码仅标注‘肺癌’,但笔记会记录左右肺、上下叶或小细胞/非小细胞等关键信息。”
研究团队开发的NLP模型能自动解析医生笔记,识别提示原发癌类型的关键词(如乳腺癌的“导管”、皮肤癌的“黑色素瘤”),并据此分类患者。在测试中,该模型分析了1400名接受SRS治疗患者的8.2万份临床笔记,准确率超90%。对于肺癌、乳腺癌等常见癌症,分类准确率高达97%,且能识别ICD编码无法区分的肺癌亚型。
轻量化模型的医疗价值
这一NLP模型具备显著优势:无需依赖大规模数据集、复杂训练或高算力资源,且规避了生成式AI的伦理争议。“其核心价值在于轻量级和可扩展性。”Obeid指出,“即使是资源有限的医院也能部署应用。”目前,团队正基于类似技术开发预测放射性脑坏死风险的模型,该罕见但严重的并发症可能导致脑肿胀。未来还可拓展至其他癌症类型,结合影像或实验室数据优化诊疗。
Obeid认为,这项研究代表医疗领域的重要趋势:电子健康记录正从单纯存档工具转变为实时改进医疗的动态数据源。“自动化提取非结构化笔记中的信息,能构建精准、实时的数据集。”他总结道,“这不仅节省时间,更开辟了研究放疗等治疗手段疗效的新途径。”
【全文结束】

