医疗保健产生了大量的非结构化数据,包括临床笔记、患者消息和研究文章。由于其非结构化格式,这些数据中包含的有价值的见解很难纳入传统的建模技术中,但自然语言处理(NLP)正在改变医疗保健系统利用非结构化数据的方式。
医疗保健中的非结构化数据来源广泛,包括以自由文本格式记录的电子健康记录(如医生笔记和出院总结)、放射学或成像报告(通常包含专家编写的成像文本描述)、患者反馈(包括调查或写给临床团队的消息)以及医学研究文章(包括临床试验或新药研发的信息)。有效利用这些数据源对于构建最佳的预测医疗保健模型和改善患者结果至关重要。
自然语言处理(NLP)是人工智能的一个分支,旨在理解和解释人类语言。非结构化文本被转换为结构化数据,然后可以进一步分析或用于构建医疗保健中的预测模型。NLP 中有许多常用技术,例如分词,即将文本分解为计算机可以理解的较小组件,如单词或短语。NLP 的特定类型包括情感分析(可以确定文本的情感基调)和分类(可以将文本分类为预定义的组,例如识别患有疾病或处于高风险的患者)。
NLP 在医疗保健数据中有许多具体的应用。在患者风险评估方面,NLP 可以通过自动从笔记、报告和出院总结中提取临床信息来增强评估。传统上,临床医生必须审查这些文件来确定患者风险,但 NLP 可以自动实时识别高风险个体。这些模型还可以结合医疗记录的其他方面,如实验室结果和病史,进一步完善风险评估。例如,NLP 模型可以快速读取患者的所有临床笔记,识别反复出现的趋势或共病因素,否则可能会遗漏增加的风险。
在患者反馈的情感分析方面,患者反馈对于改善医疗保健服务至关重要,但书面评论或反馈难以正确分析和综合。NLP 技术可以轻松评估此反馈的语气,为医疗保健工作者提供患者满意度的见解。NLP 还可以识别反复出现的问题以推动决策制定,并确定需要关注的特定领域以改善患者体验。
在人口健康管理方面,NLP 对于从患者临床记录、公共卫生报告和新闻文章中提取数据以识别人口健康趋势也至关重要。在疾病爆发期间,这一点尤为关键。在 COVID-19 大流行期间,NLP 被用于跟踪医疗报告、新闻媒体甚至社交媒体的实时数据,以识别新兴热点并推动公共卫生应对措施。对这些模型的改进可以帮助更快地识别这些爆发并帮助资源分配。
尽管 NLP 具有潜力,但在将其应用于医疗保健数据时仍存在一些挑战和伦理考虑。必须牢记严格的隐私法规,包括 HIPAA,以保护高度敏感的医疗数据。任何使用此数据构建的模型也必须具有强大的安全保护措施。
还存在使用 NLP 开发的模型会加剧医疗保健领域现有偏见的风险。数据驱动的模型永远只与用于其开发的数据一样好,因此,如果模型主要基于某些人口群体的数据进行训练,或者如果医生在其临床笔记中表现出隐藏的偏见,最终模型可能对少数群体表现不佳并加剧健康差距。解决这一问题需要不断努力提高培训数据的质量和多样性。
医疗保健中人工智能和 NLP 的未来前景广阔。NLP 的改进领域特别包括为模型开发创建更大和更多样化的数据集。增加对更个性化数据源(如基因测试或可穿戴设备)的访问也可以提高任何开发的 AI 模型的预测能力。采用和更好地理解这些模型的效用也是未来的重要步骤。
总结而言,NLP 通过释放以前难以分析的非结构化数据(包括医生笔记和患者消息)的潜力,正在改变医疗保健领域。虽然存在偏见和数据隐私等挑战,但这些模型对医疗保健的影响预计将不断增长,以进一步加强患者护理。
Mehrnaz Siavoshi 拥有数据分析硕士学位,是一名全职生物统计学家,致力于医疗保健领域复杂的机器学习开发和统计分析。她在人工智能方面有经验,并在人民大学教授生物统计学和机器学习的大学课程。

