发表时间: 2025-02-12 11:07
电子健康档案(electronic health record,EHR)数据是开展临床研究的重要数据来源,然而缺失数据的存在,是基于EHR数据开展临床研究的突出挑战。Health Data Science《健康数据科学(英文)》近期刊发北京大学人民医院刘慧鑫副研究员和北京大学健康医疗大数据国家研究院洪申达助理教授团队的文章《Moving Beyond Medical Statistics: A Systematic Review on Missing Data Handling in Electronic Health Records》,对不同缺失数据处理方法在EHR缺失数据处理中的表现进行了系统综述,结果表明,机器学习算法有望弥补传统统计方法在处理EHR缺失数据上的局限性,为提高高维缺失数据处理的稳健性带来新思路。
作|者|团|队|介|绍
任文辉
(第一作者)
助理研究员
北京大学人民医院 临床流行病与医学统计学平台
Department of Clinical Epidemiology and Biostatistics, Peking University People's Hospital
刘慧鑫
(共同通讯作者)
副教授, 副研究员
北京大学人民医院 临床流行病与医学统计学平台
Department of Clinical Epidemiology and Biostatistics, Peking University People's Hospital
洪申达
(共同通讯作者)
助理教授, 副研究员
北京大学健康医疗大数据国家研究院
National Institute of Health Data Science, Peking University
随着人工智能技术在医疗健康领域的快速发展,“健康医疗大数据开放共享、深度挖掘和广泛应用”已成为国家大数据战略布局的重要议题。其中,融合患者全方位多模态信息的电子健康档案(electronic health record,EHR)数据成为不可或缺的信息来源,有望推动临床研究,改善临床决策。然而,在EHR的二次利用与数据分析中,关键变量的缺失可能对研究结果的准确性和可靠性产生重大影响。尽管已有多篇文献综述从传统医学统计研究角度总结了不同缺失数据填补方法的优势和挑战,目前尚缺乏不同策略在EHR应用中的全面概览及性能分析。
基于此,研究团队开展了一项系统综述,检索了MEDLINE,EMBASE,和Digital Bibliography & Library Project从数据库创建到2024年3月30日期间的2033篇原创性研究。通过提取文献发表特征(出版年份、研究设计和数据集名称)和缺失情境(缺失机制、缺失比例和缺失模式)等关键信息,综述了传统医学统计方法和机器学习方法用于处理不同情境下EHR缺失数据的研究进展,并比较不同方法的缺失值处理效果。
本研究发现,纳入的2010至2024年期间发表的46项研究中,应用了覆盖传统医学统计和机器学习领域多达15种缺失数据处理方法,表明在大数据时代下,EHR相关临床研究对数据质量给予高度关注。调研发现,链式方程多重填补法是目前应用于EHR缺失数据处理最为广泛的传统医学统计方法,而生成对抗网络和基于k近邻算法的方法则分别是最常见的处理缺失数据的深度学习方法和传统机器学习方法。
相较于传统统计方法,深度学习或传统机器学习算法处理缺失数据的性能通常更优,尤其是在纵向数据。潜在原因可能为,医学统计方法的应用通常需要数据服从特定分布并基于缺失机制的特定假设(如完全随机缺失或随机缺失),而机器学习模型训练过程主要由数据驱动,受数据分布的限制较小,因此适用范围广,尤其是大样本、多中心、多维度和多时点的EHR数据。
总而言之,本研究结果揭示了机器学习算法在提升EHR缺失数据处理效果方面具有巨大潜能,尤其是可提高纵向、高维缺失数据处理的稳健性。另外,由于现行研究中进行缺失数据处理方法效果比较的数据集异质性大且评估方法各异,未来的EHR缺失数据处理研究还需要通过构建标准化EHR的基准分析平台完成。