研究者·瞭望丨人工智能数据采集在慢乙肝真实世界研究中的应用

—— 作者: 时间:2024-01-05 阅读数: 20

曾涛李青海崇雨田李新华

编者按

剑南山水，千门入画。2023年12月22-24日，由中华医学会、中华医学会肝病学分会和感染病学分会联合主办的“第二十一次全国病毒性肝炎及肝病学术会议暨2023年中华医学会肝病学分会年会、中华医学会感染病学分会年会”在天府之国成都隆重召开。本次会议是我国病毒性肝炎及肝病、以及感染性疾病领域国内水平最高的学术盛会，大会邀请国内外著名学者就目前病毒性肝炎和肝病学以及感染病学研究的最新进展及热点问题进行学术报告，并开展专题研讨，全方位展现学科领域的最新成就和发展趋势。与此同时，大会论文报告环节中涌现出新一代青年学者的优秀学术成果，他们孜孜以求、锐意进取的学术探索精神激励着吾辈不断向更高的目标攀登。为此，本刊特开辟“研究者·瞭望”专题，集中为广大同道呈现肝病领域新一代青年学者的风采！

高质量且高效的数据采集是真实世界大样本、多中心慢性乙型肝炎（CHB）队列研究的基础，然而目前CHB患者临床数据采集和处理存在工作冗长、低效、繁琐且数据质量不均一的问题，这一挑战主要表现在两个方面：1）住院电子病历中存在大量非结构化数据，如检验、检查报告、出院小结和“一诉五史”等病历资料，手工提取并转化为结构化数据的人力成本巨大且容易出错；2）多中心的真实世界研究中，各中心的数据存在一定的差异性，部分中心的数据以图片或纸质文件形式保存，而部分中心以电子表格数据库形式保存等。近年来，随着人工智能（AI）技术的蓬勃发展，诸如自然语言处理（NLP）技术可以实现非结构化数据中关键信息的提取，将其转化为结构化数据；光学字符识别 (OCR）技术通过识别与提取图片、扫描件中的文字信息，进而实现数据电子化采集[1-2]。基于以上问题，中山大学附属第三医院联合精点数据设计并验证了一套AI数据采集工具，可协助临床医师提高数据采集的效率。

研究整体设计

本研究系统集成了OCR技术进行纸质数据识别与提取，数据录入人员可通过拍照、文字识别实现数据电子化；针对非结构化数据，训练了一个NLP模型（图1），通过语义理解和词典匹配，将其转换为结构化数据，然后通过模型自学习的关联规则将结构化数据映射并自动填充至eCRF表。针对临床研究数据采集场景，依据中不同的角色与职责梳理出工作流程图。根据工作内容所需的专业背景不同，设置了5个用户角色：研究者、数据管理员、数据库开发人员、数据录入人员和数据核查人员。本研究乙肝患者真实世界研究数据采集全流程如图2所示。

图1. NLP模型建模过程

图2. 真实世界研究数据采集流程。深蓝色步骤在REDCap中完成，橙色部分为AI工具完成。

通过将OCR和NLP等人工智能模型嵌入REDCap软件，形成智能EDC采集系统，帮助数据录入人员将非结构化数据进行采集，从而提高录入人员的录入效率（图3）。对于结构化数据，通过OCR识别信息，并将其转换为文本文件，然后填写到eCRF中。对于非结构化数据，通过OCR进行文本化，然后通过NLP映射到结构化数据并填充到eCRF中（图4-5）。

图3 乙肝病例数据采集与管理工具界面

图4. 采用NLP模型智能化填写CRF表单

智能化填写CRF表单，采用NLP数据模型可自动从文本数据中提取出结构化数据。

图5. 数据核查

支持在redcap中查看原始图片，方便进行数据核查

本研究的OCR文字识别主要基于百度的PaddlePaddle深度学习平台开发的开源OCR工具，支持各种类型的文本，包括印刷体、手写体和场景文本等准确识别，它于2020年5月14日在GitHub正式发布，经过多次迭代，识别准确率已达到99.5%以上，已具备生产使用价值^[3]。本研究使用的NLP模型为ERNIE-Layout模型，用于理解与转化临床半结构化和非结构化数据。ERNIE-Layout是百度提出的跨模态文档理解的开源模型，基于布局知识增强技术，融合文本、图像、布局等信息进行联合建模，可实现对多模态文档（如文档图片、扫描件等）深度理解与分析^[4]。本研究的模型训练数据采用中文医学命名实体识别（CMeEE）数据集, 来自于中文医疗信息处理评测基准CBLUE)3.0版本，包含训练集数据15,000条，验证集数据5,000条和测试集数据3,000条。

结果与分析

本研究采集了3681个患者随访10年的CHB临床队列数据用作测试评估AI工具性能。研究招募了4名测试人员进行数据录入工作，并对比其与AI工具录入的效率及准确率。结果显示，AI工具并辅以复核的情况下，数据采集与人工采集拥有相同的平均准确率（P<0.05），达到98.66%。AI录入一份病历数据加上人工核验平均时间为18.30 min，传统手工录入方法的74.65 min，平均每份病历采集时间节省了75.49%（P<0.05）。

传统的人工数据采集方式需要工作人员对每条数据进行录入、修改和源数据核查工作，枯燥繁琐的重复性劳动大大加重了多中心研究的难度和人力成本。而利用AI工具辅助数据采集，仅需要人工采集部分数据用作AI模型训练与优化，即可创建流水线实现数据批量化处理，节省人力的同时也大幅缩短了数据采集所需时间。此外AI工具在成功部署后可以不计次数重复使用，面向患者数量较大的多中心数据采集需求，仍然支持批量处理，把主要耗时压缩在源数据核查步骤，这对于处理大量多中心患者数据的临床研究至关重要，节省了大量的时间成本，降低了数据采集的难度。

此外，在录入准确性方面，本文实验对比了6种不同数据类型的错误率，结果显示，AI录入的与人工复核结合使用的情况下，准确率可比拟人工录入方式，未来可用于替换传统人工操作，解放人力。另一方面，通过将纸质数据电子化，可保留原始数据的完整性，并通过NLP技术实现了非结构化数据的结构化，使得数据更易于管理和回溯。这对于乙肝患者的长期随访和治疗效果评估提供了可靠的数据基础。

总结与展望

本研究创新地将OCR和NLP等人工智能模型融入REDCap软件，为数据采集提供了新功能：（1）通过OCR文字识别模型实现了非电子数据采集的便捷化，使患者在其他医疗结构就医的纸质病历数据能够轻松上传和电子化转换；（2）借助NLP模型，实现了文本数据的自动结构化处理，并映射至eCRF。AI模型显著提高了数据采集效率，为大规模、多中心的数据采集提供了支持。此外，通过结合OCR和NLP技术，研究为多中心数据集成提供了可行的解决方案，为未来慢性病研究奠定了技术基础。

参考文献：

1. Yousefi A, Mastouri N, Sartipi K. Scenario-oriented information extraction from electronic health records[C], Proceedings of the Twenty-Second IEEE International Symposium on Computer-Based Medical Systems, 2009.

2. S. Karthikeyan, A. G. S. de Herrera, F. Doctor, et al. An OCR Post-Correction Approach Using Deep Learning for Processing Medical Reports[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(5): 2574-2581.

3. Du Y, Li C, Guo R, et al. PP-OCR: A Practical Ultra Lightweight OCR System[J]. ArXiv, 2020.

4. Peng, Q., Pan, Y., Wang, W., et al. ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding[J]. ArXiv, 2022, abs/2210.06155.

通讯作者简介

李新华

医学博士、主任医师、博士研究生导师

中山大学附属第三医院感染科副主任（疑难肝病亚专科）

中山大学附属第三医院罕见病中心副主任

中华医学会肝病分会遗传代谢性肝病协作组委员

广东省医师协会肝病医师分会副主任委员

长期从事感染及代谢性肝脏疾病机制研究

通讯作者简介

李青海

高级工程师，广州工信委人工智能专家库成员，国家重点研发计划慢病临床研究数据标准项目骨干成员，主持广州市人工智能重大科技攻关项目1项，2025中国制造基金1项，获大数据/人工智能类授权发明专利18项

第一作者简介

曾涛

中山大学附属第三医院内科学博士研究生

声明：本文仅供医疗卫生专业人士了解最新医药资讯参考使用，不代表本平台观点。该信息不能以任何方式取代专业的医疗指导，也不应被视为诊疗建议，如果该信息被用于资讯以外的目的，本站及作者不承担相关责任。

标签：新知热点聚焦乙肝

发表评论

全部评论

发表评论

专题标签

学术领域

扫描二维码，用手机看今日话题