分类筛选
分类筛选:

关于预处理论文范文资料 与中医方剂数据库文本挖掘数据预处理尝试有关论文参考文献

版权:原创标记原创 主题:预处理范文 科目:硕士论文 2024-02-12

《中医方剂数据库文本挖掘数据预处理尝试》:本文是一篇关于预处理论文范文,可作为相关选题参考,和写作参考文献。

摘 要:目的针对中医方剂数据挖掘需要提出一套以数据清洗为主的数据预处理方法,使数据规范、准确和有序,利于后续处理.方法通过检索技术,在方剂数据库中获取文本数据源,将非规范化的数据通过辅助词群行处理、正则表达式替换、异名处理等步骤进行清洗,改进数据质量.结果在中国方剂数据库共检索到1758条记录,在方剂现代应用数据库共检索到91条记录.源文本数据经预处理后共得到有效记录6913味药,可成功导入相关信息挖掘系统进行方剂名称和中药名词的信息抽取.结论本方法适用于基于中医方剂数据库的文本挖掘和知识发现,可成功对源文本数据实施清洗,得到标准统一、无噪声的数据,实现所需方药信息的有效抽取,可为中医方剂文本型数据信息分析和挖掘研究提供有益的借鉴.

关键词:中医方剂:方剂数据库:文本挖掘:数据预处理:数据清洗

doi:10.3969/j.issn.2095-5707.2015.03.003An Attempt on Data Preprocessing for Text Mining in TCM Prescription DatabaseWU Leil, LI Shu2(1. Information Engineering College, Liaoning University of TCM, Shenyang Liaoning 110847, China;2. Department of Medical Informatics, China Medical University, Shenyang Liaoning 110001, China)

Abstract: Objective To propose a set of data preprocessing method based on data cleaning for TCMprescription database; To make data more standard, accurate and orderly, and convenient for follow-up processing.Methods The text data source was retrieved from prescription databases by bibliographic searching techniques.Non-nonnalized data were processed through steps followed by auxiliary word group line processing, regularexpression substitution, and synonyms processing, with a purpose to unprove data quality. Results Totally 1758effective records were retrieved from TCM prescription database, and 91 records were retrieved from prescriptionmodern application database. 6913 effective Chinese herbal medicines were retrieved after preprocessing, whichcan be successfully imported into relevant information mining system, and information about prescription andherb names can be extracted. Conclusion This method is applicable for text mining and knowledge discovery in TCM prescription database. It can successfully implement data cleaning for source text data, get data with unifiedstandard and without noise, and finally realize the effective extraction of prescription information, which canprovide references for researches on analysis and mining ofTCM prescription text data.

Key words: TCM prescriptions; prescription database; text mining; data preprocessing; data cleaning

近年来中医药信息化发展迅速,已构建及完善了大量的中医方剂数据库,中医方剂数据挖掘和文本挖掘方兴未艾.虽然方剂数据库是经过一定校对勘误后的结构化数据库,但库中原始数据通常因年代跨度大,并保留了不同时期原方的信息特点,对方剂、药物信息的表述准确性及规范统一方面存在一些问题,存在错误的、冗余的、无效的和不一致的噪声数据.因而直接抽取原生信息无法满足数据挖掘和知识发现的具体要求,需要对数据进行必要的预处理,使之规范、准确和有序,实现数据的正确表达和合理组织,达到数据挖掘的基本条件.

数据预处理是数据挖掘中极为重要的方面.数据挖掘过程的大部分工作都在数据预处理环节.根据统计,在一个完整的数据挖掘过程中,数据预处理占用约60%的时间,而后的挖掘工作仅占总工作量的10%左右.数据清洗( data cleaning)是解决问题数据的主要预处理过程,对确保数据质量具有重要作用.本文以中医治疗中风病方剂数据挖掘为例,探讨一种以数据清洗为主的数据预处理方法,为后续配伍规律知识发现研究提供数据支持.

预处理论文参考资料:

结论:中医方剂数据库文本挖掘数据预处理尝试为关于对不知道怎么写预处理论文范文课题研究的大学硕士、相关本科毕业论文钢板预处理线论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

和你相关的