关于中文图书论文范文资料与基于融合特征的中文图书作者人名消歧方法有关论文参考文献-论文写作网

《基于融合特征的中文图书作者人名消歧方法》：关于免费中文图书论文范文在这里免费下载与阅读,为您的中文图书相关论文写作提供资料。

摘要：中文图书作者中一人多名和多人同名现象普遍存在；且各属性描述参差不齐.融合特征消歧算法处理过程中准确率有所下降.本文将作者属性分为实体特征、上下文关系特征、社会关系特征.借助向量空间模型用属性互斥放大和特征矩阵空缺缩小方法调整属性和矩阵权重系数后计算作者相似度.通过基于凝聚的层次聚类实现消歧,构建中文图书作者信息模型.用B_Cubed指标评测消歧结果,准确率、F值分别达到为89.42%、87.45%.

关键词：中文图书作者；人名消歧；互斥放大；空缺缩小

中图分类号：TP311 文献标志码：A 文章编号：1009-3044（2018）11-0182-03

Research on Chinese Book Author"s Name Disambiguation Based on Fusion Features

LI Meng-ya

（College of Computer Science, North China University of Technology, Beijing 100144, China）

Abstract： There is a widespread phenomenon that one person has many names and mutil-persons he co-name in Chinese book authors； and the description of attributes are uneven.The phenomenon of the homonym of more than one and many people in Chinese book writers is common, and the description of each attribute is uneven.The accuracy of the fusion feature disambiguation algorithm is reduced.This paper divides the author"s attributes into three categories： Entity Features, Contextual Relationships, and Social Relations.With the aid of the vector space model, the attribute mutex amplification and the matrix vacancy reduction method are used to adjust the weight, then calculate the authors" similarity.The Chinese book author information model is constructed by using the hierarchical agglomerative clustering to realize disambiguation.The results of disambiguation were evaluated with B_Cubed index. The accuracy and F-value were 89.42% and 90.47% respectively.

Key words： Chinese book author； name disambiguation； mutex amplification； vacancy reduction

1 引言

中国人口占世界人口比例排第一位.中国的姓氏词典共23,813个姓氏.在这个范围内挑选中文名称,导致姓名重复率高,中文图书作者重名现象也同样普遍存在.一人多名也是常见的現象,即名称变体,尤其文人墨客多有字号、原名、笔名等,这也是人名消歧研究要面对的问题.

搜索引擎、数据库或者数字化图书馆、专家知识库、文献数据库等应用多以人名作为重要检索条件[1].中文图书作者同名现象的存在,严重影响检索结果质量,故此中文图书作者人名消歧在此类应用场景中尤为重要.对中文图书作者人名消歧将提高搜索同名和名称变体作者结果的准确性,利于快速定位作者信息与作品信息.

当前研究多以人名消歧为主,专门对中文图书作者领域研究较少.本文旨在融合特征相似矩阵时做属性互斥放大、特征矩阵空缺缩小处理改进,丰富中文图书作者人名消歧的方法.

2 研究过程

2.1 相关研究

人名消歧可以从不同的出发点解决问题.第一种从社会网络角度出发.GHOST系统就是基于论文合作者关系构建出来的系统[2].唐杰也是在论文合作关系上进行专家消歧的.但当面对合作者信息不足时,消歧准确率急剧下降.为弥补这种情况下的不足,郑才松加入文章内容的考虑,从这两个方面进行各自聚类并融合其结果.提升了合作者缺失时同名区分的效果[3].

第二种从机器学习角度出发.主要分为三类：基于监督的[4]、无监督的[5][6]、半监督的[7].首先人工标记的数据,以这些数据训练作者名称分类模型.这种方法称为基于监督的方法.然后,利用学习模型预测每篇论文的作者分配.在无监督的方法,分簇算法或主题模型用来找到纸分区,在不同分区的文件分配给不同的作者[8][9].

第三种是基于特征角度出发.阳怡林等人将文本分为三类,转换为三个特征矩阵.再将这三个特征矩阵融为一个融合特征矩阵.三个特征矩阵及融合特征矩阵当做输入,采取不同的聚类算法得到不同的划分,利用均方误差邻接矩阵聚类算法对这些划分进行集成,实现人名消歧[10].当特征矩阵缺失率较低时该算法人名消歧效果较好.由于中文图书作者特征矩阵具有缺失率高的特点,此算法失去优势.

中文图书论文参考资料：

结论：基于融合特征的中文图书作者人名消歧方法为关于中文图书方面的论文题目、论文提纲、中文图书论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。