分类筛选
分类筛选:

关于Hashtag论文范文资料 与文本表示方法对微博Hashtag推荐影响有关论文参考文献

版权:原创标记原创 主题:Hashtag范文 科目:毕业论文 2024-04-21

《文本表示方法对微博Hashtag推荐影响》:这篇Hashtag论文范文为免费优秀学术论文范文,可用于相关写作参考。

摘 要:在总结国内外Hashtag推荐方法和短文本表示方法的基础上,文章利用基于K最近邻(KNN)的Hashtag推荐方法,将微博文本表示为向量然后计算相似度,从语料中选出和目标微博最相似的微博文本,然后抽取候选Hashtag.文章比较了向量空间模型(V )、潜在语义分析模型(LSA)、隐含狄利克雷分布模型(LDA)、深度学习(DL)等四种文本表示方法对基于KNN的Hashtag推荐效果的影响.以Twitter上H7N9微博为测试数据,实验结果表明深度学习的文本表示方法在基于KNN的Hashtag推荐中取得最好的效果.

关键词:Hashtag推荐;K最近邻;文本表示;深度学习

中图分类号: G252 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015057

Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.

Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning

1 引言

当前,各种主流微博平台都提供Hashtag标注功能,如关于马航坠机事件的Hashtag在Twitter中为“#MH370”,在新浪微博中为“#MH370#”,虽然不同微博平台中Hashtag的具体标记形式可能不同,但功能基本相同,都具有主题标注和话题参和的功能[1-3].主题标注功能指Hashtag能够表达一条微博中的主题信息;话题参和功能指用户使用Hashtag参和同一个话题的讨论.在微博平台中,上述功能使Hashtag在信息组织和信息检索方面具有优势,因此越来越多的学者开始深入研究Hashtag[4-6].但在实际的微博数据中Hashtag的标注数量较少,这大大降低了Hashtag的信息检索和信息组织的效率.Potts主要有两种因素降低了Hashtag的标注数量和标注质量:(1)大部分用户不对自己的微博标注Hashtag;(2)有些用户随意的标注Hashtag,出现许多难以理解的和使用的Hashtag,导致信息传播效率降低[7].因此,为了提高Hashtag的标注数量和质量,学者们提出了多种不同的Hashtag推荐方法,为用户自动推荐合适的Hashtag.

当前,Hashtag推荐方法主要有基于频次和相似度的方法、基于机器学习的方法和基于主题模型的方法等.K最近邻作为一种经典的文本分类方法,无需标注语料,并且无需花费大量时间训练模型.因此,本文尝试将K最近邻方法用于微博的Hashtag推荐.由于传统的权重计算方法和文本表示方法不适合短文本的处理[8].为此,本文对比了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度学习(Deep Learning)的文本表示等四种方法,以选择适合于基于KNN的Hashtag推荐任务的文本表示方法.

2 Hashtag推荐相关研究概述

Hashtag推荐主要依据文本内容和用户信息,目的是从微博文本中抽取关键词或者直接提取已有的Hashtag推荐给用户,用以提高Hashtag的标注数量和质量.在Hashtag推荐中,对微博短文本预处理和表示的效果直接影响到最后结果的好坏,因此需要对微博文本进行预处理,并深入挖掘文本,以表示出词汇之间的语义信息.

2.1 Hashtag推荐方法

Hashtag推荐技术包括基于频次或相似度排序方法、分类算法、主题模型、协同过滤、神经网络等方法.其中按频次或相似度排序的方法是指对最终的候选Hashtag按其频次排序,或者按照Hashtag之间相似度或Tweets之间的相似度对Hashtag进行排序.所利用的信息可分为三种:Tweets的内容特征;用户的偏好特征;Hashtag的频次和时间特征.其中用户的偏好特征指用户的关注关系,兴趣等特征.

Mazzia和Shin等将Hashtag推荐问题转化为分类问题,利用朴素贝叶斯[9]、支持向量机[10]等方法选择合适的Hashtag.基于主题模型的方法主要依据文本的主题信息推荐Hashtag[11-12],Zhang和Ding提出主题翻译模型,取得了很好效果[13-14].和以上方法相比,K最近邻方法较为简单,模型中考虑的信息较少,无需标注语料、训练模型等步骤,并且能够取得令人满意的效果.2009年,张庆国等利用V 进行文本表示,依据K最近邻方法抽取关学术论文的关键词,其实验表明该方法有效的提高了准确率和召回率[15].和该工作不同的是,本文以微博短文本作为研究对象,考察四种不同文本表示方法在基于KNN的Hashtag推荐中的实际效果,以期找到适合微博短文本的文本表示方法,从而提高基于KNN的Hashtag推荐效果.

Hashtag论文参考资料:

结论:文本表示方法对微博Hashtag推荐影响为关于Hashtag方面的论文题目、论文提纲、marc%20jacobs论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

相关免费毕业论文范文

热门有关优秀论文题目选题

和你相关的