分类筛选
分类筛选:

关于舆情论文范文资料 与旅游网络舆情主题分析澳门为例有关论文参考文献

版权:原创标记原创 主题:舆情范文 科目:职称论文 2024-03-26

《旅游网络舆情主题分析澳门为例》:本论文可用于舆情论文范文参考下载,舆情相关论文写作参考研究。

[摘 要]随着旅游产业的逐步发展和Web 2.0时代的到来,各种和旅游目的地相关的舆情见诸网络,因此而产生的旅游网络舆情数据量也和日俱增.然而,如何从海量的旅游网络舆情数据中提取有价值的信息,成为了急需解决的问题.本文以澳门地区为例,从互联网上采集和该地区相关的旅游舆情数据,采用文本挖掘的相关技术,建立主题模型并进行分析.这对于旅游企业维护企业形象、制定发展战略;政府进行旅游目的地舆情监测及制定建设规划,具有积极的借鉴意义.

[关键词]旅游;网络舆情;澳门

doi:10.3969/j.issn.1673 - 0194.2017.14.113

[中图分类号]F592.7 [文献标识码]A [文章编号]1673-0194(2017)14-0-02

0 引 言

随着社会经济的平稳发展,我国旅游业进入了蓬勃发展阶段.同时,随着信息技术的快速进步,新兴的社会化媒体和传统的大众媒体,更加便捷地通过互联网对旅游热点事件或议题表达情感、意见、观点和态度.旅游网络舆情这一新兴的网络现象,越来越被科研工作者、政府、旅游企业所重视.针对旅游网络舆情数据量大、噪声多的特点,本文采用主题模型的方法对其进行分析研究,不仅可以及时掌握旅游者出游过程中的利益诉求,还可以了解旅游目的地的热点问题,从而为政府机构和旅游企业提供有价值的决策信息.澳门作为世界上有名的旅游目的地之一,广受广大旅游爱好者尤其是内地游客的喜爱.自2003年澳门自由行政策开放以来,赴澳旅游人数大幅增加,其间的旅游问题层出不穷.因此,本文拟采集澳门旅游网络舆情的相关数据,建立主题模型并进行分析,并最终给出结论.

1 主题模型

主题模型是目前文本挖掘领域常用的语言模型,是结合机器学习和自然语言处理等相关方法的一种统计模型.主题模型的基本思想认为文本是由多个主题混合而成的,而主题是特征词上的一种概率分布,即每篇文本是主题的混合分布,而每一个主题是一组特征词的混合分布.主题模型中最常用的是LDA(Latent Dirichlet Allocation).类似于分层贝叶斯,LDA模型包括3层(语料层、文档层、词层),如图1所示.灰色阴影部分W代表可观测随机变量,Z和θ代表潜在变量,α和β是在语料层的超参数,矩形框(plate)代表贝叶斯概率求解的迭代过程.最外边的矩形框M代表文档,里面的矩形框N代表在一个文档中重复地选择潜在主题和词.

其中,α是服从Dirichlet分布的参数,决定主题之间的差异性,α越小,主题之间差异性越大;θ是一个1×K的随机列向量,表示各主题发生的概率,P(θ)~Dirichlet(α);zi,j是由θi概率分P(θ),产生的离散随机变量,表示文档i中词j的话题概率;φ是一个K×|V|的矩阵,表示话题K的词汇概率分布,且β是φ分布的超参数.那么,在α和β已知的情况下,可以得到θ、z、w的联合分布:

因此,在LDA模型中,只需要知道α和β的参数值便可用于表示文档集.通过贝叶斯概率模型,使用极大似然估计(EM)的方法求α和β的后验分布.具体的参数估计方法此处不进行赘述.

困惑度(Perplexity)是一种常用来衡量主题模型的指标.通常来说,一个较低的困惑度的模型表示具有更好的泛化性能力.对于M篇文档,困惑度的定义如下:

2 主题建模和分析:以澳门为例

2.1 数据来源及预处理

针对澳门地区2015年的旅游网络舆情,本文使用网络爬虫采集每条舆情的标题、内容、发布时间,其中,将发布时间转化为时间戳,作为该舆情的唯一标识符(ID).接着,对采集的内容进行清洗、分词、去停用词等预处理操作.

值得注意的是,采集的澳门旅游舆情数据为繁体字,并不能简单地将其转换为简体字进行处理.因为粤语在表达方式上和普通话存在一些差别.因此,为了保证模型的效果,本文没有采取繁转简的操作,而是针对语料特点,反复迭代建立繁体停用词表及字典.

2.2 主题模型训练和结果分析

在预处理的基础上,本文对2015年澳门旅游网络舆情数据建立LDA主题模型.为了确定需要的主题的个数,本文先设定主题数分别为10、20、30、40、50、70、90,分别得到各个主题数下的困惑度,并绘图(见图2)观察.

根据图2可以看出,主题数为20时,困惑度发生了明显变化,且随着主题数的增加,困惑度变化幅度不再显著.同时,根据观察所得结果,主题数为20时,各个主题之间差异相对明显,且能代表所有网络舆情.所以,选取最佳主题数为20,主题模型结果如图3所示.

为了了解舆情的着重点,本文在训练得到的LDA模型基础上,得到每条舆情属于哪个主题,从而可以统计得出每个主题的主题强度,结果如图4所示.

统计结果显示,主题10、主题11、主题2依次占有较大比重,是舆情的主要焦点.通过总结归纳,主题10主要和零售业相关,主题11主要和政府旅游规划相关,主题2主要和政府立法活动有关.另外,通过主题模型的结果,还可以发现,水货客(主题3)、突发事件(主题17)、酒店业(主题16)、社会矛盾(主题20)、金融投资(主题1)等也是澳门旅游业中相对集中的话题.

3 结 语

本文以澳门为例,将文本挖掘方法中的LDA模型(Latent Dirichlet Allocation,LDA)應用于旅游网络舆情分析,对澳门地区2015年旅游网络舆情有了整体、客观的了解.这对于政府制定旅游政策和引导舆论方向,具有积极的借鉴意义.

主要参考文献

[1]付业勤,郑向敏.网络新媒体时代旅游网络舆情研究:源起、价值和构想[J].河北学刊,2013(5).

[2] T K Landauer,D S Mcnamara,S Dennis,et al. Handbook of Latent Semantic Analysis[M].NewYork,NY:John Wiley & Sons Ltd,2007.

舆情论文参考资料:

结论:旅游网络舆情主题分析澳门为例为大学硕士与本科舆情毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写舆情监控方面论文范文。

和你相关的