分类筛选
分类筛选:

关于数据挖掘方法论文范文资料 与大数据背景下数据挖掘方法其应用有关论文参考文献

版权:原创标记原创 主题:数据挖掘方法范文 科目:毕业论文 2024-04-13

《大数据背景下数据挖掘方法其应用》:此文是一篇数据挖掘方法论文范文,为你的毕业论文写作提供有价值的参考。

摘 要:人类已迈入大数据时代,但很多时候我们会感到被数据淹没,却缺乏知识的困窘,并没有“得数据者得天下”的能力.因此,数据挖掘成了我们提取海量数据信息的必要窗口,本文主要探讨数据挖掘的一些算法、模型及其应用以提高大数据处理能力.

关键词:大数据 数据挖掘 算法 模型

中图分类号:TP311 文献标识码:A

1.什么是大数据

虽然说“大数据”一词在当今时期是炙手可热,很多人都曾对大数据进行定义,但至今为止仍然没有人给出一个明确的定义.大家都认为它具备规模大、多样化、动态化、处理速度快、蕴含有价值的信息,由于其具有规模庞大的特点,我们只能通过机器从浩如烟海、杂乱无章的数据中挖掘对我们有价值的信息,实现数据为我们所用.

2.什么是数据挖掘

从规模庞大的信息中,可以利用数学建模算法以及数学软件去找到对我们有价值的隐晦信息.[1]数据挖掘是面向事实的,利用数据挖掘工具,以客观统计分析方法挖掘出企业经营的需求信息,得到正确的销售模式、客户关系和行为策略等,有利于企业掌握正确的经营动态,增加利润并减少开支.“数据挖掘”在方法论上强调“面向数据”,由于它充分运用了自动化的数据收集技术和速度快、容量大的计算机,从而具有处理大量复杂数据库的能力.数据挖掘技术能够进一步运用统计等方法对数据进行再分析,以获得更深入的了解,并具有预测功能,可借助已有的数据预测未来.所以,曾有人说“数据挖掘是掌握商机的命脉”.

3.數据挖掘的过程

数据挖掘的过程一般可分为三个阶段,包括数据准备、模式发现和数据挖掘结果.数据准备阶段用于为后续的模式发现提供有质量的数据.包括数据净化、数据集成、数据变换和数据归约.模式发现阶段是数据挖掘过程中的核心阶段,第一要确定挖掘任务和挖掘算法,通过对历史数据的分析,结合用户需求、数据特点等因素,得到供决策使用的各种模式和规则,从该任务的众多算法中选择合适算法进行实际挖掘,得出挖掘结果,即相应的模式.挖掘结果阶段是怎样将挖掘出来的模式和规则以一种直观、容易理解的方式呈现给用户,即可视化.

4.数据挖掘的方法及应用

4.1关联规则

关联规则挖掘[2]是数据挖掘的本质,它通过对规模庞大的信息进行量化处理,然后建立各类信息的联系,从而让那些看似无关的信息的关联性得以显现并为我们所用.

应用:关联规则的案例最著名的莫过于“啤酒和尿布”的故事,这两件看似毫无关联的事务,挖掘人士通过在杂乱无章、浩如烟海的数据中将两者建立关联,从而为超市带来巨大利润.而这一方法被称为“购物篮分析”.此外,关联规则在金融服务、通信、互联网行业的应用也越来越广,公司利用它在大量的金融数据中找到和开发投资策略相关联的交易和风险模型;股票公司则利用关联规则挖掘股票价格的趋势,信用卡公司挖掘客户的数据来获得信用模式;在通信领域,在路由器中采集有关入侵的信息,来判断 对系统的攻击习惯和行为,进而有效地提高了通信的安全性.此外,Web挖掘、科学数据分析、分类设计、捆绑销售和亏本销售分析等也都会从关联规则挖掘中受益.

4.2聚类分析

聚类分析是通过一定的规则将已有的数据集合划分成新的种类,而新的种类在性质上是相似的.所以它是研究数据间物理上或逻辑上相互关系的技术.通俗地讲即是“物以类聚”.聚类分析[3]获得的结果可以作为下一步研究的基础数据,比如关联规则挖掘、多元统计分析、时间序列分析等模型需要的数据.聚类分析的划分方法包括K-means算法、K-medoid算法;层次方法包括BIRCH算法、CURE算法;密度方法包括DBSCN算法、OPTICS算法;网格算法包括STING算法、Wavecluster算法等.

对全国网络招聘信息[3]的文本数据进行聚类,获得主要的职业类型、专业领域以及热门的行业、职位、地域等,进而能够为高等院校及时了解社会对人才种类的需求变化情况,分析预测未来的人才市场的热点,有针对性地调整人才培养方案和设置安排相关课程提供重要的参考息,促进高校培养出更多适用当前社会就业形势的优秀人才,有助于广大在校大学生做出更合理有效的职业规划.对1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的食品、交通和通讯、衣着、娱乐教育文化服务、家庭设备用品及服务、居住、医疗保健、杂项商品和服务八个主要变量将我国的地区发达程度三类等. 聚类分析还可以帮助公司在客户基本库中获得不同的客户群体,通过购买模式来描述种类不同的客户特征.除此,聚类分析在生物学、信息检索、气候、心理学和药学领域也得到广泛的应用.

4.3遗传算法

遗传算法[4]是对生物系统在计算机上模拟研究,基于生物遗传、进化机制的适合于复杂系统优化的自适用概率优化算法.具有鲁棒性强、应用范围广、简单通用的特点.遗传算法搜索最优解的方法是模仿生物的进化过程,模拟自然选择、遗传中发生的复制、交叉、变异等现象.遵循“适者生存、不适者被淘汰”的进化规则,从而留下适应环境能力强的个体,结果群体不断地向最优解的方向进化,最终把最后一代种群里最优的个体通过解码得到满足要求的最优解.

遗传算法由于全局搜索能力强、能胜任各种函数、高维空间的优化问题,而且在数据库领域中能较好地处理不同属性之间的关系,所以大数据库容量非常大时,我们进行穷举搜索是行不通的或者解决范围大、复杂的优化问题时,这时采取遗传算法进行搜索则是一个非常有效的选择.在数据挖掘领域中常见的有基于遗传算法的关联规则挖掘,基于遗传算法的聚类算法,基于遗传算法的分类、遗传算法和模拟退火算法相结合等.

遗传算法在图像处理中的图像识别、图像边缘特征提取、图像恢复方面有着广泛的应用;在生产调度问题上,很多时候采用其他算法建立起来的数学模型只能得出近似解,而数据在不断的使用时误差会越来越大,此时采用遗传算法可以较为有效地解决这一问题,比如在流水线生产调度、任务分配、生产规划等方面.由于遗传算法是基于人工自适用的系统研究,所以在机器人领域占据很重要的地位,例如:基于遗传算法的模糊控制规则学习、使用遗传算法来设计空间交汇控制器、机器人逆运动求解问题等.

数据挖掘方法论文参考资料:

论文数据处理方法

论文数据分析方法

论文方法有哪些

数据挖掘论文

论文调查方法

国家级期刊的查询方法

结论:大数据背景下数据挖掘方法其应用为适合数据挖掘方法论文写作的大学硕士及相关本科毕业论文,相关如何学习大数据开题报告范文和学术职称论文参考文献下载。

和你相关的