分类筛选
分类筛选:

关于交叉学科论文范文资料 与数据挖掘作为交叉学科特点有关论文参考文献

版权:原创标记原创 主题:交叉学科范文 科目:毕业论文 2024-04-01

《数据挖掘作为交叉学科特点》:这是一篇与交叉学科论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

【摘 要】本文主要讲述了数据挖掘的内涵以及作为机器学习,数据仓库,统计学,智能决策等多个学科的交叉学科的特点.

【关键词】数据挖掘 机器学习 数据仓库 统计学 智能决策

20世纪90年代后期,信息技术、计算机以及网络技术迅猛发展,人类社会从此迈进了一个崭新的数字时代.但是,精彩纷呈的数据也带来了利用这些数据的烦恼,怎样才能充分利用这些数据,怎样才能从中得到最有价值的信息,是我们共同的目标和心愿,而数据挖掘技术的出现,则在很大程度上解决了这些问题,使大数据时代迎来了一个春天.

一、数据挖掘的内涵

大多数人认为,数据挖掘(data mining)的概念最早是由1995年Fayyad在知识发现会议上所提出来的,他认为数据挖掘是一个自动或半自动化地从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模型的复杂过程[1].在实际问题的解决过程中,人们慢慢总结出数据挖掘的真正内涵,那就是,数据挖掘是一项以发现数据中有价值的模式和规律为基本目标的独立的数据组织和协作的建模历程.数据挖掘是为发现大规模数据中所隐藏的有意义的模式和规律而进行的探索、实验和分析.数据挖掘是一门需要结合各行各业领域知识的交叉学科.

二、数据挖掘的特点

数据挖掘作为一种新型门类,自然有它自己独特的特点,但是它并不专属于某一个学科门类,而是多种学科的交叉,相关的学科包括机器学习,数据仓库,统计学,智能决策等多个学科,接下来文章将要讲述数据挖掘作为一种交叉学科在各个学科中的应用中所表现出来的特点.

(一)数据挖掘和机器学习

当数据挖掘在机器学习相结合时所体现出来的主要特点是强调数据的特点和分布,有严格的原则和方法.这个特点主要是在机器学习在大数据库上的应用上来体现的.

根据Tom Michael于1997年提出的定义,机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序.从这个定义我们可看出所谓的机器学习的算法旨在存在经验观测的领域中提出解决工具来为缺乏理论模型作出指导.然而早期的机器学习并非是把原始的经验观测输入,而输入的是经验中的规则,进而学习算法就是基于规则分析的基础上形成的.但是随之而来的问题也出现了,随着经验观测的量越来越大,要求学习算法不仅要分析规则,更要去理解有意义的规则,甚至还要去考虑经验观测的存储格式问题,例如销售业中各个销售分店的位置定位问题,图像库中和指定图片匹配的跟踪问题,遗传病在一个家庭中蔓延的基因等等,这些问题通常需要涉及大范围而且多个角度的数据采集,由于诸类原因,伴随产生了很多棘手的问题,比如信噪比较低,模式结构不明等问题,这就需要人们从大量数据中通过建立模型认识数据内在结构和规律的解决思虑和算法设计也纳入到机器学习的研究范围中,这时数据挖掘便开始发挥它的作用.机器学习的结果是产生新的处理数据的算法,机器学习在大数据库上的应用就是数据挖掘.任务、训练数据和实施性能是构成机器学习的三个基本要素,而机器学习的结果就是产生新的智能处理数据的算法,显然,这就是数据挖掘和机器学习之间的内在联系.

一个机器学习的算法由5个方面构成:

①任务:算法的目标,简要的如分类,类聚等;

②模型或模式的结构:线性回归模型,高斯混合模型,图模型等;

③得分函数:评价模型或算法优良性的函数,比如敏感度,BIC等;

④达到最优结果的途径设计:达到方法最优的参数估计计算算法,最速下降,MCMC等;

⑤数据管理技术:数据的保存、索引和提取、展现数据的方式,特别是数据量较大的时候存储的设计等[2].

由此可以看出,数据分析和机器学习之间既有联系又有区别,机器学习产生的算法称为“直升机型”程序,因为其核心是任务和任务完成的质量.这种算法的优点是其算法具有很高的效率,可以突出问题的重点,缺点是对数据特点的灵活性考虑不周,使算法很容易受到外界因素的干扰,其自主调节性能也就很弱.数据分析在机器学习中的应用则很大程度上解决了诸类问题,因为数据分析强调数据的特点和分布,并且有严格的原则和方法,强调建模过程和统计设计,这时数据分析的优势和特点也就显现出来.

(二)数据挖掘和数据仓库

当我们进行数据挖掘技术时要先把数据从数据仓库中拿出来,放到一個专门的数据库或者数据集市中进行数据挖掘,我把数据挖掘这个特点总结为间接性.

那为什么不能在数据仓库上直接挖掘,非要先把数据放到另一个数据挖掘库或者数据集市中去挖掘呢?到底能不能直接在数据仓库上直接挖掘呢?答案是肯定的.首先来说,数据挖掘是可以直接在数据仓库上进行的,除此之外,如果直接在数据仓库上挖掘的话,还有一定的好处,数据的不一致问题得到解决,因为数据挖掘是首先要进行数据清理工作,不但要对数据挖掘的数据进行清理,而且还要对数据仓库中的数据进行清理,因此可能会导致数据的不一致问题出现,如果是在数据仓库中直接挖掘的话,则避免了这一问题的出现,如果数据在导入数据仓库时已经进行过清理工作,那么将数据导入数据仓库后就没有必要在进行一遍清理工作,而是在数据仓库中直接进行数据挖掘,这样一来就避免数据不一致的现象,也省去了很多了时间,但是我们忽略了一个问题,那就是,没考虑到数据仓库的计算资源量的问题,当一个数据仓库的计算资源和充足的情况下,完全可以直接在数据仓库上进行数据挖掘,但是,如果数据仓库的计算资源不充足,那数据挖掘工作则无法完成,这时就需要另外建立一个数据挖掘挖掘库或者是数据集,这类问题则迎刃而解了.

(三)数据挖掘和统计学

随着社会的进步,人们对生活和工作提出了越来越高的要求.很多时候需要人们去建立模型来解决较为棘手的问题,并且还要做出相对准确的预测,数据挖掘和统计学这两门学科都是致力于模型发现和预测,在模型发现和预测方面,数据挖掘较统计学而言的显著特点就是数据驱动.

交叉学科论文参考资料:

学科导论论文

电气工程学科概论论文

结论:数据挖掘作为交叉学科特点为大学硕士与本科交叉学科毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写哪些专业是交叉学科方面论文范文。

和你相关的