关于数据仓库论文范文资料与图书馆管理数据仓库挖掘技术分析有关论文参考文献-论文写作网

《图书馆管理数据仓库挖掘技术分析》：该文是关于数据仓库论文范文，为你的论文写作提供相关论文资料参考。

摘要：图书馆借阅记录是读者使用图书馆资源的最佳证据,也是读者满足个人信息需要的行为体现,反映了读者的使用需求,蕴含着大量读者和图书馆互动的信息"科学地提取和应用这些信息,对于掌握读者兴趣,加强图书馆资源整合和利用具有一定的参考价值.

关键词：数据挖掘；优化算法；数据仓库

图书信息数据仓库的作用是专业图书馆的数据服务基础,通过对读者借阅数据的集成和综合,我们能够较为全面地对读者行为进行评估和分析,进而改进和提供图书馆相对应的服务.数据挖掘的功能在于从数据库中发现隐含的！有意义的知识,按其实现过程通常可将挖掘任务分为两类：描述性挖掘和预测性挖掘.

1.利用概念描述得到广义知识（GeneraliZation）

广义知识是对数据的概括！精炼和抽象"概念描述就是对某类对象的本质进行描述,并概括其相关特征"概念描述包括特征性描述和区别性描述"特征性描述是对某类对象的共同特征的描述,区别性描述是对不同类对象之间区别的描述"生成区别性描述的方法很多,如决策树方法！遗传算法等"生成特征性描述的方法和实现技术也有很多,如数据立方体！面向属性的归纳等.

2.利用关联分析得到关联知识（A55"Ciati"n）

关联分析发现的是数据库中大量数据的项集间存在的有趣的相关联系"若某种规律性存在于两个或多个变量的取值之间,就称为关联,关联可分为因果关联！时序关联以及简单关联.

3.利用分类和聚类方法得到分类知识（elaSSifiCatiO"& elustering）

分类知识反映的是同类事物的共同性质的特征型知识和不同事物之间的差异型特征知识"对离散数据的分类称为分类,其要解决的问题是预测一个特定的对象属于哪一类"最典型的分类方法是基于决策树的分类方法.聚类实现的原理是将数据对象分成不同的组,并使组间差距尽量的大,而组内数据差别尽量小"聚类和分类的不同在于要划分的类是未知的"在数据分析模式识别！图像处理和市场研究等领域,聚类分析有着广泛的应用"聚类实现的技术有以下几种方法：基于密度的方法！基于网格的方法！划分方法！层次方法和基于模型的方法.

4.利用预测方法得到预测型知识（Prediction）

依据时间序列类型数据,由历史和当前数据推测出来的未来数据为预测型知识,也可以把它当成关联知识的一种,即它是以时间为关键属性"时间序列预测方法有神经网络！经典的统计方法和机器学习等.

5.利用偏差检测得到偏差型知识（Deviation）

数据库中常会有一些异常数据,对这些异常数据的研究非常重要"而偏差型知识即是对差异和极端特例进行描述,发现事物偏离常规的异常现象"偏差包含许多潜在的知识,比如不满足规则的特例！观测结果和模型预测值的偏差分类中的反常实例等"这些知识都可以通过偏差检测,在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观！到宏观,以满足不同用户！不同层次决策的需要"偏差检测的基本方法是寻找观测结果和参照值之间有意义的差别.

数据挖掘是一个从大型数据库中挖掘未知！有效！可实用信息的完整的过程.数据挖掘过程主要包括四个步骤：确定领域对象！数据准备！挖掘操作！结果表达和分析"以上四个步骤并不是线性的,在实际的操作中往往需要不断的反复这些步骤才能获取好的实验结果"该四步骤的详细解释如下：

1）确定领域对象

首先必须了解应用领域中的各种知识和分析在该领域中的应用目标,以确定数据挖掘的目的和需求"只有了解并熟悉了领域中的背景知识,明白用户的需求,才能明确定义要解决的问题,并为挖掘准备高品质的数据,从而才能正确的分析得到的挖掘结果,从而为挖掘领域提供好的有用的信息"因此,确定业务对象,明确挖掘目的和需求,是数据挖掘的重要一步.

2）数据准备

这个阶段包含两个方面的内容,一方面要将所需的数据从多个数据源中整合出来；另一方面要依据挖掘者的经验及其所使用工具的易用性来确定现有数据所需的指标"该阶段可进一步分为以下三个子步骤：数据的选择、数据预处理、.数据的转换.

3）数据挖掘

在数据挖掘领域,没有哪一种方法或者工具是万能的即适用于所有的数据.一般情况下,需要建立不同的模型！参数或者算法,经过比对,从中选择最恰当者.

4）结果表达和分析

依据挖掘目提取出其中最有价值的信息,以易于理解的方式表示,并对其进行分析评价"该步骤不仅要把结果表达出来,而且还要对信息进行过滤处理,以期获得符合挖掘目的的信息"若所获知识不符合需求,还需重复以上数据挖掘步骤.

读者聚类：在图书馆的实际服务中,大多数图书馆面向用户采用的都是统一的服务规则,比如图书的借阅时间！一次能最多借阅读的册数等"而实际上,往往会出现读者间借阅频率不同的情况,比如有些读者几乎每周都要借书！还书,而有些读者一年也难得借一次书,并没有体现出服务的个性化"本文通过使用聚类算法,用J A语言实现k一均值算法对读者的借阅信息进行聚类,根据读者使用情况进行读者群的划分,以便更好的服务于读者.

图书聚类：我们可以根据图书被借阅次数对图书也进行聚类分析以获取有价值的信息"可从两个角度进行分析,图书总借阅统计次数统计该书入库以来的所有被借阅频率,图书的年借阅次数反映了当年该书的被借阅频率"根据需要,我们选择图书信息表（Book--lnfo）和读者图书借阅历史信息表（Borr0WesHistor又Info）进行聚类分析"首先选择近两年类的信息量,对其中数据进行清理,依据清理之后的数据表进行统计以获取图书两年内总的借阅次数和当年的借阅次数.

在应用了数据挖掘后,应用在传统服务中的表现形式为：学生和老师图书借阅最大数量的变化和书籍受众推荐服务的职能化,根据数据产生书籍间的关联规则,系统推荐相关和能感兴趣的书籍.

参考文献：

[1] 毛国君.数据挖掘技术和关联规则挖掘算法研究.北京工业大学工学博士学位论文,2003：51一66.73招仔峰晶,于忠清.数据挖掘原理和算法.中国水利水电出版社,2003

[2] （加）JiaweiHan,MiehelineKamber著,范明,孟小峰.数据挖掘概念和技术.[M〕

[3] 邹志文,朱金伟.数据挖掘算法研究和综述.计算机工程和设计,2005,36（9）：2304一2306.

[4] 朱德利.SQLServe：2005数据挖掘和商业智能完全解决方案[Mj.北京：电子工业出版社,2007.10

作者简介：胡昕（1983.11-）,男,汉,江西省南昌市人,工程师,现就职于南昌工程学院,研究方向：计算机应用、数据库检索、网络技术.

数据仓库论文参考资料：