分类筛选
分类筛选:

关于关联规则论文范文资料 与关联规则挖掘在游戏视频销售中和应用有关论文参考文献

版权:原创标记原创 主题:关联规则范文 科目:发表论文 2024-01-16

《关联规则挖掘在游戏视频销售中和应用》:这是一篇与关联规则论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

摘 要:数据挖掘是一项热门技术,该技术融合了数据库、统计学等领域知识,关联规则的挖掘则能找出商品销售中商品之间的联系.本文针对Apriori算法,及其改进算法FP-Growth进行了研究,对比了Apriori算法与FP-Growth算法的效率,得出FP-Growth算法由于只需要对数据进行一次扫描即可生成相应的数据集,使其生成数据集的整体效率要高于Apriori算法.

关键词:Apriori算法;数据挖掘;FP-Growth算法;关联规则;游戏销售

中图分类号:TP391 文献标识码:A

Abstract:Data mining is a hot technology which comprises database,artificial intelligence,statistics,etc.The mining association rules can find out the relations among the selling commodities.This paper studies Apriori algorithm and its improved algorithm,FP-Growth,and compares the efficiency of them,where it is found that corresponding data set can be generated after only one data scanning based on FP-Growth algorithm,leading to higher overall efficiency of the generated data set than that of Apriori algorithm.

Keywords:Apriori algorithm;data mining;FP-Growth algorithm;association rules;game sale

1 引言(Introduction)

关联规则是近年来数据挖掘领域中最热门的问题之一,它已经被证明对于市场与零售业,以及其他不同领域都有很重要的作用.关联规则问题涉及了诸多技术知识,如数据库、人工智能和统计学等,该问题的研究目的是统计庞杂的数据并提取出有效信息进行分析,得到同一事件出现在不同项的相关性,关联规则发现的主要对象是交易型数据库.

Apriori算法是一种经典的挖掘关联规则的算法,该算法根据用户给出的最小支持度阈值找到交易型数据库中所有频繁项集,再通过计算找出符合最小置信度的强关联规则,从而挖掘出有用的知识.Apriori算法的核心思想有两点:(1)非频繁项的超集是非频繁项集;(2)频繁项的子集是频繁项集.该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘计算.但是,多次扫描数据库和产生数量巨大的候选集是Apriori算法的两个无法避免的性能瓶颈[1].很多基于Apriori算法的方法被提出,目的都是为了提搞扫描数据库的效率或是减少候选集的产生,其中AprioriTid算法对Apriori算法的循环扫描方式做出了改进[2],AprioriTid算法仅在计算第一个频繁项集时扫描一次数据库,然后使用候选集Ck-1来计算项集的支持度并得到频繁k-项集,从而使扫描候选项集的次数随着频繁项集阶数的增加而逐步减少,提高了扫描数据的效率.在扫描的初始阶段,由于候选项集数量远大于数据项数量,这将导致候选事务的数据量可能远大于原始事务的数据量,所以此时AprioriTid算法的效率要低于Apriori算法[3-5],而后随着候选项集的减少,AprioriTid只需要扫描比原始数据库小得多的候选事务数据库,使运算效率得以大幅提升.

2 理论基础(Theoretical basis)

关联规则挖掘的问题被定义为:

为一个或多个的n项组,项目是其中的一个字段,一般指一次交易中的一个物品[6];

为一组被称为交易数据库的事务集,而每个事务t都是I的非空子集,即每一个交易都与一个唯一的标识符对应.每一条事务中仅包含该事务涉及的项目,并不包含项目中的具体信息;

:表示规则(Rule),其中并且,项和分别是规则的前提和结论,或被称为左手边与右手边;

:表示项和的支持度,支持度的计算公式如公式(1)所示:

:被称为规则的置信度,置信度的计算公式如公式(2)所示:

:表示用户自定义的一个衡量支持度的阈值,同时也表示该项目集在统计意义上的最低阀值,用支持度来衡量规则是非常重要的,因为非常低的支持度只会偶然发生,低支持度的规则从商业的角度出发看起来也是没有意义的,因为推广客户购买非常低可能性同时出售的商品可能是无利可图的,基于上述原因,支持度常被用来消除无意义的规则;

频繁项集:对于一个项目集,如果,则称为频繁项集.

强关联规则:如果的置信度和支持度不小于用户自定义的和,则称是一个强关联规则,否则为弱关联规则.

关联规则的挖掘是在事务数据库中,找到满足用户定义的最小支持度和最小置信度要求的关联规则,其过程主要有两个阶段:

(1)第一个阶段必须先从所有数据集合中找出所有的频繁项集.

在事务数据库D的所有数据中找出满足条件的全部频繁项的集合,也就是找出所有的的项集X.

(2)第二个阶段是在这些频繁项中产生关联规则

利用频繁项集产生关联规则,针对每一频繁项集X,如果,Y非空,且,则X与Y构成了关联规则,满足用户给定的最小支持度和最小置信度.

关联规则的第一个阶段是从原始的数据集合中开始的,需要找出所有頻繁项集,这一步骤是关联规则挖掘的一个重点问题,也是能够衡量关联规则算法优良的指标.频繁项集的是指某一个项出现的频率相对于所有记录而言,必须到达某一水平.第二个问题相对容易一些,目前所有的关联规则算法都是针对第一个问题提出的[7].

关联规则论文参考资料:

文后参考文献著录规则

结论:关联规则挖掘在游戏视频销售中和应用为适合不知如何写关联规则方面的相关专业大学硕士和本科毕业论文以及关于关联规则论文开题报告范文和相关职称论文写作参考文献资料下载。

和你相关的