分类筛选
分类筛选:

关于决策树论文范文资料 与基于决策树C5.0算法员工职晋级评估有关论文参考文献

版权:原创标记原创 主题:决策树范文 科目:专科论文 2024-01-03

《基于决策树C5.0算法员工职晋级评估》:这是一篇与决策树论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

[摘 要]本文在某企业人力资源管理系统数据库的基础上,利用数据挖掘技术对企业职工的人事档案信息进行深度挖掘.基于决策树的C5.0算法,构建企业员工职业晋升的评判模型,生成职业晋升评判规则集,从而实现对企业员工职业晋升的自动评判,并针对不同员工进行定向信息推送,帮助人事部门有效提高管理效率,为企业实现人力资源的优化配置提供助力.

[关键词]人事档案;数字化;人力资源管理;决策树

doi:10.3969/j.issn.1673 - 0194.2018.08.029

[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2018)08-00-02

0 引 言

企业的人事档案管理信息系统已保存了大量的员工档案信息.如何在海量的信息中快速、准确地获取、分析信息,进而提供更加个性、精准的服务是摆在企业人力资源管理部门面前的一个重要问题.其中,如何通过对系统中庞大的人事档案数据进行数据挖掘分析,尝试找出数据之间隐含的关联关系,构建员工的多维能力模型,进而据此实现职称升级推荐功能,为企业优化人力资源管理提供科学依据,丰富完善人事档案管理信息系统的智能应用是企业探寻人力资源数据挖掘的核心应用点.

1 算法的选择

在进行数据挖掘时,可以通过构建分类模型实现对数据的全面刻画以及对新数据的分类预测.数据分类一般包括两个阶段,学习阶段通过对历史数据的深度学习构建分类模型,分类阶段则利用模型对给定数据进行分类预测.决策树是用于分类和预测的主要技术之一,通过将大量数据有目的地分类,从中找到一些有价值的信息供决策者作出正确判断.

1.1 决策树算法及特点

决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则.它采用自上而下的递推方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论.决策树的每个节点都有一定量的样本,从根节点开始往下各节点样本量逐级减少,决策树算法挖掘其实是对数据进行不断分组的一个过程.决策树的类型有两种,使用哪种类型的树取决于输出变量的类型,输出变量为分类型变量,则选用分类树;输出变量为连续型变量,则使用回归树.

1.2 常用的决策树算法

基于决策树的分类有很多实现算法,比较常用的主要有ID3算法、C4.5算法、C5.0算法、CART算法等.

1.2.1 ID3算法

ID3算法是较早提出并被普遍使用的决策树算法.在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高.ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂.

1.2.2 C4.5和C5.0算法

C4.5算法是对ID3算法的一种改进和扩充,克服了ID3算法应用信息增益选择属性时偏向选择取值多的属性的不足,并且在树的构造过程中就可以进行剪枝,且能够完成对连续属性的离散化处理.C5.0是C4.5应用于大数据集上的分类算法,核心算法和C4.5保持一致,主要在执行效率和内存使用方面进行了改进.相比C4.5,C5.0在处理数据遗漏和输入字段较多的问题时更加稳健,可以提供更强大的技术来提升分类的精度.

1.2.3 CART算法

CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树.CART算法的特点是只能生成二叉树,即每个父节点只能生成两个子节点,在确定分组变量时主要根据Gini系数来进行选择.

ID3、C4.5、C5.0、CART算法都有各自的特点和适用范围.ID3算法选择最佳分组变量使用的标准是信息增益值,存在选择属性时会偏向于选择值多的缺陷.C4.5算法虽然修正了ID3算法的不足,但其算法本身只能处理留驻在内存中的数据集,并不适用于大数据集的处理,数据量的大小会直接影响运算的效率.CART算法只能生成二叉树,属性所受局限较大.C5.0算法是用信息增益率来确定最佳分组变量和最佳分割点,相较C4.5算法拥有更强大的数据处理技术,耗用内存更小,分类精度更高,适用于处理数据量较大且不在内存中存储的数据集.

经过对以上几种方法的综合比较,本文选择用C5.0算法生成决策树来对企业员工的职业晋升进行评判分析.

2 基于C5.0算法的职业晋升评判分析

在已有系统用户信息数据库的基础上,可以借助数据挖掘技术对企业职工的人事档案信息进行深度挖掘.基于决策树的基本思想及C5.0算法,构建企业员工职业晋升评判模型,生成职业晋升评判规则集,根据企业员工的实际工作情况判断其是否能够晋升,并针对不同员工进行定向信息推送,如图1所示.

在构造决策树模型时,需要从多方面对企业员工的人事档案信息进行综合考量.本文以员工年龄、学历、工龄、工资和是否晋升等基础信息为例,基于C5.0算法构造决策树模型,如表1所示.根据员工的基础信息,选择年龄、学历、工龄、工资作为决策属性集,以“是否晋升”作为类别标识属性.C5.0算法的核心是通过信息增益率来判定决策属性,选择信息增益率最大的属性作为决策属性.

将员工基础信息数据表示为训练样本数据集D,其中决策属性年龄、学历、工龄、工资分别用A1、A2、A3、A4來表示.训练样本数据集D中总共有15个元组,分类属性将这15个元组分成两个子集,每个子集中对应的元组个数分别为8和7.由此可以计算得到集合D关于分类的期望信息量.

(1)

假设将训练元组D按决策属性A进行划分,则A对D划分的期望信息如下.

决策树论文参考资料:

领导决策信息杂志社

决策杂志社

驳论文树靶子

结论:基于决策树C5.0算法员工职晋级评估为关于本文可作为决策树方面的大学硕士与本科毕业论文决策树例题经典案例280论文开题报告范文和职称论文论文写作参考文献下载。

和你相关的