关于聚类算法论文范文资料与一种加权K—均值基因聚类算法有关论文参考文献-论文写作网

《一种加权K—均值基因聚类算法》：关于免费聚类算法论文范文在这里免费下载与阅读,为您的聚类算法相关论文写作提供资料。

摘要：针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题,基于随机森林变量重要性分数,提出了一种新的加权K-均值基因聚类算法.首先,以微阵列表达数据中的样本为对象、基因为特征,训练随机森林分类器,计算每个基因的变量重要性分数；然后,以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类.在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验,结果表明：所提出的加权K-均值聚类算法和原始的K-均值聚类算法相比,类间距离和总距离的比值平均高出177个百分点,具有更好的同质性和差异性.

关键词：微阵列表达数据；聚类分析；随机森林；K-均值

DOI：1015938/jjhust201702021

中图分类号： TP391

文献标志码： A

文章编号： 1007-2683（2017）02-0112-05

Abstract：In view of the complex correlation between gene and gene in the microarray data set, a weighted K mean gene clustering algorithm based on random forest variable importance score was proposed First, the proposed algorithm begins with training random forest classifier on the microarray data, using the samples as objects and the genes as features, variable importance scores were calculated for each gene； then, a weighted Kmeans clustering were performed with genes as objects, samples as features, and variable importance score as weighted value Experiments were carried out on Leukemia, Breast and DLBCL three datasets The experimental results show that the proposed weighted K mean clustering algorithm has an average of 177 percentage points higher than the original K mean clustering algorithm with respective to the ratio of the distance between the class and the total distance and has better homogeneity and difference

Keywords：microarray expression data； clustering analysis； random forest； Kmeans

0引言

聚类是将物理或抽象对象的集合分组为由类似的对象组成的多个集合的过程,其中属于同一个集合的对象之间彼此相似,属于不同集合的对象之间彼此相异[1].聚类是机器学习和数据挖据中的重要研究内容,被广泛应用于经济、管理、地质勘探、图像识别、生物医学、生物信息学等领域中[2-6].随着高通量测序技术（Highthroughput Sequencing）的迅速发展,各物种的基因表达数据（Gene expression data）出现了爆炸式增长,同时大量的基因表达数据能够在公共数据库（如由美国NCBI管理和维护的GEO数据库、由美国斯坦福大学管理和维护的 D数据库、由欧洲EBI管理和维护的ArraryExpress数据库和由日本多所大学合作提供的CGED数据库等）中得到[7-11].在基因表达数据分析任务中,基因聚类分析有着非常广泛的应用.当前,基因聚类分析方法主要有三类：基于基因的聚类（Genebased clustering）、基于样本的聚类（Samplebased clustering）和两路聚类（Biclustering）[12,13].基于基因的聚类将基因看成聚类的对象,将样本看成描述基因的特征,表达模式类似的基因（即共表达的基因,Coexpression gene）通常被划分为同一类,一般具有相同的功能,因此可以根据聚类中已知基因的功能推断某些未知基因的功能；基于样本的聚类则以基因为特征,以样本为对象,通过样本聚类,可以发现样本的显性结构（Phenotype structure）,自动对病理特征或实验条件进行分类；两路聚类是指同时对基因和样本进行的聚类,目的是找出在某些条件下参和调控的基因聚类以及和某些基因相关联的条件,从而更精确、更细致地探索基因和样本间的相互关系.

基因聚类的主要对象是基因表达微陣列数据.原始的基因表达微阵列数据中存在着大量的冗余基因、噪声基因和不相关基因,并且研究表明,对于某类疾病的发生发展,通常是多个基因共同作用的结果,亦即基因表达微阵列中多个基因之间存在着复杂的相互作用,所以一般的基于统计的度量标准,如皮尔森相关系数、信息熵等,难以准确地表达基因的相对重要性[14].随机森林作为一种流行的机器学习算法,由于在训练决策树的过程中,既考虑了单个变量对于目标变量的影响,又考虑了多个变量之间的相互作用,其变量重要性分数被广泛应用于评价数据集中特征变量的相对重要性,尤其是应用在生物医学和生物信息学研究中[15-17].当前,基于随机森林和K-均值聚类相结合的方法已经被应用在网络入侵检测[18]等研究中,然而在基因聚类任务中,基于随机森林变量重要性分数对基因进行加权聚类研究较少,仍然是一个值得探索的领域.本文主要针对基于基因的聚类分析任务,将随机森林的变量重要性分数引入到K-均值聚类的过程中,提出了一种基于随机森林变量重要性分数的加权K-均值聚类算法,能够提高基因聚类结果的质量.

聚类算法论文参考资料：

结论：一种加权K—均值基因聚类算法为大学硕士与本科聚类算法毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载，关于免费教你怎么写聚类算法知识图谱方面论文范文。