分类筛选
分类筛选:

关于支持向量机论文范文资料 与基于NIRS和支持向量机落叶松木材密度预测有关论文参考文献

版权:原创标记原创 主题:支持向量机范文 科目:毕业论文 2024-01-27

《基于NIRS和支持向量机落叶松木材密度预测》:本论文为您写支持向量机毕业论文范文和职称论文提供相关论文参考文献,可免费下载。

摘 要:在支持向量机的理论基础上,以117个落叶松样本作为实验材料,用常规方法测定样本的密度实值,用美国ASD公司生产的波长为350-2500nm的LabSpec近红外光谱仪对样本进行相应的光谱采集,对光谱数据进行预处理,以文本格式导出.用LibSVM在matlab环境下建立落叶松密度预测模型.经分析,该模型对训练集的回归拟合,R2达到了85.04%,均方差为6.46×1014;对测试集的回归拟合,R2为85.20%,均方差为4.45×10-4,拟合效果较好.结果表明,该方法可以用于落叶松木材密度预测.

关键词:近红外光谱;支持向量机;落叶松;木材密度

中图分类号:S781.31

文献标识码:A

文章编号:1001-005X(2015)05-0044-04

现代近红外光谱(Near Infrared Spectroscopy,NIR)分析技术是近年来分析化学领域中迅猛发展的一门高新分析技术,在分析化学领域被誉为分析“巨人”.

近红外区域按ASTM(Amencan Society for Tes-ting and Materals美国材料和试验协会)定义是指波长在780~2526nm范围内的电磁波,是人们最早发现的非可见光区域.由于物质在该谱区的倍频和合频吸收信号弱,谱带重叠,解析复杂,受当时的技术水平限制,近红外光谱“沉睡”了近一个半世纪.20世纪80年代后期,随着计算机技术的迅速发展,带动了分析仪器的数字化和化学计量学的发展,通过化学计量学方法在解决光谱信息提取和背景干扰方面取得的良好效果,加之近红外光谱在测样技术上所独有的特点,使人们重新认识了近红外光谱的价值,并已广泛应用于农林、食品、石油、纺织和烟草等领域.

现有的木材密度近红外预测方法中,对近红外光谱数据通常采用各种多元校正技术进行定量分析,应用较多的有多元线性回归、主成分回归(Principal Component Regression,PCR)和偏最小二乘法(Pariial Least Square,PLS)等方法.

支持向量机(SuppoIt Vector Machine,SVM)方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息,在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳方案,以期获得最好的推广能力.SVM在建模过程中,对近红外光谱的预处理要求不是很严格,主要是将光谱信息提取,以文本格式导出,而且对于参数的选择,可以通过编写程序进行参数寻优的方法获得最适合的参数.这就大大减少了光谱信息的丢失,提高了参数的准确性,最终使模型具有更好的泛化性.

1 基本原理

支持向量机的基本原理是通过某种事先选择的非线性映射将输入向量映射到一个高位特征空间,在这个特征空间中构造最优分类超平面.

如图1所示,显然图中的数据集很容易被线性分类,但是图b中的数据集就无法线性分类,此时,可以将图b中的数据集映射到一个二维空间(如图c所示),这样就很容易将其线性分类.以此类推,对于一个原始的输入空间,找到一个合适的函数映射(X→φ(X)),将其映射到高维特征空间,从而对数据集进行线性分类(如图d所示).

2 数据采集

制备117个落叶松待测样本,其中3/4作为训练样本,1/4作为测试样本.对样本进行密度实值的测量,然后用美国ASD公司生产的波长为350-2500nm的LabSpec近红外光谱仪对样本进行相应的光谱采集(如图2所示).对采集的光谱进行平滑和一阶导数预处理,以消除样品表面不均匀和光谱平移及背景噪声带来的误差(如图3所示).

针对117个样品,在350~2500nm全波段光谱中选择11个比较显著的振动吸收峰,用于回归建模.再用数据处理软件,将光谱数据以文本格式导出.

3 数据处理

3.1 数据处理环境

用于SVM分析的软件有很多,比如:BSVM、CSVM、GiniSVM、LS-SVM以及M-SVM等.本文采用的是LibSVM.

LibSVM是台湾大学林智仁(Lin Chin-Jen)教授等开发的一个简单、易于使用和快速有效的SVM模式识别和回归的软件包.提供了多种软件的语言接口.本文中使用的是具有C++语言接口的在matlab环境下运行的LibSVM-mat.

3.2 数据CV分类和归一化

对于整体数据,将样本的密度实值作为y,对应的所选取的11个吸收峰的吸收率作为X,采用CV(Cross Validation)统计分析方法中的Hold-OutMethod,即将117个样本随机分为训练集(约为总样本数的3/4)和测试集(约为总样本数的1/4),这就避免了在划分训练集和测试集时,人为因素对训练以及测试准确率的影响,从而使训练和测试结果更客观.

划分好训练集和测试集后,要对数据进行归一化.归一化的具体作用是归纳统一样本的统计分布性,可以使后面数据的处理更加方便,其次是保证程序运行时收敛加快.

3.3 核函数及参数寻优

一般默认使用RBF函数作为核函数,在选定核函数后,要对相应的参数进行调节,即所谓的参数寻优.所涉及到的参数主要有参数c(惩罚参数,和e-SVR的设置有关)和参数g(针对RBF核数中gamma的设置),如果手动对这两个参数进行设置,工作量不但巨大,而且准确率会很低,最终的回归拟合结果也不会太理想.

本文中,主要是采用非启发式参数寻优的方法,具体思想是:寻找最佳的c和g就是让c和g在一定的范围里动(比如c等于2(-5),2(-4),等,2(5),g等于2(-5),2(-4),等,2(5)),然后用交互验证的方法找到准确率最高的c和g.但是会有不同的c和g都对应最高的准确率,把具有最小c的那组c和g认为是最佳的c和g,因为惩罚参数不能设置太高,虽然很高的惩罚参数会使得交互验证数据的准确率提高,但过高的惩罚参数c会造成过学习状态,在反复测试中,往往都是惩罚参数c过高会导致最终测试集合的准确率并不是很理想.

图4和图5就是利用LibSVM工具箱在Madab环境下参数寻优的结果图.

3.4 回归拟合

确定核函数及其相关参数后,便可以在matlab环境下对数据进行支持向量机回归拟合,回归拟合结果如图6所示.

其中图6的上半部分和下半部分分别是训练数据和测试数据的回归拟合图.

4 实验结果

用落叶松的近红外光谱数据建立的测定密度的模型,对训练集的回归拟合结果,R2达到了0.85,均方差为6.46×10-4;对测试集的回归拟合,R2为0.85,均方差为4.45×10-4,表1是对测试集的回归拟合数据,其中,相对误差最大为4.8336%,最小为-4.6564%,其绝对值均小于5%,预测结果较好.

5 结论

在支持向量机的理论基础上,对117个落叶松样本进行了近红外光谱的采集,在matlab环境下,利用LibSVM工具箱,以径向基函数为核函数,采用非启发式参数寻优的方法进行参数优化,最终建立了木材密度预测模型.分析表明,该模型对训练集和测试集的回归拟合,其决定系数都达到了0.85以上.

结果表明,基于近红外光谱的支持向量机回归方法可以用于落叶松木材密度的预测.

支持向量机论文参考资料:

结论:基于NIRS和支持向量机落叶松木材密度预测为关于本文可作为相关专业支持向量机论文写作研究的大学硕士与本科毕业论文支持向量机实例讲解论文开题报告范文和职称论文参考文献资料。

和你相关的