面向XRF的竞争性自适应重加权算法和改进的支持向量机定量分析新进展 发布日期:2024-08-13 15:06:22    文章来源:Tecsync(泰克鑫科)智能制造 探索微观世界,解析万物之本


面向XRF的竞争性自适应重加权算法和改进的支持向量机定量分析新进展


1. 研 究 背 景

土壤作为生态系统基本要素之一,是开展农业生产的关键性因素,并为各行各业的发展提供必要场所。随着工业化进程的不断推进,不可避免的带来了严重的环境问题,其中的土壤污染已经成为比较棘手的问题。重金属污染在土壤环境污染中占据较大的比重,其主要原因是重金属不能被土壤微生物所分解、治理难度大、化学性质稳定等而易于积累成为土壤无机污染物的重要组成部分。目前通常将土壤里毒性比较大的8种重金属元素Cu、Pb、Zn、Cd、Cr、Ni、As和Hg作为土壤污染筛查的对象。

高效、准确、便捷的土壤重金属检测方法对于了解土壤的环境状况以及开展污染防治工作具有重要的意义。X射线荧光光谱分析(XRF)技术由于具备快速、准确、无损等优势,在检测元素成分含量中得到了广泛的应用。由于通常需要检测的重金属含量很低,导致元素的特征峰容易重叠或者受到其他元素的特征峰影响,给检测分析带来较大误差。随着人工智能算法进入成分分析领域,解决元素含量的精准测定出现了新思路。本文以土壤重金属为研究对象,基于XRF技术对土壤中Cr、Ni、Cu、Zn、As、Pb元素的检测方法进行了研究。采集国家标准土壤样品的XRF光谱数据,通过小波变换、arPLS方法对原始光谱数据进行预处理,并利用竞争性自适应加权(CARS)算法的数据挖掘方法,提取各土壤重金属元素的敏感能量特征段,分别建立了基于敏感能量段的土壤重金属定量反演模型


2.创 新 研 究

2.1样品采集和XRF光谱采集

实验样品采用57份国家标准土壤样品,包含GBW、GBW(E)、GSD、GSS系列。在数据采集过程中,采用Tecsync公司制造的手持式XRF光谱仪对57个标准土壤样品进行了检测。为保证土壤光谱数据的稳定性,在光谱仪允许的环境温度内,对光谱仪选用土壤模式,调整好土壤的最佳测试参数后,对每个样品的测试时间设置为90s。并将同一个土壤样品测试3次取平均值,作为相应样品最终的光谱数据。

图1 光谱仪的原理图和数据采集过程

2.2 基竞争性自适应重加权算法的变量筛选

针对XRF光谱的预处理,利用Matlab中的ddencmp函数自动生成小波去噪的阈值选择方案,小波选取为coif3,并采用arPLS方法进行光谱的基线校正。以Cu元素为例,将原始信号与进行去噪和本底扣除后的光谱信号的特征峰计数以及含量进行线性拟合如图2所示。

图2  Cu元素XRF光谱预处理前后特征峰含量拟合图

2.3 基竞争性自适应重加权算法的变量筛选

竞争性自适应重加权算法结合蒙特卡罗随机采样以及偏最小二乘回归算法的特征选择方法,并通过获得交叉验证均方根误差最小的子集来获取最优的特征组合。该方法在每个采样周期可分为4个连续的步骤,包括:(1)利用蒙特卡罗采样法从校正集中选择一定数量的样本,进行PLS建模;(2)计算通道能量段回归系数的绝对值权重,利用衰减指数法剔除绝对值较小的能量段变量;(3)采用自适应加权算法在剩余的能量通道变量中选择能量段,建立PLSR模型;(4)选择在均方根误差最小的模型对应的能量段变量作为最终的特征选择变量。

为了增加特征选择的稳定性、可靠性,对CARS算法的参数进行设定,其中重复计算次数为2048次,校准样品与总样品的比率为0.8,交叉验证的最大潜在变量数(即PLS主成分数)为15,预处理法选择“center”,MCS抽样运行次数为50,并采用5折交叉验证。将57份经过预处理后的标准土壤样品作为输入,即样品矩阵为57×2048,分别将Cr、Ni、Cu、Zn、As、Pb元素的含量作为测试属性,其矩阵大小均为57×1,计算不同重金属元素在最小均方根误差下的特征能量段,作为进行特征选择的结果。以Cu元素为例,基于CARS算法的能量段变量筛选过程如图3所示。表1显示了不同的重金属元素筛选出的特征能量值。经过基于CARS算法的特征变量选择,变量的个数由2048个变为9~29个,为原来变量个数的0.43%~1.42%,去除了XRF光谱能量区间中大量的无用信息,有效减少了XRF高维光谱数据的复杂性

图3 CARS优选Cu元素特征能量过程

表1 基于CARS算法不同重金属元素筛选出的特征能量

2.4粒子群优化的SVR模型训练与预测分析

首先进行样本集划分,将57份土壤标准样品划分为预测集合与训练集,包括47份训练集与10份验证集。对于粒子群算法设置其初始其参数分别为:惯性因子0.5,学习因子为1.5,为1.7,迭代次数为100,种群规模为50。为了对PSO-SVR算法模型进行效果验证,选择SVR、PLSR模型进行对比。同时,为了说明基于CARS算法进行特征选择的必要性,将未进行特征选择的元素特征峰计数值直接作为输入,采用PSO-SVR算法进行含量分析,得到不同定量反演方法的评估结果对比如表2所示。首先对比PSO-SVR与CARS-PSO-SVR方法的效果,可以看出未经过特征选择的PSO-SVR模型,在训练集与预测集上的均方根误差更大。在CARS算法的基础上,对比PLSR、SVR、PSO-SVR模型的效果,可以看出,上述训练集的拟合程度均达到了0.988以上,且RMSE均小于1,预测集的拟合程度相对于训练集均有一定的下降,PSO-SVR模型的效果更好

表2 不同定量反演方法的评估结果对比

3.应 用 与 展 望

研究高效、准确、便捷的土壤重金属检测方法对于了解土壤的污染状况以及开展污染防治工作具有重要的意义。本文分别利用小波变换、非对称加权惩罚最小二乘法(arPLS)对光谱进行去噪和扣除本底基线。然后,采用的特征输入为基于CARS的特征能量选择,省略了针对特征提取繁琐的分析阶段,简化了XRF光谱分析流程,使得XRF光谱反演更加智能化,并进一步分析特征能量峰的来源,使得CARS选取的特征具备可解释性。接着采用PSO优化的SVR建立土壤重金属含量反演模型。通过CARS选取的谱线变量的个数大幅度减少,从2048个通道降低到30个以下,为原来变量个数的1.5%,减少了大量的冗余信息。然后建立PSO优化的SVR土壤重金属含量反演模型,与偏最小二乘法(PLS)、未优化的SVR模型进行对比,采用CARS变量选择和PSO优化的SVR模型进行含量预测,训练集R2C与测试集R2P的决定系数分别在0.99、0.90以上,预测准确性有明显提高。因此,本研究提出的竞争性自适应重加权算法和PSO优化的SVR定量分析模型对于土壤重金属元素定量分析具有较好的理论指导和应用价值。

服务热线|4000-988-166

联系电话|133-7683-5869

联系微信|tecsync_sale

(PS:发送时请备注公司或合作项目哦)