基于主成分分析和宽度学习系统的 土壤重金属元素定量分析 发布日期:2024-07-19 10:05:18 文章来源:Tecsync(泰克鑫科)智能制造 探索微观世界,解析万物之本
基于主成分分析和宽度学习系统的土壤重金属元素定量分析
TECSYNC
1.研究背景
随着经济水平的提高,频繁的工业、农业活动使得土壤受到了不同程度的污染。这不仅破坏了人类生存的环境,同时还威胁到人类自身的健康。因此,土壤污染是一个亟待解决的现实问题。如何评估土壤污染程度,特别是对土壤中重金属元素的测量和估计是一个复杂的问题。一方面,土壤中的重金属存在滞后性和积累性,因此很难及时发现;另一方面,工业、农业等人类活动使得土壤污染评估更加困难。此外,传统的化学分析技术存在较多限制,很难满足实际应用需求。因此,高效、精确、稳定测定土壤中重金属元素含量,对土壤状态的评估和土壤的治理具有非常重要的意义。
本文提出一种使用主成分分析PCA和宽度学习系统BLS结合的XRF土壤重金属元素定量分析方法,用于标准土壤样品中Pb和Cd元素的浓度测定。首先,使用PCA方法对原始光谱数据进行降维,以减少光谱样本中的噪声信息。然后,将降维后的光谱数据输入宽度学习系统进行校正和测试,并使用网格搜索确定最优网络结构。使用决定系数(R2)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)评估方法性能,并与支持向量回归(SVR)、反向传播神经网络(BPNN)进行比较。PCA-BLS在测定Pb对应的决定系数R2、均方根误差RMSE和平均绝对百分比误差MAPE三个指标上取得了0.954、1.433、1.014的性能,在定量Cd实验中取得R2为0.982、RMSE为1.215和MAPE为1.059的精度。本文的完整流程如图1所示。
图1 土壤Pb、Cd元素定量分析流程图
2.创新研究
2.1样品采集和XRF光谱获取
本文所使用的56个土壤样本均采购于中国标准物质网,其中包括26个土壤标准物质(GSS系列)、26个水系沉积物标准物质(GSD系列)、4个系列土壤成分分析标准物质(GBW(E)系列)。不同样本均按照采集、风干、研磨、过筛的步骤进行处理,并使用采用泰克鑫科手持式ED-XRF光谱仪进行XRF光谱的获取。所获取的在0-45keV能量范围内的光谱数据共包含2048个通道数。为了便于观察,本文只选取前600个通道的谱图进行展示,所有土壤样品主要光谱信息如图2(a)所示。以GBW07384(GSD-33)土壤样本为例,该样本的谱图如图2(b)所示。
图2 土壤XRF光谱可视化 (a) 56个土壤样品对应的XRF光谱图;(b) GBW07384(GSD-33)样本的元素信息
2.2 主成分分析(PCA)
在对高维光谱数据进行定量分析时,变量个数太多往往会增加定量分析模型的复杂性,影响定量分析的效果。主成分分析作为一种广泛使用的多元统计方法,利用坐标变换将存在相关性的原始变量转换为主成分,可以显著减少变量的个数,同时保证降维后的特征尽可能反映原有变量的内部结构信息。使用时将数据划分为校正集和测试集,并根据校正集的方差累计贡献率确定主成分个数。在测试阶段,将测试集数据与训练集的投影矩阵相乘并获得测试集特征。其中方差贡献率越大说明该主成分包含的有效信息越多。因此,PCA在提取XRF光谱中的有效信息时具有优势。
图3展示了校正集土壤XRF光谱在经过PCA主成分分析方法后,不同主成分方差贡献率排序的碎石图。其中Pb元素对应的3个主成分方差贡献率分别为52.3019%,33.1672%和8.5947%,其余主成分之和为5.9362%。Cd元素对应的3个主成分方差贡献率为50.0618%,34.473%,10.0717%,其余主成分之和为5.3935%。土壤光谱数据的有效信息主要集中在前3个主成分,而后续成分所包含的有效信息相对较少。为了减少光谱中的无关信息,本文选择方差累计贡献较大的前三个主成分作为Pb和Cd元素定量分析的特征,用于后续浓度测定。
图3 Pb元素和Cd元素的主成分碎石图 (a) Pb;(b) Cd
2.3 宽度学习系统(BLS)
宽度学习系统主要由三个基本部分组成,特征映射层、增强层和输出层。特征映射层提取数据中的有效特征,同时使用多个稀疏自编码器构建特征映射层的稀疏特征以达到进一步降维的目的。稀疏自编码器(SAE)是一种无监督降维方法,可以利用编码输出与原输入的误差提取输入数据中的有效信息。增强层主要对特征映射层的输出执行非线性变换,使得方法具有更强的非线性逼近能力。输出层用于复用特征映射层的输出以及增强层的输出,使得宽度学习系统可以通过伪逆算法更新两层的权重。宽度学习系统同时具备线性映射和非线性映射能力,可以有效对复杂数据,尤其是高维数据进行建模。此外,宽度学习系统具有浅层和快速重构的特性,因此相比其他机器学习和深度学习方法具有更加显著的计算效率优势。宽度学习系统的流程图如图4所示。
图4 宽度学习系统流程图
本文采用SVR、BPNN、BLS和PCA-BLS建立了两种不同元素的预测模型,模型的最优结构均使用网格搜索,各模型的Pb、Cd元素浓度预测结果如图5所示。为了进一步比较这些方法在定量分析中的有效性,表1展示了不同方法在Pb元素和Cd元素定量测定中的性能表现。结果表明,PCA-BLS在Pb元素定量测定实验中取得了最优校正精度和最优测试精度。其中在测试集中,R²为0.954,RMSE为1.433,MAPE为1.014。相比于BLS方法,PCA-BLS具有更加优越的性能,说明PCA和SAE提取了光谱数据中的有效信息。而与其他机器学习方法相比,PCA-BLS取得了显著优于其他方法的性能。PCA-BLS在测试集上的R2分别比SVR和BPNN高0.247和0.239,在测试集上的RMSE分别比SVR和BPNN低2.897和2.648,在测试集上的MAPE分别比SVR和BPNN低1.427和1.323。可以看出,BLS在Pb定量测定中具有更好的逼近能力和变量解释能力。在Cd元素的定量分析实验中,PCA-BLS在校正集的R²指标上取得了0.966的精度,在测试集的R²上取得了0.982的精度优势。由于Cd元素在土壤样品中浓度较低,并且不同样品的Cd元素浓度差异较大,因此在使用机器学习方法进行校正时会容易过拟合。而BLS对测试集的拟合能力和变量解释能力显著优于其他机器学习方法,因此并没有出现严重的过拟合现象。此外,BLS在校正集上可以获得最优精度,而PCA-BLS在测试集上的性能更好。在对更加复杂的重金属元素光谱数据建模中,BLS有潜力获得更好的拟合能力和泛化能力。
图5 SVR、BPNN、BLS和PCA-BLS的预测结果 (a) Pb元素预测结果;(b) Cd元素预测结果
表1 Pb和Cd元素定量测定结果
3.总结与展望
本文尝试构建了新的用于定量分析XRF土壤重金属元素的机器学习方法,基于主成分分析的宽度学习系统。首先,使用PCA主成分分析对56个标准土壤XRF光谱数据降维,并根据方差累计贡献率确定了前3个最佳主成分。然后,将PCA提取的特征输入BLS,网格搜索算法确定了Pb和Cd对应的最佳BLS结构参数为2,11,11和3,19,15。接着,使用经过网格搜索优化的SVR、BPNN和BLS与PCA-BLS方法进行性能比较。其中PCA-BLS在测试阶段Pb和Cd的R2指标上取得了0.954和0.982的最优拟合精度。实验结果表明,PCA方法有效缩减了土壤样品的变量数量,简化了BLS的复杂性。相比于其他机器学习方法,PCA-BLS在浓度测定实验中具有更好的校正能力、泛化能力和稳定性。上述方法满足了基于XRF的土壤重金属元素精确、高效、稳定定量分析的需求,为重金属元素定量分析方法的拓展提供了新的方向。
服务热线|4000-988-166
联系电话|133-7683-5869
联系微信|tecsync_sale
(PS:发送时请备注公司或合作项目哦)