基于FCARS变量选择与CBLA-Net深度学习的XRF光谱研究新进展 发布日期:2024-10-11 15:41:01 文章来源:Tecsync(泰克鑫科)智能制造 探索微观世界,解析万物之本
基于FCARS变量选择与CBLA-Net深度学习的XRF光谱研究新进展
泰克鑫科(Tecsync)
01
研究背景
准确估计重金属元素浓度,特别是土壤中的浓度,对于保护人类健康和确保食品安全至关重要。重金属元素的定量分析通常依赖于实验室化学分析,如原子吸收光谱(AAS)和电感耦合等离子体质谱(ICP-MS)、电感耦合等离子体原子发射光谱(ICP-AES)。虽然这些实验室方法通常是准确的,但它们涉及到需要对样品进行强酸预处理,以及诸如环境污染、时间消耗和高成本的等缺点。X射线荧光(XRF)光谱是一种制备简单、无损的检测重金属元素的技术。但在分析低浓度元素时,其检测精度受到限制。因此,提高XRF技术定量分析土壤中低浓度重金属元素的准确性是一个迫切需要研究的重点。
在化学计量学中,多变量校正模型用于建立峰强度信息与元素浓度之间的关系。但是,当光谱变量数量远大于样本数量时,直接对高维光谱进行定量分析,会引起“维数灾难”问题。例如,高维XRF光谱中包含的噪声、不相关信息和多重共线性会降低土壤重金属元素的预测精度。此外,多变量校正模型对土壤XRF光谱中不相关特征信号的依赖性较强,降低了预测结果的可靠性。因此,有必要在定量分析前使用预处理步骤来提高XRF光谱变量的效度和可靠性。变量选择是减少高维光谱中冗余信息、提高变量可解释性的一种有效方法。它旨在从感兴趣的属性中去除不相关的变量,以优化后续定量分析任务的性能。
为了准确预测重金属元素的浓度,经常采用传统化学计量学方法,如偏最小二乘法(PLS)和逐步多元线性回归法(SMLR)。然而,元素浓度与光谱峰强度之间存在着复杂的非线性关系,这对上述模型的准确预测提出了挑战。具有灵活数学结构的人工智能算法已经成为有效解决非线性问题的强大技术。针对XRF光谱在定量低浓度重金属元素时存在的不准确问题,本研究提出一种基于频率的竞争性自适应重加权采样法(FCARS)预处理结合深度学习(CBLA-Net)技术来精确地分析预测重金属元素的浓度。
02
导读
本研究提出了一种基于频率的竞争性自适应重加权采样(FCARS)变量选择方法,并结合CBLA-Net深度学习网络用于估计土壤XRF中低浓度的重金属元素含量。引入变量选择概率实验,FCARS方法通过保留出现频率超过85%的变量,同时排除不相关的特征,以实现更准确的XRF光谱特征筛选。为了更好地利用特征、提取信息和选择关键XRF变量,本研究设计了一个CBLA-Net网络来准确预测重金属元素的浓度,并利用决定系数(R2)和均方根误差(RMSE)等性能指标来评估该模型的有效性和准确性。通道注意力机制的引入有效地分配了通道的重要性,从而提高了模型捕获土壤光谱特征的能力。与其他先进的预测算法相比,CBLA-Net表现出了优异的性能,预测集的R2均在0.95以上,为XRF的定量分析提供了坚实的科学基础,对可持续的土壤管理、环境保护和人类健康具有重要意义。
03
创新研究
3.1土壤样品采集和XRF光谱采集
试验所用土壤样品为87份土壤样本来自于江西省鄱阳湖地区。在每个采样点采用四次法采集4个重复样本,覆盖5米半径内的不同方向,并将样品品彻底混合。将样品风干,去除杂质,并将其置于105-110℃的烘箱中放置2小时。最后,将土壤样品磨碎,通过0.075 mm筛。所得到的粉末状样品被放置在直径为31毫米、厚度为22毫米的样品杯中。
采集的土壤样品使用泰克鑫科(Tecsync)公司生产的手持式ED-XRF光谱仪进行测量。光谱仪的原理图和数据采集过程如图1所示。该光谱仪配备了银(Ag)阳极X射线管,内径为3毫米的准直器和硅漂移探测器(SDD)探测器在对样品进行测量时,从样品杯中取适量样品置于光谱仪的检测窗口中。在45 kV管电压、40μA电流、90 s测量时间下,使用光谱仪采集土壤样品的XRF光谱。
出现频率超过85%的变量,同时排除不相关的特征,以实现更准确的XRF光谱特征筛选。为了更好地利用特征、提取信息和选择关键XRF变量,本研究设计了一个CBLA-Net网络来准确预测重金属元素的浓度,并利用决定系数(R2)和均方根误差(RMSE)等性能指标来评估该模型的有效性和准确性。通道注意力机制的引入有效地分配了通道的重要性,从而提高了模型捕获土壤光谱特征的能力。与其他先进的预测算法相比,CBLA-Net表现出了优异的性能,预测集的R2均在0.95以上,为XRF的定量分析提供了坚实的科学基础,对可持续的土壤管理、环境保护和人类健康具有重要意义。
图1 光谱仪的原理图和数据采集过程
3.2基于FCARS算法的变量选择
在CARS算法中,蒙特卡罗采样的随机性每次都会产生不同的最优波长变量组合。因此,本研究提出了一种基于频率的竞争自适应重加权抽样(FCARS)算法,用于XRF光谱变量的特征选择。FCARS是一种基于频率和竞争力的变量选择方法。它建立在CARS算法的基础上,通过进行多次采样实验,计算每个变量的出现频率fi,从而更好地评估每个变量的重要性。最后,基于预定的频率阈值,选择波长变量,并保留那些出现频率超过该阈值的波长变量作为最终的变量选择结果。该方法更稳定地选择了重要的变量,避免了单次抽样的随机性所造成的不确定性,提高了变量选择结果的代表性和稳定性。图2给出了高效FCARS算法的变量选择流程图。
图2 FCARS光谱变量选择过程
3.3基于CBLA-Net网络的浓度预测
本研究提出了一种CBLA-Net来估算土壤XRF光谱信息中的元素浓度。它不仅能从XRF光谱中提取关键特征,还能理解光谱特征与重金属元素浓度之间的复杂关系,从而有助于对土壤中重金属元素浓度的评估。该模型有效地结合了CNN、Attention和BiLSTM的优势,在处理复杂的土壤数据方面表现良好。CBLA-Net网络架构由两个卷积层组成,一个注意层、一个BiLSTM层和一个全连接(FC)层,如图3所示。
图3 CBLA-Net网络结构
3.4 结果与讨论
使用K-S算法将87个样本的光谱按7:3的比例划分为训练集和预测集。然后,将不同的变量选择方法(FCARS、CARS、SPA和RF)和未筛选的数据(全谱)分别输入至CBLA-Net模型中,并使用R2、RMSE和MAE指标进行评估,如表1所示。
表1 基于不同的变量选择算法的CBLA-Net模型性能比较
与全谱模型相比,特征选择后模型的精度有所提高。这主要是由于XRF光谱中存在许多与目标元素浓度无关的能量范围,这可能会影响模型的效率和准确性。变量选择消除了不显著的变量,只保留了那些与目标元素浓度相关的变量,从而降低了模型的复杂性,提高了定量模型的预测精度。
在四种变量选择算法中,FCARS的效果最好,其次是RF、CARS和SPA。每个算法选择的结果都不同,保留的变量数在8-165之间。基于启发式搜索的RF算法可以在短时间内找到良好的特征子集;然而,它的性能高度依赖于参数设置。SPA算法具有较高的计算复杂度和对初始特征顺序的敏感性,适用于处理高度共线的数据,但在选择具有显著干扰的低浓度元素谱时效果较差。CARS算法在高维数据中表现良好,对噪声具有一定的鲁棒性,但对初始采样很敏感,导致结果不稳定。而FCARS通过概率实验提高了选择模型的稳定性和可靠性,从而实现了更准确的变量选择。
为了进一步比较不同算法模型在预测重金属元素浓度方面的性能,本研究采用了几种常用的算法作为比较模型(CNN、BPNN、RFR、SVR和PLS),并使用FCARS所选择的特征作为预测模型的输入,如表2所示。CBLA-Net对预测结果的可视化如图4所示,显示了CBLA-Net预测的元素浓度与标准值相比的散点图。预测值与真实值较接近,拟合效果较好。
表2 基于不同定量反演方法对土壤预测结果的性能比较
图4 CBLA-Net对(a)V, (b) Cd, (c) Mn, (d) Zn, (e) Cd (d) Pb六种元素的预测结果
结果表明,深度学习模型优于机器学习模型和统计模型。所有的深度学习模型对元素预测结果都达到了合理的R2、RMSE和MAE值。所提出的CBLA-Net对V、Cr、Mn、Mn、Zn、Cd和Pb的R2值分别为0.9730、0.9874、0.9952、0.9921、0.9518和0.9741。这种优越的性能可以归因于深度学习模型从复杂数据集中提取复杂特征的能力。CBLA-Net模型专门解决了Cd和Pb等低浓度元素所带来的挑战,通过考虑XRF光谱内的连续性和局部相关性,CBLA-Net有效地缓解了矩阵效应和光谱干扰问题。
相比之下,机器学习方法(如BPNN、SVR和RFR)都有其固有的局限性。BPNN的性能在很大程度上依赖于初始权重的选择,并且容易受到过拟合和梯度爆炸等问题的影响。SVR需要确定最优核函数和正则化参数,而RFR则受决策树数量的影响。因此,基于机器学习的预测方法在解决XRF光谱数据中的光谱干扰方面并不有效。此外,PLS作为一种统计方法,使得很难发现XRF谱中的非线性关系,导致预测性能不理想。通过对比实验证明了CBLA-Net在从XRF光谱中准确确定重金属浓度方面的有效性。最终,先进的CBLA-Net为估算土壤中的重金属浓度提供了一个全面的解决方案。
04
应用与展望
本文设计了一种将特征选择和深度学习相结合的无损检测方法,结合FCARS特征选择和CBLA-Net浓度预测,以准确估算土壤中重金属元素的浓度。主要结论是:(1)采用FCARS算法从2048维光谱数据中选择最相关的特征,保留的变量数仅为原有2%左右,大大降低了模型的复杂度。与CARS、SPA和RF等光谱变量选择算法进行比较,结果表明FCARS的效果最好,其次是RF、CARS和SPA。(2)将所选特征变量作为CBLA-Net模型的输入,以准确估算土壤中重金属元素的浓度。CA模块的引入有效地分配了通道的重要性,从而提高了模型捕获土壤光谱特征的能力。与其他先进的预测算法相比,CBLA-Net表现出了优异的性能,预测集的R2均在0.95以上。通过整合光谱分析和人工智能技术,本文成功地构建了一个新的浓度预测框架,提高了重金属元素浓度估计的准确性。
服务热线|4000-988-166
联系电话|133-7683-5869
联系微信|tecsync_sale
(PS:发送时请备注公司或合作项目哦)