基于强化学习与XRF光谱分析的研究新进展发布日期：2024-04-26 09:20:58 文章来源：Tecsync(泰克鑫科)智能制造探索微观世界，解析万物之本

基于强化学习与XRF光谱分析的研究新进展

1. 研究背景

农业土壤对粮食和作物的生产至关重要。然而，当重金属元素的浓度在农业土壤中积累到有毒水平时，容易对人类健康和环境造成危害。这些不可生物降解的元素对作物健康和生产力会产生不利影响，甚至在摄入后直接威胁人类健康。对于镉(Cd)、钡(Ba)和铅(Pb)等非必需的重金属元素，直接摄入可能会造成健康危害，包括肾损伤、癌症和神经系统疾病。例如，Cd会导致严重的健康问题，包括肾损伤、骨质疏松症和癌症。Ba会引起胃肠道问题、肌肉无力和心律失常。铅会导致儿童发育迟缓和行为问题，以及成人的生殖问题和神经损伤。在食物和饲料中过量摄入必需的微量元素，如锰(Mn)、铜(Cu)和铬(Cr)，也会对人和动物产生毒性。因此，监测农业土壤中这些重金属元素的水平对确保农产品安全和保护环境有重要意义。

X射线荧光(XRF)光谱是一种制备简单、无损的检测重金属元素的技术。但在分析低浓度元素时，其检测精度受到限制。因此，提高XRF技术定量分析土壤中低浓度重金属元素的准确性是一个迫切需要研究的重点。在化学计量学中，多变量校正模型用于建立光谱变量与感兴趣的性质之间的关系。但是，当光谱变量数量远大于样本数量时，直接对高维光谱进行定量分析，会引起“维数灾难”问题。例如，高维XRF光谱中包含的噪声、不相关信息和多重共线性会降低土壤重金属元素的预测精度。此外，多变量校正模型对土壤XRF光谱中不相关特征信号的依赖性较强，降低了预测结果的可靠性。因此，有必要在定量分析前使用预处理步骤来提高XRF光谱变量的效度和可靠性。

变量选择是一种有效的预处理算法，可以滤除高维光谱中的复杂干扰。它旨在从感兴趣的属性中去除不相关的变量，以优化后续定量分析任务的性能。随着机器学习和深度学习的发展，强化学习变量选择已成为一种自动探索高维变量子空间的新范式。它提供了一种系统和自动的方法，通过基于奖励的反馈来学习变量选择策略，而无需任何人工设计的推理。此外，强化学习可以在长期最优决策能力的帮助下处理动态和复杂的环境，以选择与感兴趣性质相关的最优变量子集。

针对XRF光谱在定量低浓度重金属元素时存在的不准确问题，设计一种新颖的基于强化学习的XRF光谱变量选择方法，以选择与低浓度重金属元素相关的XRF光谱变量成为了提高土壤重金属元素定量分析性能的新方案。

2. 导读

针对该问题，电子科技大学自动化工程学院人工智能与高端装备研究团队提出了一种新的基于强化学习的XRF光谱变量自动选择算法，有效解决了低浓度土壤重金属元素定量分析不准确的问题。

本研究提出了一种高效的Q-learning自动光谱变量选择方法（QSP），并结合稀疏偏最小二乘(SPLS)用于估计土壤XRF中低浓度潜在有毒元素的浓度。所提出的高效Q-learning方法将XRF光谱变量选择视为一个马尔可夫决策问题。首先，为了优化XRF光谱的结构信息，结合移动窗口和绝对回归系数设计了窗口绝对回归系数扫描策略，对XRF光谱初始变量序列进行重新排序。然后，为了有效地去除冗余谱变量，在步贪婪策略的基础上构造了改进的步贪婪策略进行变量选择。最后，提出了一个基于多指标的奖励函数来指导变量选择策略，以确保变量选择过程得到充分优化。通过将偏最小二乘的可靠性建模优势与稀疏自编码器(SAE)的特征提取优势相结合，提出了SPLS来提高XRF定量分析的性能。

3. 创新研究

3.1土壤样品采集和XRF光谱采集

试验所用土壤样品为国家标准中心提供的标准土壤样品，采自中国主要代表性覆盖区的土壤。标准样品中的元素浓度由国家标准中心采集并验证，以确保结果的准确性和权威性。本研究共收集了4种类型(GSS、GSD、GBW(E)和GBW)的土壤样品57份。这些样品包括1个GBW08301样品，4个GBW(E)系列样品，26个GSD系列认证的河流沉积物化学成分标准物质，26个GSS系列认证的土壤化学成分标准物质。在主要农业和土壤类型区采集土壤样品，并根据区域地球化学调查确定采样规模样品干燥，切碎，通过1毫米筛子去除碎屑，混合，在120°C下烘烤24小时以去除副水，灭活，并使用高铝瓷球磨机研磨至0.074 mm或99%以上。样品装在密封良好的玻璃小瓶中，密封保存在避光的空调室(25°C)中。

采集的土壤样品使用Tecsync公司生产的手持式ED-XRF光谱仪进行测量。光谱仪的原理图和数据采集过程如图1所示。该光谱仪配备了银(Ag)阳极X射线管，内径为3毫米的准直器和硅漂移探测器(SDD)探测器在对样品进行测量时，从样品杯中取适量样品置于光谱仪的检测窗口中。探头窗口靠近样品，避免间隙过大影响测量结果的准确性。为了获得合适的计数率和特征峰分辨率，在45 kV管电压、26 mA电流、90 s测量时间下，使用光谱仪采集土壤样品的XRF光谱。由于土壤样品固有的异质性和复杂性，从相同样品中收集的光谱将具有不同程度的波动行为。为了减少这种波动带来的误差，分别对每个样品进行了三次扫描，取平均值作为最终XRF光谱数据进行分析。

图1 光谱仪的原理图和数据采集过程

3.2基于高效Q-learning算法的变量选择

本研究提出了一种基于高效Q-learning的单智能体强化光谱变量选择算法。该算法将变量选择过程建模为马尔可夫决策问题，并进一步应用于选择与低浓度重金属元素相关的XRF光谱变量。首先，提出一种基于窗口绝对回归系数扫描策略对变量序列进行重新排序。然后，智能体根据提出的步贪婪策略选择光谱变量。对于每个变量，智能体可以根据训练好的选择策略采取选择或取消选择两种动作。智能体所在的环境代表变量的当前子集。当智能体采取了变量选择动作，环境发生相应改变后，智能体将根据设计的多重奖励函数及时获得奖励。最终，智能体根据Bellman方程以最大长期预期收益为基础，确定最佳变量子集选择策略，并以Q值的形式存储在Q表中。图2给出了高效Q-learning算法的变量选择流程图。

图2 高效Q-learning算法的流程图

3.3基于稀疏偏最小二乘回归的浓度预测

偏最小二乘法是一种有效的多变量校准模型，广泛应用于潜在有毒元素浓度的预测。然而，对于高维XRF光谱，PLS在低浓度下对潜在有毒元素的预测结果并不令人满意。因此，本文提出了稀疏偏最小二乘法，以准确有效地预测基于XRF光谱的低浓度潜在有毒元素。具体来说，稀疏自编码器(SAE)首先从变量子集中提取有效信息。然后，将有效信息输入到PLS41中，计算单一潜在有毒元素的预测浓度与标准浓度之间的误差。SAE缩小尺度，从光谱中提取有效信息，同时提高模型预测低浓度元素的鲁棒性。SAE的目标函数可以表示为:

图片2.png

其中X是选定的变量子集，Z是期望的输出。W是需要计算的权值矩阵。上述优化目标可以根据ADMM算法进行求解。然后，SAE的输出可以进一步输入到偏最小二乘中:

其中e为预测误差，图片1.png 为系数向量。所提出的稀疏偏最小二乘法能够高效预测单个元素的浓度，同时产生高效Q-learning算法的奖励。该方法保证了变量选择奖励与元素浓度预测结果的一致性。

3.4 结果与讨论

对原始光谱进行光谱截断预处理。预处理后的光谱变量与待测元素密切相关。对于每种潜在有毒元素的变量选择，使用SPXY算法将预处理数据按4:1的比例分为交叉验证集和测试集。这种方法可以有效地响应不能通过优化实验设计轻易重现的成分变化。图3显示了四个重金属元素对应的变量选择数量、RMSECV和奖励值的变化趋势。提出的高效Q-learning在500个Episode内快速收敛。图3(a)显示，与不同重金属元素相关的变量数量呈现两阶段衰减效应。在第一阶段，大量无用的和噪声的光谱变量被删除。到了第二阶段，高效Q-learning逐渐呈现出收敛的趋势。与每种潜在有毒元素相关的光谱变量的数量受到有效限制。代理继续在有限范围内搜索变量的最佳可解释组合。结果表明，所设计的基于多指标的奖励函数不仅保证了高效Q-learning的收敛性，而且能够引导算法达到更好的精度和稳定性。

图3(b)显示了不同变量组合下QSP算法得到的不同潜在有毒元素的RMSECV。RMSECV的收敛反映了与重金属元素相关的关键和可靠变量被发现。如图3(c)所示，平均奖励值反映了不同评价指标的混合效应，有效地监控了变量的选择过程。此外，奖励函数反映了高信噪比(SNR)和不同光谱变量组合对低浓度重金属元素的敏感性。值得注意的是，比起Cd和Ba，高效Q-learning更有可能找到Pb和Cr的最佳变量组合。Pb和Cr之间存在明显的强度-浓度映射关系。

图3 不同元素在不同指标上的收敛曲线

将高效Q-learning算法与提出的SPLS相结合，分别预测四种潜在有毒元素（Cr、Cd、Ba和Pb）的浓度。将提出的QSP算法与目前最具竞争力的光谱变量选择算法(RF、IRF、CARS和VDPSO-CMW)进行了比较。其中，RF算法和CARS算法是变量点选择算法。IRF算法和VDPSO-CMW算法都是变量区间选择算法。此外，采用基于全谱的偏最小二乘方法作为基线方法。选择的评价指标包括RMSECV、R2 (CV)、RMSEP、R2 (test)、最优潜在变量数(NLV)和最优选择变量数(NVAR)。为了对不同算法进行公平的比较，对每种算法分别进行了20次测试，并记录平均结果，以观察算法的稳定性和有效性。

图4展示了所提出的QSP算法与其他先进的变量选择算法的对比结果。可以看出，QSP对Cr、Cd和Ba的预测均方根误差（RMSEP）最低，分别为8.540、2.217和40.667，决定系数（R2）最高，分别为0.988、0.854和0.958。这些结果表明，QSP方法对不同重金属元素的浓度预测结果具有显著的竞争力，将QSP与XRF结合为提高低浓度潜在有毒元素的定量性能提供了一种新的解决方案。

图4 不同算法对四种元素的预测结果。(a)Cr, (b) Cd, (c) Ba, (d) Pb

4. 应用与展望

这项工作探索了强化学习在选择有效XRF光谱变量方面的潜力，并提出了QSP算法来提高低浓度重金属元素的定量分析性能。QSP算法将Q-learning的长期最优决策与SPLS的强度-浓度稳定性建模相结合，选择更有效的变量子集。57个标准土壤样品用于比较QSP与PLS、RF、IRF、CARS和VDPSO-CMW的性能，以选择与单一重金属元素相关的光谱变量，同时预测元素浓度。相对于现有的变量选择算法，高效Q-learning通常选择更少或更可靠的变量，具有长期最优决策的优势。SPLS在预测潜在有毒元素浓度方面提供了更强的鲁棒性。结果表明，QSP算法在复杂干扰的定量任务中取得了优异而稳定的性能。高效Q-learning是一种很有前途的谱变量选择算法，具有广阔的应用前景。在今后的工作中，我们将探索QSP算法在不同领域定量分析的潜力。

服务热线|4000-988-166

联系电话|133-7683-5869

联系微信|tecsync_sale

（PS:发送时请备注公司或合作项目哦）

上一个：超级神器之手持X荧光分析仪4代：土壤界的救星！

下一个：XRF光谱仪物质检测大揭秘，带你揭示光谱仪的工作原理！