利用地理空间数据和随机森林算法预测美国哥伦比亚河鱼体中PFAS浓度
题目:Using Geospatial Data and Random Forest To Predict PFAS Contamination in Fish Tissue in the Columbia River Basin, United States
摘 要
哥伦比亚河流域的管理者目前面临着识别和表征全氟和多氟烷基物质(PFAS)污染以及人类PFAS暴露的挑战。这项工作旨在开发一种方法,帮助决策者确定采样调查的优先顺序,并识别受污染的自然资源。我们使用随机森林模型来预测鱼体组织中的PFAS总浓度(∑PFAS);了解鱼类中PFAS水平对该流域尤为重要,因为鱼是当地的主要饮食之一。对该流域,利用华盛顿和俄勒冈州地理空间数据,包括土地覆盖百分比和河流研究点与PFAS来源和行业的距离,作为建模的预测变量。模型显示,鱼体组织中可检测的PFAS浓度在几个区域中出现。通过对变量重要性进行分析,确定该地区鱼类中PFAS的潜在来源。我们使用的具有成本效益的方法可以解决该地区和其他地区环境中PFAS数据的稀疏性,同时可以深入了解鱼类中PFAS的潜在重要驱动因素和来源。
研究背景
全氟烷基和多氟烷基物质(PFAS)是人类制造的、普遍存在的化合物,广泛用于工业过程和消费品中。人类暴露于PFAS的主要途径是饮食和饮用水摄入。人类对PFAS暴露途径的研究受到广泛关注,人们积极开利用空间数据来识别PFAS污染的热点地区和重要预测因素的模型。但已有模型仅对有着大量PFAS数据的较小区域进行污染识别,并且没有在其他环境介质中得到应用,如鱼体组织。哥伦比亚河流域是鱼类消费量高的地区,但在过去的几十年里,该地区人口和人类活动的增加使当地鱼类面临着水质受损和化学污染的风险,可导致人群易通过饮食接触化学污染。然而该地区现有PFAS数据稀疏,需要设计具有成本效益的采样活动。这项研究利用鱼体组织中现有的PFAS数据、公开的地理空间数据和随机森林建模来识别该流域中鱼类受到PFAS污染的位置和污染来源,可帮助该地区的决策者确定采样调查的目标并确定优先级,有效识别受污染的自然资源。
主要发现
在华盛顿和俄勒冈州,在鱼体组织中预测的∑PFAS低于2 ng/g的研究点数量占总数(1039个)的31%,而高于5 ng/g的研究点数量占18%。高浓度的∑PFAS主要出现在具有较大人口数量的区域,但其中有些区域缺乏PFAS监测,这突出了未来在这些区域调查和采样的必要性。
图1 华盛顿和俄勒冈州地图,在具有频繁鱼类消费活动(如捕鱼)的河流和湖泊上每相隔15 km设定研究点。圆圈为根据随机森林回归模型预测的鱼体组织中∑PFAS浓度;三角形为鱼体组织中现有的∑PFAS测量数据。
随机森林回归模型揭示了研究点与最近的水泥生产设施的距离为∑PFAS浓度的最主要驱动因素,其次是研究点与最近的玻璃产品设施的距离。其他重要的驱动因素有已开发土地的百分比、最近的消防设施的距离、最近的油漆和金属涂层设施的距离以及最近的机场的距离。为评估高度相关的预测变量(r>0.8)对变量重要性结果的影响,7个预测变量被删除后再进行分析,模型中最重要的三个变量(水泥生产、玻璃产品和已开发土地百分比)保持不变,表明即使模型中包含高度相关的预测因子,变量重要性结果也是稳健的。
图2 随机森林回归模型的变量重要性,(A) ∑PFAS预测;(B)去除高度相关预测变量的∑PFAS预测。
变量重要性分析中重要性靠前的行业偏依赖图显示了行业设施的距离与鱼体组织中∑PFAS浓度之间的关系,从而了解距离研究点多大半径的范围内,鱼类可能受到污染。在这项研究中,距离水泥生产设施约35公里的鱼体组织中∑PFAS浓度升高,在距离约60公里的鱼体中∑PFAS浓度升高幅度较小。对于土地覆盖,当研究点周围的自然土地百分比低约28%,而开发土地百分比高约60%时,观察到∑PFAS的升高。虽然地表水流或气流的运输模型可以更好地估计PFAS污染迁移,但偏依赖图可以帮助估计PFAS在复杂介质中(如鱼类)的迁移距离。
图3 随机森林回归模型偏依赖图,(A)距离最近的工业设施的距离(重要性图中的前7个行业)和(B)土地覆盖率百分比对鱼体组织中∑PFAS浓度的影响。
原文链接:
https://doi.org/10.1021/acs.est.3c03670
说明:本推送只用于学术交流,如有侵权,请联系删除。
投稿&合作请联系:ecs_pku@163.com