درونیابی فضایی غلظت ذرات معلق PM2.5 شهر مشهد بر مبنای جانهی دادههای گمشده با استفاده از الگوریتمهای یادگیری ماشین |
کد مقاله : 1014-SPATIAL (R2) |
نویسندگان |
علی هادیان فر *1، آزاده ساکی1، امید کریمی2 1گروه آمار زیستی دانشگاه علوم پزشکی مشهد 2گروه آمار دانشکده ریاضی، آمار و علوم کامپیوتر |
چکیده مقاله |
آلودگی هوا بهویژه ذرات معلق با قطر کمتر از ۲.۵ میکرومتر (PM2.5)، یکی از عوامل مهم تهدیدکننده سلامت عمومی بهویژه در شهرهای بزرگ محسوب میشود. بااینحال، دادههای مربوط به این آلایندهها در ایستگاههای سنجش کیفیت هوا معمولاً با مقادیر گمشده همراه هستند که میتواند تحلیلهای آماری و اپیدمیولوژیک را با چالش مواجه کند. یکی از محدودیتهای روشهای موجود در جانهی دادههای گمشده، عدم توجه همزمان به مکانیسم مکانی زمانی دادهها و نادیده گرفتن ساختار همبستگی و تغییرات زمانی است. بهمنظور غلبه بر این محدودیت، در این مطالعه جانهی مقادیر از دسترفتهی PM2.5، با استفاده از دو الگوریتم یادگیری ماشین شامل جنگل تصادفی و k-نزدیکترین همسایه انجام شد. دادههای مورد استفاده مربوط به ۲۲ ایستگاه سنجش کیفیت هوای شهر مشهد طی سالهای ۱۳۹۶ تا ۱۴۰۰ بودند. بهمنظور ارزیابی دقت الگوریتمها، شاخصهای ریشه دوم میانگین مربعات خطای پیشگویی (RMSPE) و قدر مطلق خطای پیشگویی (MAPE) بر مبنای تقسیمبندی ۸۰/۲۰ دادهها به آموزش و آزمون محاسبه شدند. نتایج نشان داد روش جنگل تصادفی عملکرد بهتری در برآورد مقادیر گمشده داشته و خطای کمتری نسبت به روش k-نزدیکترین همسایه ایجاد کرده است. در ادامه درونیابی فضایی مقادیر PM2.5 در شهر مشهد با استفاده از روش درونیابی وزن دهی معکوس فاصله (IDW) انجام شد. نتایج این مطالعه مؤید قابلیت بالای روشهای پیشرفتهی یادگیری ماشین در بهبود کیفیت دادههای محیطی و فراهمسازی پایهای دقیقتر برای تحلیلهای آتی هستند. |
کلیدواژه ها |
دادههای گمشده، الگوریتمهای یادگیری ماشین، جنگل تصادفی، درونیابی فضایی |
وضعیت: پذیرفته شده |