درونیابی فضایی غلظت ذرات معلق PM2.5 شهر مشهد بر مبنای جانهی داده‌های گمشده با استفاده از الگوریتم‌های یادگیری ماشین
کد مقاله : 1014-SPATIAL (R2)
نویسندگان
علی هادیان فر *1، آزاده ساکی1، امید کریمی2
1گروه آمار زیستی دانشگاه علوم پزشکی مشهد
2گروه آمار دانشکده ریاضی، آمار و علوم کامپیوتر
چکیده مقاله
آلودگی هوا به‌ویژه ذرات معلق با قطر کمتر از ۲.۵ میکرومتر (PM2.5)، یکی از عوامل مهم تهدیدکننده سلامت عمومی به‌ویژه در شهرهای بزرگ محسوب می‌شود. بااین‌حال، داده‌های مربوط به این آلاینده‌ها در ایستگاه‌های سنجش کیفیت هوا معمولاً با مقادیر گمشده همراه هستند که می‌تواند تحلیل‌های آماری و اپیدمیولوژیک را با چالش مواجه کند. یکی از محدودیت‌های روش‌های موجود در جانهی داده‌های گمشده، عدم توجه هم‌زمان به مکانیسم مکانی زمانی داده‌ها و نادیده گرفتن ساختار همبستگی و تغییرات زمانی است. به‌منظور غلبه بر این محدودیت، در این مطالعه جانهی مقادیر از دست‌رفته‌ی PM2.5، با استفاده از دو الگوریتم یادگیری ماشین شامل جنگل تصادفی و k-نزدیک‌ترین همسایه انجام شد. داده‌های مورد استفاده مربوط به ۲۲ ایستگاه سنجش کیفیت هوای شهر مشهد طی سال‌های ۱۳۹۶ تا ۱۴۰۰ بودند. به‌منظور ارزیابی دقت الگوریتم‌ها، شاخص‌های ریشه دوم میانگین مربعات خطای پیشگویی (RMSPE) و قدر مطلق خطای پیشگویی (MAPE) بر مبنای تقسیم‌بندی ۸۰/۲۰ داده‌ها به آموزش و آزمون محاسبه شدند. نتایج نشان داد روش جنگل تصادفی عملکرد بهتری در برآورد مقادیر گمشده داشته و خطای کمتری نسبت به روش k-نزدیک‌ترین همسایه ایجاد کرده است. در ادامه درونیابی فضایی مقادیر PM2.5 در شهر مشهد با استفاده از روش درونیابی وزن دهی معکوس فاصله (IDW) انجام شد. نتایج این مطالعه مؤید قابلیت بالای روش‌های پیشرفته‌ی یادگیری ماشین در بهبود کیفیت داده‌های محیطی و فراهم‌سازی پایه‌ای دقیق‌تر برای تحلیل‌های آتی هستند.
کلیدواژه ها
داده‌های گم‌شده، الگوریتم‌های یادگیری ماشین، جنگل تصادفی، درونیابی فضایی
وضعیت: پذیرفته شده