شناسایی خاستگاههای هواویزهای اتمسفری با استفاده از سنجش از دور و دادهکاوی (مطالعه موردی: استان یزد)
محورهای موضوعی : منابع طبیعی و مدیریت زیست محیطیمحمد کاظمی 1 , علیرضا نفرزادگان 2 , فربیرز محمدی 3 , علی رضاییلطیفی 4
1 - استادیار، مرکز مطالعات و تحقیقات هرمز، دانشگاه هرمزگان، بندرعباس، ایران
2 - استادیار، گروه مهندسی منابع طبیعی، دانشکده کشاورزی و منابع طبیعی، دانشگاه هرمزگان، بندرعباس، ایران
3 - استادیار، مرکز مطالعات و تحقیقات هرمز، دانشگاه هرمزگان، بندرعباس ؛ استادیار، گروه علوم و مهندسی آب، مجتمع آموزش عالی میناب، دانشگاه هرمزگان، میناب، ایران
4 - استادیار، مرکز مطالعات و تحقیقات هرمز، دانشگاه هرمزگان، بندرعباس ؛ استادیار، گروه فیزیک، دانشکده علوم، دانشگاه هرمزگان، بندرعباس، ایران
کلید واژه: پهنهبندی, عمق اُپتیکی هواویز, متغیرهای مکانی, یادگیری ماشین,
چکیده مقاله :
پیشینه و هدف کشور ایران بدلیل قرار گرفتن در کمربند خشک و نیمه خشک جهان، در معرض پدیده های محلی و منطقه ای گرد و غبار قرار دارد. میانگین روزهای تؤام با گرد و غبار در استان یزد بالغ بر 43 روز در سال است و این مهم به نحوی بر سلامت و کیفیت زندگی مردم اثرات مخربی وارد آورده است. میزان غلظت ذرات معلق و شاخص عمق اُپتیکی هواویز (AOD) در پی وقایع گرد و غبار یکی از شاخص های کیفیت هوا می باشد. بنابراین بررسی و تهیه نقشه های پهنه بندی حساسیت با هدف شناسایی مناطق دارای قابلیت بالای تولید گرد و غبار، در محدوده فعالیت های بشری دارای اهمیت است و جهت کاهش خسارات احتمالی و مدیریت خطر، اقداماتی مانند پهنه بندی عرصه های مختلف تولید گرد و غبار می تواند مؤثر واقع شود. هدف از پژوهش حاضر پهنه بندی پتانسیل عرصه های مختلف مستعد گرد و غبار با استفاده از مدل های داده کاوی و شناسایی مهمترین متغیرها بر این پدیده و بهره مندی از سنجش از دور در این راستا در استان یزد میباشد.مواد و روش ها در این تحقیق ابتدا متغیرهای اقلیمی مختلف (از تصاویر ماهواره ای مختلف) از جمله سرعت باد در ارتفاع ده متری سطح زمین (Vs)، رطوبت خاک (Soil)، بارش تجمعی (Pr)، شاخص خشکسالی پالمر (Pdsi)، شاخص پوشش گیاهی نرمال شده (NDVI)، خشکی خاک یا کمبود آب خاک (Def)، تبخیر و تعرق مرجع (Pet) و واقعی (Aet)، بعد توپوگرافی (TD)، رادیانس طول موج کوتاه رسیده به زمین (Srad)، حداقل دمای هوا (Tmmn)، حداکثر دمای هوا (Tmmx)، فشار بخار (Vap)، کمبود فشار بخار(Vpd) و درصد رس (Clay) با استفاده از کدنویسی در سامانه آنلاین گوگل ارت انجین (GEE) استخراج شدند. سپس نمونه ها از مناطق بحرانی و مستعد گرد و غبار در سیستم اطلاعات جغرافیایی و به کمک تصاویر AOD مودیس استخراج شدند و این ویژگی و همچنین سایر ویژگی ها در متغیرهای اقلیمی وارد سه مدل داده کاوی الگوریتم درختان رگرسیون و طبقه بندی (CART)، رگرسیون انطباقی چندمتغیره اسپیلاین (MARS) و درختان رگرسیون چندگانه جمعشدنی (TreeNet) شدند. در نهایت نتایج پیش بینی این مدل های داده کاوی در سیستم اطلاعات جغرافیایی تبدیل به نقشه و پهنه های مختلف پتانسیل خطر خیزش گرد و غبار شدند.نتایج و بحث در روش CART متغیرهایی همچون شاخص پوشش گیاهی نرمال شده، تبخیر و تعرق واقعی، مدل رقومی ارتفاع، طول موج کوتاه رسیده به سطح زمین، شاخص خشکسالی پالمر، سرعت باد و درصد رس، گره های انتهایی جهت شناسایی مناطق با میانگین بالای عمق اپتیکی هواویزها می باشد. در این روش رطوبت خاک، مدل رقومی ارتفاعی و تبخیر تعرق رفرنس بیشترین اهمیت نسبی را در شناسایی مناطق بحرانی خیزش گرد و غبار نشان دادند. ضریب همبستگی مدل مقدار 0.85 را نشان داد. نتایج داده کاوی به روش MARS نشان داد متغیرهای تبخیر و تعرق واقعی، رطوبت خاک و شاخص خشکسالی پالمر بیشترین اهمیت نسبی را در شناسایی مناطق بحرانی خیزش گرد و غبار داشته اند. ضریب همبستگی مدل مقدار 0.72 را نشان داد. همچنین در روش TreeNet متغیرهای رطوبت خاک، شاخص خشکسالی پالمر و تبخیر و تعرق واقعی بیشترین اهمیت نسبی را نشان دادند. ضریب همبستگی مدل 0.75 بود. همچنین مناطق با حساسیت بسیار زیاد، زیاد، متوسط، کم و بسیار کم به ترتیب حدود 16% ، 19% ، 26% ، 20% و 20%، استان یزد را اشغال کردند.نتیجه گیری با توجه به نتایج یاد شده در مورد شناسایی تأثیرگذارترین متغیرها بر گرد و غبار در مناطق مختلف، نمی توان یک یا چند متغیر را در پدیده خیزش گرد و غبار برای همه مناطق، مشترک در نظر گرفت و این مهم از منطقه به منطقه ای دیگر تغییر می کند. کما اینکه متغیرهای زمین شناسی و کاربری اراضی در پژوهش حاضر جزء متغیرهایی بودند که هیچگونه اثری بر متغیر وابسته یعنی حساسیت به گرد و غبار نداشتند. در پژوهش حاضر، اشتراکات متغیرهای مستقل مهم و چرخه تصمیم گیری شامل تبخیر و تعرق واقعی، رطوبت خاک، شاخص خشکسالی پالمر، سرعت باد، ارتفاع، شاخص پوشش گیاهی و حداقل دمای روزانه بودند. هیچکدام از پژوهش های مرتبط در مورد موضوع پژوهش، در انتخاب بهترین مدل داده کاوی، همپوشانی نداشتند و مدل داده کاوی واحدی برای بررسی حساسیت مناطق مختلف به پدیده گرد و غبار در ایران یافت نشد. شایان ذکر است، در این پژوهش مدل الگوریتم درختان رگرسیون و طبقه بندی انتخاب شد. پژوهش حاضر در نوع مدل های داده کاوی استفاده شده و متغیرهای مستقل با پژوهشهای یاد شده متفاوت بوده و با توجه به عدم همپوشانی نتایج انتخاب مدل برتر، نمی توان نسخه واحدی برای انتخاب بهترین مدل داده کاوی برای ایران در بحث گرد و غبار ارائه نمود. لذا پیشنهاد می شود از بهترین مدل های منتخب در پژوهشهای یاد شده برای داده کاوی پدیده گرد و غبار در پژوهشهای آتی استفاده و مورد قیاس قرار گیرند.http://dorl.net/dor/20.1001.1.26767082.1400.12.1.4.5
Background and ObjectiveThe Middle East is one of the most important regions in the world for dust production. Iran, located in the Middle East, is exposed to numerous local and trans-regional dust systems due to its location in the arid and semi-arid regions of the world. Dust storms, in addition to covering arable land and plants with wind-blown materials, destroy fertile lands and reduce biological production and biodiversity, and severely affect the survival of residents. Dust storms are involved in the transmission of dangerous pathogens to humans, air pollution, and damage to respiratory function. Dust storms in Yazd province are relatively common and the average number of days with dust storms in the province reaches 43 days a year. This phenomenon has caused many problems for the people of the province. The main indicators of air quality are the concentration of suspended particles and the aerosol optical depth (AOD) following the occurrence of dust events. Numerous studies have been conducted in the world to identify the centers of dust collection and their origin. However, to the best of the authors’ knowledge, there is no study on the spatial zoning of dust conditions using three algorithms of CART, MARS and TreeNet algorithms as the predictive models. The purpose of this study is to forecast and zoning the potential of different areas for the production of dust aerosols using remote sensing data and data mining models as well as to specify the most important variables on this phenomenon in Yazd province. Materials and Methods The Yazd province lies in a dry region of Central Iran. The province experienced average annual rainfall of about 57 mm and an average annual temperature of about 20 ºC. The maximum temperature experienced in the warmest month of the province is close to 46 ºC. The maximum wind speed in this province is up to 120 kilometres per hour. The Google Earth Engine (GEE) interface (Javascript editor) was applied to collect remote sensing data in order to form three data sets that contain features related to topography, climate, and land surface conditions. These features were employed as the independent variables of the models, which is built by taking advantage of three data mining algorithms, classification and regression tree (CART), multivariate adaptive regression splines (MARS), and TreeNet, to specify the potential of areas for dust production. The dependent variable (target variable) of the models was the aerosol optical depth (AOD), which was acquired from MOD04 AOD retrievals from the Moderate Resolution Imaging Spectroradiometer (MODIS) onboard NASA's Terra satellite. The outcomes of the three models for classifying areas with different dust potentials were evaluated under performance criteria, such as R-squared, mean absolute deviation (MAD), the mean square error (MSE), the mean relative absolute deviation (MRAD), and the root means square error (RMSE). Results and Discussion The results showed the variables mostly affecting the dependent variable (AOD) in the MARS model were actual evapotranspiration, soil moisture, and the Palmer drought severity index. The values of R2 and RMSE in the MARS model were equal to 0.72 and 0.02, respectively. Similarly, the features with the highest relative importance according to the TreeNet model were soil moisture, Palmer drought severity index, and actual evapotranspiration. The values of R2 and RMSE in the TreeNet model were equal to 0.75 and 0.019, respectively. The results revealed that the CART model with R2 =0.85, MAD = 0.011, MSE =0.002, MRAD =0.262, and RMSE =0.014 had the best performance compared with the other two data mining models. The soil moisture, elevation, reference and actual evapotranspiration, minimum and maximum temperature, Palmer drought severity index, downward shortwave solar radiation, and wind speed were the most important variables in forecasting the potential of areas for dust production, respectively. Also, the areas with very high, high, moderate, low and very low susceptibility were occupied about 16%, 19%, 26%, 20% and 20% of the Yazd province, respectively. Conclusion All three models, which were based on three data mining algorithms, CART, MARS, and TreeNet, had a good agreement in specifying the most important variables affecting the optical depth of the dust aerosols in the study area. However, these models indicated different priority order for the identified variables in terms of relative importance; Besides, there was a difference in their performance criteria. As mentioned above, the CART model was the best-performing model, of the current study, for specifying the potential of areas for the generation of dust aerosols. According to this model, 25.8% of the province was classified as the moderate-risk of aerosol production, 18.6% of the province as the high-risk of aerosol production, and 16.0% of the study region as the very high-risk of dust aerosols. The high-risk areas are mostly spread in the western and southwestern regions of the Yazd province. Palmer United States golfer (born in 1929) More (Definitions, Synonyms, Translation). http://dorl.net/dor/20.1001.1.26767082.1400.12.1.4.5
Ahmadlou M, Delavar M. 2015. Multiple land use change modeling using multivariate adaptive regression spline and geospatial information system. Journal of Geomatics Science and Technology, 5(2): 131-146. (In Persian).
Ali M, Asklany SA, El-wahab M, Hassan M. 2019. Data Mining Algorithms for Weather Forecast Phenomena Comparative Study. International Journal of Computer Science and Network Security, 19(9): 76-81.
Alibakhshi T, Azizi Z, Vafaeinezhad A, Aghamohammadi H. 2020. Survey of Area Changes in Water Basins of Shahid Abbaspour Dam Caused by 2019 Floods Using Google Earth Engine. Iranian Journal of Ecohydrology, 7(2): 345-357. (In Persian).
Bari Abarghuei H, Tabatabaei Aghda S, Tavakoli M, Najjar Hadashi N. 2006. The origin of Yazd storms and the damages caused by it. 1st National Conference on Wind erosion and dust storms. Paper presented at the 21 January, Yazd University, Yazd, Iran. (In Persion).
Boroughani M, Pourhashemi S. 2019. Susceptibility Zoning of Dust Source Areas by Data Mining Methods over Khorasan Razavi Province. Environmental Erosion Research Journal, 9(3): 1-22. (In Persian).
Danesh Shahraki M, Shahriari A, Gangali M, Bameri A. 2017. Seasonal and Spatial Variability of Airborne Dust Loading Rate over the Sistan plain cities and its Relationship with some Climatic Parameters. Journal of Water and Soil Conservation, 23(6): 199-215. (In Persian).
Ebrahimi-Khusfi Z, Ruhollah T-M, Maryam M. 2021. Evaluation of machine learning models for predicting the temporal variations of dust storm index in arid regions of Iran. Atmospheric Pollution Research, 12(1): 134-147. doi:https://doi.org/10.1016/j.apr.2020.08.029.
Friedman JH, Meulman JJ. 2003. Multiple additive regression trees with application in epidemiology. Statistics in Medicine, 22(9): 1365-1381. doi:https://doi.org/10.1002/sim.1501.
Fridedman J. 1991. Multivariate adaptive regression splines (with discussion). Ann Stat, 19(1): 79-141.
Gholami H, Aliakbar M, Adrian LC. 2020. Spatial mapping of the provenance of storm dust: Application of data mining and ensemble modelling. Atmospheric Research, 233: 104716. doi:https://doi.org/10.1016/j.atmosres.2019.104716.
Gordon L. 2013. Using classification and regression trees (CART) in SAS® enterprise miner TM for applications in public health. SAS Global Forum 2013, San Francisco, California.
Halabian A, Javari M, Akbari Z, Akbari G. 2017. Evaluating the performance of decision tree model in estimating the suspended sediments of river (A case study on the basin of Meimeh river). Geography And Development Iranian Journal, 15(49): 81-96. (In Persian).
Hojati M. 2017. Artificial neural network based model to estimate dust storms PM10 content using MODIS satellite images. Journal of Environmental Studies, 42(4): 823-838. (In Persian).
Hunter H, Cervone G. 2017. Analysing the influence of African dust storms on the prevalence of coral disease in the Caribbean Sea using remote sensing and association rule data mining. International Journal of Remote Sensing, 38(6): 1494-1521. doi:https://doi.org/10.1080/01431161.2016.1277279.
Karimi K, Taheri Shahraiyni H, Habibi Nokhandan M, Hafezi Moghadas N. 2011. Identifying sources of origin for producing dust storms in Middle East using remote sensing. Journal of Climate Research, 2((7-8)): 57-72. (In Persian).
Khalighi Sigaroudi S, Shahbandari R, Dadfar R, Kamrani F. 2011. Investigation of the relationship between drought and dust storms (Case study: Yazd province). Paper presented at the 2nd National Conference on Wind Erosion and Dust Storms. Yazd University, Yazd, Iran. (In Persian).
Loh WY. 2011. Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1): 14-23.
Mirakbari M, Ganji A, Fallah S. 2010. Regional bivariate frequency analysis of meteorological droughts. Journal of Hydrologic Engineering, 15(12): 985-1000. doi:https://doi.org/10.1061/(ASCE)HE.1943-5584.0000271.
Mohammad Khan S. 2017. The study of the status and trend of changes in dust storms in Iran during the period from 1985 to 2005. Irrigation and Watershed Management (Iranian Journal of Natural Resources) 2(3): 495-514. (In Persian).
Panahi M, Mirhashemi SH. 2015. Assessment among two data mining algorithms CART and CHAID in forecast air temperature of the synoptic station of Arak. Environmental Sciences, 13(4): 53-58. (In Persian).
Pourhashemi S, Amirahmadi A, Zangane Asadi MA, Salehi M. 2018. Identifying and determining the characteristics of dust centers in Khorasan Razavi province. Arid Regions Geography Studies, 9(34): 1-9. (In Persian).
Pourhashemi S, Boroghani M, Amirahmadi A, Zanganeh Asadi M, Salhi M. 2019. Dust source prioritization with using statistical models (Case study: Khorasan Razavi provience). Journal of Range and Watershed Managment, 72(2): 343-358. (In Persian).
Rashki A, Kaskaoutis D, Rautenbach CJW, Eriksson P, Qiang M, Gupta P. 2012. Dust storms and their horizontal dust loading in the Sistan region, Iran. Aeolian Research, 5(3): 51-62. doi:https://doi.org/10.1016/j.aeolia.2011.12.001.
Rezazadeh M, Irannejad P, Shao Y. 2013. Climatology of the Middle East dust events. Aeolian Research, 10: 103-109. doi:https://doi.org/10.1016/j.aeolia.2013.04.001.
Rokach L, Maimon OZ. 2014. Data mining with decision trees: theory and applications, vol 81. World scientific. 244 p.
Sharma H, Kumar S. 2016. A survey on decision tree algorithms of classification in data mining. International Journal of Science and Research (IJSR), 5(4): 2094-2097.
Sobhani B, Safarian Zengir V, Faizollahzadeh S. 2020. Modeling and prediction of dust in western Iran. Physical Geography Research Quarterly, 52(1): 17-35. (In Persian).
Soleimanpour S, Mesbah S, Hedayati B. 2018. Application of CART decision tree data mining to determine the most effective drinking water quality factors (case study: Kazeroon plain, Fars province). Iranian Journal of Health and Environment, 11(1): 1-14. (In Persian).
Tsolmon R, Ochirkhuyag L, Sternberg T. 2008. Monitoring the source of trans-national dust storms in north east Asia. International Journal of Digital Earth, 1(1): 119-129. doi:https://doi.org/10.1080/17538940701782593.
Zha W, Chan W-Y. 2005. Objective Speech Quality Measurement Using Statistical Data Mining. EURASIP Journal on Advances in Signal Processing, 2005(9): 721258. doi:10.1155/ASP.2005.1410.
_||_Ahmadlou M, Delavar M. 2015. Multiple land use change modeling using multivariate adaptive regression spline and geospatial information system. Journal of Geomatics Science and Technology, 5(2): 131-146. (In Persian).
Ali M, Asklany SA, El-wahab M, Hassan M. 2019. Data Mining Algorithms for Weather Forecast Phenomena Comparative Study. International Journal of Computer Science and Network Security, 19(9): 76-81.
Alibakhshi T, Azizi Z, Vafaeinezhad A, Aghamohammadi H. 2020. Survey of Area Changes in Water Basins of Shahid Abbaspour Dam Caused by 2019 Floods Using Google Earth Engine. Iranian Journal of Ecohydrology, 7(2): 345-357. (In Persian).
Bari Abarghuei H, Tabatabaei Aghda S, Tavakoli M, Najjar Hadashi N. 2006. The origin of Yazd storms and the damages caused by it. 1st National Conference on Wind erosion and dust storms. Paper presented at the 21 January, Yazd University, Yazd, Iran. (In Persion).
Boroughani M, Pourhashemi S. 2019. Susceptibility Zoning of Dust Source Areas by Data Mining Methods over Khorasan Razavi Province. Environmental Erosion Research Journal, 9(3): 1-22. (In Persian).
Danesh Shahraki M, Shahriari A, Gangali M, Bameri A. 2017. Seasonal and Spatial Variability of Airborne Dust Loading Rate over the Sistan plain cities and its Relationship with some Climatic Parameters. Journal of Water and Soil Conservation, 23(6): 199-215. (In Persian).
Ebrahimi-Khusfi Z, Ruhollah T-M, Maryam M. 2021. Evaluation of machine learning models for predicting the temporal variations of dust storm index in arid regions of Iran. Atmospheric Pollution Research, 12(1): 134-147. doi:https://doi.org/10.1016/j.apr.2020.08.029.
Friedman JH, Meulman JJ. 2003. Multiple additive regression trees with application in epidemiology. Statistics in Medicine, 22(9): 1365-1381. doi:https://doi.org/10.1002/sim.1501.
Fridedman J. 1991. Multivariate adaptive regression splines (with discussion). Ann Stat, 19(1): 79-141.
Gholami H, Aliakbar M, Adrian LC. 2020. Spatial mapping of the provenance of storm dust: Application of data mining and ensemble modelling. Atmospheric Research, 233: 104716. doi:https://doi.org/10.1016/j.atmosres.2019.104716.
Gordon L. 2013. Using classification and regression trees (CART) in SAS® enterprise miner TM for applications in public health. SAS Global Forum 2013, San Francisco, California.
Halabian A, Javari M, Akbari Z, Akbari G. 2017. Evaluating the performance of decision tree model in estimating the suspended sediments of river (A case study on the basin of Meimeh river). Geography And Development Iranian Journal, 15(49): 81-96. (In Persian).
Hojati M. 2017. Artificial neural network based model to estimate dust storms PM10 content using MODIS satellite images. Journal of Environmental Studies, 42(4): 823-838. (In Persian).
Hunter H, Cervone G. 2017. Analysing the influence of African dust storms on the prevalence of coral disease in the Caribbean Sea using remote sensing and association rule data mining. International Journal of Remote Sensing, 38(6): 1494-1521. doi:https://doi.org/10.1080/01431161.2016.1277279.
Karimi K, Taheri Shahraiyni H, Habibi Nokhandan M, Hafezi Moghadas N. 2011. Identifying sources of origin for producing dust storms in Middle East using remote sensing. Journal of Climate Research, 2((7-8)): 57-72. (In Persian).
Khalighi Sigaroudi S, Shahbandari R, Dadfar R, Kamrani F. 2011. Investigation of the relationship between drought and dust storms (Case study: Yazd province). Paper presented at the 2nd National Conference on Wind Erosion and Dust Storms. Yazd University, Yazd, Iran. (In Persian).
Loh WY. 2011. Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1): 14-23.
Mirakbari M, Ganji A, Fallah S. 2010. Regional bivariate frequency analysis of meteorological droughts. Journal of Hydrologic Engineering, 15(12): 985-1000. doi:https://doi.org/10.1061/(ASCE)HE.1943-5584.0000271.
Mohammad Khan S. 2017. The study of the status and trend of changes in dust storms in Iran during the period from 1985 to 2005. Irrigation and Watershed Management (Iranian Journal of Natural Resources) 2(3): 495-514. (In Persian).
Panahi M, Mirhashemi SH. 2015. Assessment among two data mining algorithms CART and CHAID in forecast air temperature of the synoptic station of Arak. Environmental Sciences, 13(4): 53-58. (In Persian).
Pourhashemi S, Amirahmadi A, Zangane Asadi MA, Salehi M. 2018. Identifying and determining the characteristics of dust centers in Khorasan Razavi province. Arid Regions Geography Studies, 9(34): 1-9. (In Persian).
Pourhashemi S, Boroghani M, Amirahmadi A, Zanganeh Asadi M, Salhi M. 2019. Dust source prioritization with using statistical models (Case study: Khorasan Razavi provience). Journal of Range and Watershed Managment, 72(2): 343-358. (In Persian).
Rashki A, Kaskaoutis D, Rautenbach CJW, Eriksson P, Qiang M, Gupta P. 2012. Dust storms and their horizontal dust loading in the Sistan region, Iran. Aeolian Research, 5(3): 51-62. doi:https://doi.org/10.1016/j.aeolia.2011.12.001.
Rezazadeh M, Irannejad P, Shao Y. 2013. Climatology of the Middle East dust events. Aeolian Research, 10: 103-109. doi:https://doi.org/10.1016/j.aeolia.2013.04.001.
Rokach L, Maimon OZ. 2014. Data mining with decision trees: theory and applications, vol 81. World scientific. 244 p.
Sharma H, Kumar S. 2016. A survey on decision tree algorithms of classification in data mining. International Journal of Science and Research (IJSR), 5(4): 2094-2097.
Sobhani B, Safarian Zengir V, Faizollahzadeh S. 2020. Modeling and prediction of dust in western Iran. Physical Geography Research Quarterly, 52(1): 17-35. (In Persian).
Soleimanpour S, Mesbah S, Hedayati B. 2018. Application of CART decision tree data mining to determine the most effective drinking water quality factors (case study: Kazeroon plain, Fars province). Iranian Journal of Health and Environment, 11(1): 1-14. (In Persian).
Tsolmon R, Ochirkhuyag L, Sternberg T. 2008. Monitoring the source of trans-national dust storms in north east Asia. International Journal of Digital Earth, 1(1): 119-129. doi:https://doi.org/10.1080/17538940701782593.
Zha W, Chan W-Y. 2005. Objective Speech Quality Measurement Using Statistical Data Mining. EURASIP Journal on Advances in Signal Processing, 2005(9): 721258. doi:10.1155/ASP.2005.1410.
شناسایی خاستگاههای هواویزهای اتمسفری با استفاده از سنجش از دور و دادهكاوی (مطالعه موردی: استان یزد)
چکیده
از جمله شاخصهای اصلی کیفیت هوا، میزان غلظت ذرات معلق و شاخص عمق اُپتیکی هواویز (AOD) در پی وقايع گرد و غبار میباشد. هدف اين پژوهش، شناسایی و پیشبینی مناطق مستعد گرد و غبار با استفاده از دادههای سنجش از دوری و روشهای دادهکاوی میباشد. در پژوهش حاضر، سه مجموعه داده، شامل دادههای مرتبط با توپوگرافی، اقلیم و وضعيت سطح زمین و یک مجموعه داده از عمق اُپتیکی هواویزها برای میانگین دوره 17 ساله از سال 2000 تا 2017، بهعنوان متغیر وابسته وارد فرآیند دادهکاوی شدند. برای شناسایی پهنههای مستعد تولید هواویز از سه الگوریتم دادهکاوی درختان رگرسیون و طبقهبندی (CART)، درختان رگرسیون چندگانه جمعشدنی (TreeNet) و رگرسیون انطباقی چندمتغیره اسپیلاین (MARS) استفاده شد. پس از ارزيابي سه مدل ساختهشده براساس شاخصهای كارآيي، انتخاب مهمترین متغیرها، پیشبینی AOD و سپس پهنهبندی جغرافیایی انجام پذیرفت. نتایج نشان داد مدل CART با 014/0=RMSE، 002/0=MSE، 011/0=MAD، 262/0=MRAD و 85/0=R2 بهترین عملکرد را در مقايسه با دو مدل دادهکاوی دیگر داشته است. متغیرهای رطوبت خاک، ارتفاع از سطح زمین، تبخیر و تعرق مرجع و واقعی، حداقل و حداکثر دما، شاخص شدت خشکسالی پالمر، تابش طول موج کوتاه به سمت زمین و سرعت باد به ترتیب مهمترین متغیرهای تأثيرگذار در پیشبینی پتانسیل تولید گرد و غبار در پهنههای مختلف بودند. طبقات مختلف پتانسیل تولید گرد و غبار، با استعداد (پتانسیل) خیلی زیاد 16%، با پتانسیل زیاد 19%، با پتانسیل متوسط 26%، با پتانسیل کم 20% و با پتانسیل خیلیکم 20% از سطح استان یزد را بهخود اختصاص دادند.
واژههای کلیدی: عمق اُپتیکی هواویز، متغیرهای مکانی، یادگیری ماشین، پهنهبندي
مقدمه
خاورمیانه یکی از پنج منطقه مهم جهان در تولید گرد و غبار میباشد (25). ایران بهدلیل قرار گرفتن در مناطق خشک و نیمهخشک جهان در معرض سیستمهای متعدد گرد و غبار محلی و فرامنطقهای میباشد (24). طوفانهای گرد و غبار علاوه بر پوشانده شدن اراضی زراعی و گیاهان بهوسیله مواد بادآورنده، باعث نابودی اراضی حاصلخیز و کاهش تولید بیولوژیک و تنوع زیستی، میشود و ماندگاری ساکنان را به شدت تحت تأثیر قرار میدهد. طوفانهای گرد و غبار در انتقال عوامل بیماریزای خطرناک به انسان، آلودگی آب و هوا و آسیب رساندن به عملکرد دستگاه تنفسی نقش دارد (15). طوفانهای گرد و غبار در استان یزد، امری عادی میباشد و میانگین روزهای توأم با طوفان گرد و خاک در استان به 43 روز در سال میرسد (16). این پدیده سبب مشکلات بسیاری برای مردم استان شده است، بهعنوان نمونه در خرداد ماه 1382 طوفان گرد و غبار با سرعت 4/26 متر بر ثانیه شهر یزد را در نوردید و دید افقی به صفر رسید. در ساعات بعد از طوفان دمای هوا 16 درجه سانتیگراد اُفت داشت و بیش از 17663 میلیون ریال در شهر یزد و بیش از 160911 میلیون ریال خسارت در کل استان وارد شده است (4). بنابراین بررسی و تهیه نقشههای پهنهبندی حساسیت با هدف شناسایی مناطق دارای قابلیت بالای تولید گرد و غبار، در محدودۀ فعالیتهای بشری دارای اهمیت است و جهت کاهش خسارات احتمالی و مدیریت خطر، اقداماتی مانند پهنهبندی عرصههای مختلف تولید گرد و غبار میتواند مؤثر واقع شود. تا به امروز استخراج متغیرهای مختلف از تصاویر ماهوارهای، با استفاده از نرمافزارهای مربوطه محاسبه میشد، که محاسبات هر یک از این پارامترها ماهها به طول میانجامید. زیرا برای محاسبات تصاویر ماهوارهای، ابتدا باید تصحیح هندسی و اتمسفری انجام شود تا از درصد خطاها کاسته شود، سپس باید برای هر پارامتر، تعداد زیادی محاسبه صورت گیرد و تعداد زیادی تصویر با حجم زیاد تولید و طبقهبندی شود تا بتوان به یک تصویر نهایی دست پیدا کرد. این عملیات هم به زمان زیاد و هم به میزان زیاد حافظه ذخیرهسازی بزرگی برای تصاویر محاسبه شده نیاز دارد (3). اخیراً سامانه آنلاین موتور گوگل ارث این مشکل را برطرف نموده و حجم انبوهی از متغیرها را میتوان با کدنویسی استخراج نمود. در همین راستا یکی از روشهای پهنهبندی حساسیت، استفاده از روشهای دادهکاوی است. دادهکاوی، استخراج دانش در پایگاه دادهها نامیده میشود و روشی برای کشف اطلاعات سودمند جدید و بالقوه از بین حجم انبوهی از اطلاعات است (22). همچنین از دیگر روشهای مؤثر در شناسایی کانونهای گرد و غبار، استفاده از روشهای سنجش از دور میباشد. در این خصوص با استفاده از تصاویر ماهواره مودیس مناطق برداشت گرد و غبار و خصوصیات کاربری اراضی، پوشش گیاهی و خاکشناسی این کانونها مشخص شده است. نتایج این تحقیقات نشان داده است که، پراکنش کانونهای برداشت گرد و غبار در خاکهای حساس به فرسایش، اراضی دیم و مناطق با پوشش گیاهی ضعیف بوده است (22 و 23).
بر همین مبنا در پژوهشی توسط دانششهرکی و همکاران (6)، تغییرات فصلی و مکانی نرخ گرد و غبار حمل شده از روي شهرهاي دشت سیستان و ارتباط آن با برخی پارامترهاي اقلیمی ، بررسی شده است. نتایج پژوهش مذکور نشان داده است که مقدار میانگین نرخ گرد و غبار حمل شده در دشت سیستان با سرعت باد، دماي هوا، دماي خاك در عمق 5 سانتیمتری و تبخیر و تعرق همبستگی مثبت و معنیداري دارد و با رطوبت نسبی همبستگی منفی و معنیداري را نشان داده است. همچنین همبستگی بین بارندگی و میانگین نرخ گرد و غبار حمل شده در سطح احتمال 05/0 معنی دار نبوده است (6). از طرفی در پژوهشی توسط بروغنی و پورهاشمی (5) که در گستره استان خراسان رضوی انجام شده است، با استفاده از تصاویر ماهوارهای مودیس در بازه زمانی 2005 تا 2016، پهنهبندی طوفانهای گرد و غبار انجام شده است. در پژوهش نامبردگان، از دو مدل وزن واقعه و نسبت فراوانی برای بررسی تأثیر متغیرهای خاک، شیب، شاخص پوشش گیاهی نرمالشده، لیتولوژی، فاصله از رودخانه و ژئومورفولوژی بر حساسیت منطقه به گرد و غبار استفاده شده است. نتایج پژوهش مذکور نشان داده است که متغیرهای ژئومورفولوژی، کاربری اراضی و شیب بیشترین نقش را در وقوع گرد و غبار در استان خراسان رضوی داشته است. مساحت مناطق با خطر زیاد و خیلی زیاد گرد و غبار بهترتیب 95/54 % و 23/58 % از مساحت منطقه را به خود اختصاص دادهاند. همچنین با استفاده از دو روش دادهکاوی جنگل تصادفی و رگرسیون لجستیک و متغیرهای نوع خاک، سنگشناسی، شیب، اختلاف پوشش گیاهی نرمال شده، فاصله از رودخانه، واحدهای ژئومورفولوژی و کاربری اراضی به پهنهبندی خطر مناطق برداشت گرد و غبار در استان خراسان رضوی بررسی شده است. با توجه به نتایج، دو متغیر شیب و کاربری اراضی را دارای بیشترین اهمیت نسبی در ایجاد کانونهای برداشت گرد و غبار داشته است (5). در پژوهشی توسط غلامی و همکاران (10) که در استان خوزستان انجام شده است، با استفاده از 12 فاکتور اقلیمی، مشخصات خاک و سطح زمین و نیز هشت روش دادهکاوی، نقشههای پتانسیل مکانی منشأ ریزگردهای استان خوزستان تهیه شده است. در این پژوهش از روشهای دادهکاوی و سیستم اطلاعات جغرافیایی به پهنهبندی پتانسیل خیزش گرد و غبار استفاده شده است. نتایج نشان داده است که مدل دادهکاوی ترکیبی EM، بیشترین دقت پیشبینی در شناسایی منشأ ریزگردها داشته است و از بین متغیرهای مستقل ورودی، سرعت باد دارای بیشترین اهمیت نسبی در بروز پدیده گرد و غبار استان خوزستان می باشد (10). سبحانی و همکاران (28) در تحقیقی با عنوان مدلسازی و پیشبینی گرد و غبار در ایران از دو مدل شبکه عصبی ANFIS و RFB استفاده کردند. بازه زمانی تحقیق ایشان 29سال و از دادههای گرد و غبار، دما و رطوبت نسبی 28 ایستگاه زمینی درگیر گرد و غبار شدید در ایران استفاده کردند. نتایج ارزیابی مدلها با شاخص RMSE حکایت از برتری مدل RFB در مورد نتایج پیشبینی داشت. محمدخان (20) به بررسی روند تغیرات طوفانهای گرد و غبار ایران از سالهای 1364 الی 1384 پرداخت و بیان کرد که گرد و غبار در ابران با پارامترهای تبخیر، دما و بارش همبستگی دارد و با ژئومورفولوژی و پارامتر ارتفاع دارای همبستگی نیست. ابراهیمیخوسفی و همکاران (7) در تحقیقی با عنوان ارزیابی مدلهای یادگیری ماشین برای پیشبینی تغییرات زمانی شاخص توفان گرد و غبار در مناطق خشک ایران، در بازه زمانی 2000 تا 2018 به ارزیابی کاربرد نه مدل یادگیری ماشینی شامل رگرسیون چندمتغیره تطبیقی، انتخاب عملگر حداقل جمعشدگی مطلق، نزدیکترین همسایه، الگوریتم ژنتیک، ماشین بردار پشتیبان، کوبیست، شبکه عصبی مصنوعی، افزایش گرادیان شدید و جنگل تصادفی پرداختند. مدل رگرسیون چندمتغیره اسپیلاین و پارامترهای اقلیمی شاخص پوشش گیاهی بارزسازی شده برای فصل بهار، حداکثر سرعت باد برای فصل تابستان، پاییز و فصول گرد و غباری بهترتیب، بعنوان بهترین مدل پیشبینی دادهکاوی و شاخصهای اقلیمی مؤثر بر شاخص طوفان گرد و غبار مناطق خشک ایران شناسایی شدند. در زمینه شناسایی کانونهای برداشت گرد و غبار و منشأ آنها مطالعات متعددی در دنیا انجام شده است، اما پژوهش مستندی در خصوص پهنهبندی گرد و غبار مناطق با استفاده از مدلهای CART، MARS و TreeNet و مقایسه این سه مدل در ایران مشاهده نشده است. هدف از پژوهش حاضر پهنهبندی پتانسیل عرصههای مختلف مستعد گرد و غبار با استفاده از مدلهای دادهکاوی، شناسایی مهمترین متغیرها بر این پدیده در استان یزد و بهرهمندی از سنجش از دور و سیستم اطلاعات جغرافیایی در این خصوص میباشد.
منطقه مورد مطالعه
اغلب مناطق استان یزد دارای اقلیم خشک و بیابانی تا فراخشک است. از جمله عوامل خشکی آن، غالب بودن سیستم پرفشار جنب حاره، تبخیر و تعرق بالا میباشد. به علت ناهنجاریهای اقلیمی نظیر کاهش میزان بارش، افزایش دما و موقعیت جغرافیایی استان، تقریبا نیمی از مساحت آن را اراضی بیابانی پوشانده که همواره در معرض فرسایش بادی و توفان های گرد و غبارقرار میگیرند. آمار و اطلاعات هواشناسی نشان میدهد فراوانی پدیده گرد و غبار از جمله توفانهای گرد و غبار در منطقه مطالعاتی از مقدار بالایی برخوردار است (19). شکل 1 منطقه مورد مطالعه را نشان میدهد.
شکل1. نقشه محدوده مطالعاتی و نقاط نمونهبرداری استفاده شده برای فرآیند یادگیری و آزمون.
Fig. 1. Map of study area and sampling points used for learning and test procedure.
روش تحقیق
در پژوهش حاضر با استفاده از کد نویسی با زبان Java Script در محیط موتور گوگل ارث و برمبنای شیپفایل مرز استان یزد اقدام به اخذ دادههای ماهوارهای براساس پروداکتهای اقلیم و بیلان آب دانشگاه آیداهو، گرد و غبار سنجنده ترا مودیس با دقت 4 کیلومتر و درصد رس اُپنلند شد. تمامی این تصاویر برای ماه می هر سال در بازه سالهای2000 تا 2017 و برای یک بازه زمانی 17 ساله اخذ شد و سپس متغیرها در این تصاویر در سیستم اطلاعات جغرافیایی برای بازه زمانی مذکور میانگینگیری شدند. در پژوهش حاضر، 15 متغیر مستقل شامل سرعت باد در ارتفاع ده متری سطح زمین (vs)، رطوبت خاک (soil)، بارش تجمعی (pr)، شاخص خشکسالی پالمر (pdsi)، شاخص پوشش گیاهی نرمال شده (NDVI)، خشکی خاک یا کمبود آب خاک (def)، تبخیر و تعرق مرجع (pet) و واقعی (aet)، بعد توپوگرافی (TD)، رادیانس طول موج کوتاه رسیده به زمین (srad)، حداقل دمای هوا (tmmn)، حداکثر دمای هوا (tmmx)، فشار بخار (vap)، کمبود فشار بخار(vpd) و درصد رس (clay) مورد بررسی قرار گرفت که در شکل 2 ارائه شده است. همچنین برای ماه آپریل تا می (با بررسی نمودار روند تغییرات عمق اپتیکی در سامانه گوگل ارت انجین، در بازه زمانی 2000 تا 2017 و شناسایی فراوانی ماههای دارای بیشترین میانگین عمق اپتیکی آئروسلها، این ماه انتخاب شد. قابل ذکر است؛ بزرگترین واقعه گرد و غبار طبق نمودار سری زمانی تغییرات عمق اپتیکی آئروسل برای ماههای اکتبر و سپتامبر سالهای 2001 و 2008 با مقادیر 907/0 و 906/0 رخ دادهاست) هر سال بیشترین مقادیر شاخص عمق اپتیکی آئروسل با ابزار تبدیلی سنجنده مودیس براساس پروداکت گرد و غبار این سنجنده، میانگینگیری و سپس برای بازه زمانی یاد شده محاسبه شد. قابل ذکر است که این دادهها از پروداکت MOD04 با هدف الگوریتم تیره (13) در محصولات مودیس مخصوص هواویز در مقیاس روزانه از وبگاه ناسا دانلود شدند.
شکل 2. نقشه الف) رطوبت خاک، ب) تبخیر و نعرق مرجع، پ) تبخیر و تعرق واقعی، ت) حداقل دمای روزانه، ث)حداکثر دمای روزانه، ج) شاخص خشکسالی پالمر ، چ) کمبود فشار بخار، ح)تابش طول موج کوتاه ، خ) سرعت باد د) بارش تجمعی، ذ) فشار بخار هوا، ر)کمبود آب در خاک، ز) شاخص پوشش گیاهی، س) بُعد توپوگرافی، ش)درصد رس و ص) عمق بصری هواویزها
Fig. 2. Map of a) Soil moisture, b) Reference evapotranspiration, c) Actual evapotranspiration, d) Minimum daily temperature, e) Maximum daily temperature, f) Palmer drought index, g) vapor pressure deficit, h) Shortwave Radiation, i) Wind speed j) Cumulative precipitation, k) vapor pressure, l) Soil water deficit, m) Vegetation index, n) Topographic dimension, o) Percentage of clay, and p) Aerosol optical depth
الگوریتم درختان رگرسیون و طبقهبندی (CART)
ایده اصلی این روش، درختهای دستهبندی و رگرسیون تقسیم دادهها به بخشهای کوچکتر است که بطوریکه این بخشها حاوی اطلاعات تاحد ممکن تفکیک شده باشند (11). یک درخت تصمیمگیری، مدلی غیرپارامتری است که به پراکنش خاص در مورد دادههای متغیرهای مستقل وابسته نیست و روشی قابل اتکاء در دادهکاوی میباشد. این روش انعطافپذیر، دارای رویکردی مستحکم در تقسیم دوتایی و تصمیم در مورد بهترین اندازه درخت میباشد. این روش برای دادهکاوی و ایجاد مدلهای پیشبینیکننده استفاده میشود (17) و با دادههای ناهمگون و ساختارهای غیرخطی سازگاری بالایی دارد. درخت با تقسیم مکرر مقادیر دادههای متغیر وابسته توسط متغیرهای مستقل ساخته میشود. در هر تقسیم به دو گروه تقسیم میشوند که تا حد ممکن یکنواخت هستند و با بقیه فرق دارند. تقسیم شدن تا جایی ادامه پیدا میکند که به چندین گره نهایی با کمترین میزان خطا برسد. به عبارتی منظور از همگن بودن گره این است که همه رکوردهای موجود در آن متعلق به یک دسته خاص باشند؛ چون در این صورت گره تبدیل به برگ میشود و الگوریتم موجود به دنبال ویژگیهایی از مجموعه دادههاست که خاصیت جداکنندگی بیشتری دارند (27). اندازه درخت به تعداد گرههای نهایی بستگی دارد. در این روش درخت تا حد ممکن رشد کرده و سپس عملیات هرس انجام میشود تا به یک سایز بهینه برسد. هرسشدن درخت بر اساس شاخص Cost Complexity اتفاق میافتد. این روش نسبت به تغییرات یکنواخت متغیر مستقل تغییر نمیکند. در بین روشهای یادگیری ماشینی، این روش بیشتر در بین پژوهشگران استفاده میشود و تفسیر ساده و راحتی دارد. در این روش از دادههای یادگیری که 70% دادهها و دادههای آزمون که 30% دادهها هستند جهت مدلسازی استفاده شد (29). در دادههای پژوهش حاضر داده مفقود شده وجود نداشت. هرچقدر یک بعد یا ویژگی، شاخص جینی کوچکتری داشت، آن ویژگی اطلاعات بیشتری ارایه کرد و توانست در درخت ساخته شده، بالاتر و نزدیک به ریشه قرار گیرد. همچنین این الگوریتم از جداکننده جانشین بهره گرفت تا بهترین استفاده از داده با مقادیرگمشده را داشته باشد (21). معیار مورد استفاده در این درختان انحراف حداقل مربعات بود و مطابق با رابطه (1) محاسبه گردید:
[1]
تعداد دادهها در گره برگ t، متغیر هدف در گره برگ، میانگین مقادیر متغیر هدف برای همه گرهها. متغیر ورودی زمانی بهترین متغیر برای ایجاد شاخه در گره t است که مقدار Q(s,t) در رابطه (2) را بیشینه کند.
[2]
که در آن و به ترتیب میزان در شاخه سمت چپ و راست گره t میباشند. درختان ایجاد شده ممکن نتایج بسیار پیچیدهای را نشان دهند و شامل صدها سطح شوند، لذا قبل از امتیازبندی آنها برای دادههای جدید بهینهسازی شدند (12).
رگرسیون انطباقی چندمتغیره اسپیلاین (MARS)
اين الگوريتم دادهكاوي برای دادههای متغیر وابسته پیوسته و یا دوتایی کاربرد دارد. این روش به شکلی مؤثر الگوی دادهای را بین متغیرها پیدا میکند که برای دیگر روشها و مدلهای رگرسیونی سخت و یا حتی غیرممکن است. مدل رگرسیونی که خوب توسعه یافته است میتواند برای پیشبینیها و دادهکاوی مناسب باشد. این مدل دارای خروجی پیوسته است که در یک قاعده و روند آرام مطابق با تغییرات دادههای ورودی تغییر میکند که بر خلاف روشهای درخت تصمیمگیری میباشد. در این روش اجرای مدل به شکل خودکار انجام میشود. به عبارتی انتخاب متغیرهای مربوط از متغیرهای بیارتباط با هدف، تعیین روابط متقابل بین متغیرهای پیشبینیکننده و اجرای آزمونهای خودکار اضافی جهت جلوگیری از برازش بیش از حد انجام میشود. این روش روابط متقابل بین متغیرها را مدلسازی میکند و تأثیر آنها را روی متغیر وابسته بررسی میکند. همچنین تأثیرات تک متغیر، روی متغیر وابسته نیز در نظر گرفته میشود. این روش روابط غیرخطی (گرهها) و روابط خطی رگرسیونی بین متغیرهای مستقل و وابسته را با هم و به شکل پیوسته در نظر میگیرد و از این روش برای کشف روابط غیرخطی بین متغیرها استفاده میشود (9). این مدل قابلیت تفسیر بالایی دارد و نیازمند در نظر گرفتن فرض آماری بین متغیرها نیست (1). در این الگوریتم بین متغیر وابسته و مستقل ابتدا گرهها پیدا میشوند و سپس رسم خط بین آنها صورت میگیرد و در مرحله بعد تضمین پاسخهای پیوسته انجام میشود. در قیاس با ساير مدلهاي غیرخطي که فقط يک مجموعه از ضرايب را به دادهها اعمال ميکنند؛ اين روش با برازش دادن توابع چندجملهاي منطقهاي جداگانه براي هر يک از زيرمجموعه از دادهها اقدام به تشخیص الگوهاي پیچیده مينمايد (31). مدل مارس بهینه طی یک فرایند دو مرحلهای انجام میشود. در مرحله اول توسعه و در مرحله دوم عملیات هرس اتفاق میافتد. در مرحله نخست شاهد توابع پایه که مدلی بزرگ میباشد ساخته میشود. این فرآیند بزرگ و منعطف شدن با اضافه شدن توابع پایه، تا جایی ادامه پیدا میکند که به یک مقدار بیشینه در توابع پایه برسد. در مرحله بعد عملیات حذف توابع پایه از مدل انجام میگیرد تا توابع ضعیف از چرخه خارج شوند و به مدل بهینه با کمترین خطا خواهد رسید. در پژوهش حاضر بهجای درصدی از دادهها به عنوان دادههای تست و یادگیری، بر اساس درجه آزادی و بدون داده تست انجام شد وهمه دادهها یادگیری محسوب شدند. همچنین جهت انتخاب مدل بهینه از شاخص GCV استفاده شد. رگرسیون انطباقی چندمتغیره اسپیلاین مطابق با رابطههای (3)، (4) و (5) انجام شد (31)؛
[3]
در رابطه فوق، یک مقدار ثابت میباشد، M تعداد تِرمهای غیرصفر همان گرهها که توابع پایه در آنها تقسیم میشوند، ضرائب مربوط به mاُمین تابع پایه و مربوط به mاُمین تابع پایه برای مدل است که مطابق با رابطه (4) محاسبه میشود:
[4]
درجه تعامل بین متغیرها در mاُمین تابع پایه، مقداری بین 1- تا 1+ و متغیر vاُم میباشد که در آن که k تعداد کل متغیرهای ورودی و m شماره تابع پایه میباشد. مکان گره در هر یک از متغیرهای پیشبینی متغیر وابسته میباشد. q توان تابع پایه میباشد و اندیس + به معنی بخش مثبت عبارت داخل براکت است. بدین معنی که اگر عبارت داخل براکت بزرگتر از صفر بود، نتیجه خود عبارت داخل براکت میشود و در غیر اینصورت نتیجه برابر صفر خواهد بود. جهت انتخاب بهترین مدل رگرسیونی از اعتبارسنجی متقاطع تعمیمیافته استفاده میشود (رابطه 5):
[5]
در این رابطه مقادیر واقعی کلاس مورد نظر، مقدار تخمین زده شده برای مقادیر واقعی کلاس مورد نظر، n تعداد کل مشاهدات، C(M) معیار هزینه-جریمه یک مدل است که شامل M تابع پایه میباشد. بعبارت دیگر C(M) برابر تعداد مؤثر درجه آزادی میباشد که به موجب آن، يک جريمه را براي اضافهکردن متغیرهاي ورودي بیشتر به مدل اضافه میکند (31).
درختان رگرسیون چندگانه جمعشدنی (TreeNet)
این روش از صدها و هزاران درخت تشکیل شده که هر کدام دارای گرههای متعددی هستند. هر درخت نقش کوچکی در تشکیل درخت اصلی مدل دارند. این روش برای اکثر مسائل مدلسازی قابل استفاده میباشد. این روش بر روی دقت پیشبینی تمرکز دارد و ترکیب مدلهایی با بالاترین کیفیت را انجام میدهد تا در یک مدل منفرد قرار گیرند. این روش دادههای مشکوک را نادیده میگیرد. همچنین این روش از رویکردgradient boosting بهره میبرد (8 و 9).
درخت رگرسیون چندگانه جمعشدنی یک الگوریتم دارای تکرار هست که بر اساس رابطه (6) در هر تکرار m، یک درخت رگرسیون مانند: ساخته شد، که در هر کدام یک متغیر پیشبینیکننده x، مناطق جداکننده j و یک مقدار ثابت جداگانه پیشبینی شد.
[6]
که در اینجا میانگین مقدار شبه پیشبینی در هر موقعیت در تکرار mاُمین میباشد (8 و 9).
در پژوهش حاضر از دادههای یادگیری و آزمون به نسبت 70% به 30% و به صورت کاملاً تصادفی استفاده شد. شایان ذکر است که تعداد 200 درخت حداقل با 6 گره برای مدلسازی تنظیم شد.
نتایج و بحث
نتایج دادهکاوی بین متغیر وابسته (عمق اپتیکی آئروسل) و متغیرهای مستقل (شاخصهای اقلیمی) در پژوهش حاضر با استفاده از روش CART به شرح ذیل بود. در این روش از 220 گره استفاده شده است که در گره 33، بهترین اندازه درخت بر اساس مقدار بهینه بین خطای نسبی و تعداد گره با مقدار 307/0 حاصل شد و درخت هرس شد که در شکل 3 ارائه شده است.
شکل 3. تشخیص بهترین درخت تصمیم با تعداد 33 گره
Fig. 3. Identifying the best decision tree with 33 nodes
مهمترین گرههادر ریشهزنی درخت تصمیم شامل رطوبت خاک، شاخص خشکسالی پالمر و تبخیر و تعرق مرجع میباشند. میانگینهای بالای شاخص عمق اپتیکی هواویزها به رنگ قرمز در شکل 4 نشان داده شده است و متغیرهایی همچون شاخص پوشش گیاهی نرمالشده، تبخیر و تعرق واقعی، مدل رقومی ارتفاع، طول موج کوتاه رسیده به سطح زمین، شاخص خشکسالی پالمر، سرعت باد و درصد رس، گرههای انتهایی جهت شناسایی مناطق با میانگین بالای عمق اپتیکی هواویزها میباشند.
شکل 4 درخت تصمیم و گرههای مادر (رنگ قرمز گرههای مهم را نشان میدهد)
Fig. 4 Decision tree and mother nodes (red indicates important nodes)
اهمیت نسبی متغیرها در فرآیند مدلسازی در روش CART محاسبه و در جدول 1 ارائه شده است.
جدول 1. اهمیت نسبی متغیرها با استفاده از روش CART
Table 1. Relative importance of variables using CART method
نام متغیر | اهمیت نسبی | شمای میزان اهمیت نسبی |
SOIL | 100 | |||||||||||||||||||||||||||||||||||||||||||||||| |
DEM | 94/83 | |||||||||||||||||||||||||||||||||||||||| |
PET | 14/77 | ||||||||||||||||||||||||||||||||||||| |
AET | 31/68 | |||||||||||||||||||||||||||||||| |
TMMX | 63/67 | |||||||||||||||||||||||||||||||| |
TMMN | 48/67 | |||||||||||||||||||||||||||||||| |
PDSI | 09/66 | ||||||||||||||||||||||||||||||| |
VPD | 13/62 | ||||||||||||||||||||||||||||| |
SRAD | 94/48 | ||||||||||||||||||||||| |
VS | 85/35 | ||||||||||||||||| |
PR | 17/35 | |||||||||||||||| |
VAP | 33/30 | |||||||||||||| |
DEF | 00/21 | |||||||||| |
NDVI | 13/8 | ||| |
TD | 17/5 | || |
CLAY | 39/2 | | |
BULK | 71/0 |
|
SOILPH | 34/0 |
|
میزان R2 مقدار خوبی را برای مدل نشان میدهد. مقادیر بین 8/0 تا 9/0 مقادیر خوب برای مدل محسوب میشود و مقدار کمتر از 7/0 دقت کم مدل را نشان میدهد. جدول 2 شاخصهای انتخاب مدل را نشان میدهد.
جدول 2. شاخصهای انتخاب مدل CART
Table 2. Model selection criteria of CART
نام شاخص | مقدار شاخص |
خطای جذر میانگین مربعات (RMSE) | 0148/0 |
خطای میانگین مربعات (MSE) | 0002/0 |
میانگین خطای مطلق (MAD) | 0113/0 |
مجذور میانگین خطای مطلق (MRAD) | 2626/0 |
مجموع مربعات متغیر هدف (SSY) | 654/1 |
مجموع خطاهای مربع (SSE) | 2363/0 |
ضریب همبستگی (R^2) | 8571/0 |
ضریب همبستگی نرمال (R^2 Norm) | 8571/0 |
ضریب آکائیکه (AIC) | 36/8946- |
ضریب آکائیکه تصحیح شده (AICc) | 48/8945- |
انحراف (BIC) | 91/8841- |
خطای نسبی (Relative Error) | 1428/0 |
نتایج دادهکاوی به روش MARS به شرح ذیل می باشد. این مدل، با تعداد حداکثر 15 تابع پایه بر اساس شاخص GCV در مقدار بهینه 14 به بیشترین مقدار همبستگی بین متغیر وابسته و متغیرهای مستقل رسیده است که در شکل 5 نشان داده شده است.
شکل 5. مقدار همبستگی بین متغیر وابسته و متغیرهای مستقل بر اساس شاخص GCV
Fig.5. Value of correlation between dependent variable and independent variables based on GCV index
تعداد توابع پایه در مرحله نخست از روش MARS معادل 15 تابع پایه است که در جدول 3 مدل نهایی روش رگرسیون انطباقی چندمتغیره اسپیلاین آورده شده است.
جدول 3. مدل نهایی براساس روش رگرسیون انطباقی چندمتغیره اسپیلاین
Table 3. Final model based on multivariate adaptive regression spline method
توابع پایه | ضرائب | متغیرها | علامت | گره |
0 | 04/0 |
|
|
|
1 | 0825/0- | SOIL | + | 48/1 |
2 | 0696/0 | SOIL | - | 48/1 |
3 | 0250/0- | AET | + | 22/2 |
4 | 0343/0- | AET | - | 22/2 |
5 | 0001/0 | DEM | + | 926 |
6 | 0001/0- | DEM | - | 926 |
7 | 0398/0 | PDSI | + | 3/3- |
8 | 0118/0 | PDSI | - | 3/3/- |
9 | 6659/0- | VS | + | 39/3 |
10 | 1037/0- | VS | - | 39/3 |
11 | 1055/0 | SOIL | + | 1778/0 |
13 | 0 | NDVI | - | 1232 |
14 | 0 | EVI | + | 1232 |
15 | 0043/0- | TMMN | - | 72/3 |
Basis Functions
BF1 = max(0, SOIL - 1.48889); BF2 = max(0, 1.48889 - SOIL); BF3 = max(0, AET - 2.22353); BF4 = max(0, 2.22353 - AET); BF5 = max(0, DEM - 926); BF6 = max(0, 926 - DEM); BF7 = max(0, PDSI + 3.30611); BF8 = max(0, -3.30611 - PDSI); BF9 = max(0, VS - 3.39); BF10 = max(0, 3.39 - VS); BF11 = max(0, SOIL - 0.177778); BF13 = max(0, NDVI - 1232); BF14 = max(0, 1232 - NDVI); BF15 = max(0, TMMN - 3.72778);
Y = 0.0454322 - 0.082459 * BF1 + 0.0695719 * BF2
- 0.0249663 * BF3 - 0.0343166 * BF4
+ 6.78743E-005 * BF5 - 6.88826E-005 * BF6
- 0.0397511 * BF7 + 0.0117701 * BF8
- 0.665928 * BF9 - 0.103687 * BF10
+ 0.105522 * BF11 + 1.21482E-005 * BF13
+ 3.17859E-005 * BF14 - 0.00432006 * BF15;
MODEL AOD = BF1 BF2 BF3 BF4 BF5 BF6 BF7 BF8 BF9 BF10 BF11 BF13
BF14 BF15;
خطای استاندارد مربوط به ترکیب هر کدام از روابط در شکل 6 ارائه شده است. این نمودار نشان میدهد میزان خطای تابع به ازای حذف هر متغیر مرتبط چقدر است (جدول 4). بر طبق این جدول، در توابع شماره 2 و 3 با حذف متغیرهای AET و DEM بیشترین میزان خطا در مدل انطباقی چند متغیره اسپیلاین رخ میدهد. در مدل مورد نظر، 7 گام وجود دارد که در گام نخست سه تابع پایه موجود است و در کل 14 تابع بهینه حاصل شده است که در بالا عنوان شد.
شکل 6 . ارتباط بین خطای استاندارد و توابع (توابع بهینه و گامها)
Fig. 6. Relationship between standard error and functions (optimal functions and steps)
جدول 4. توضیحات مبسوط گامها، توابع پایه و میزان خطای حذف هرکدام
Table 4. Detailed description of the steps, basic functions and error amount of each deletion
تابع | انحراف از معیار | هزینه خطا | تعداد توابع پایه | مقدار پارامترهای مؤثر | متغیرها |
1 | 02060/0 | 00057/0 | 3 | 429/6 | SOIL |
2 | 02863/0 | 00066/0 | 2 | 286/4 | AET |
3 | 02873/0 | 00048/0 | 2 | 286/4 | DEM |
4 | 01960/0 | 00054/0 | 2 | 286/4 | PDSI |
5 | 02278/0 | 00049/0 | 2 | 286/4 | VS |
6 | 00674/0 | 00045/0 | 2 | 286/4 | NDVI |
7 | 01505/0 | 00044/0 | 1 | 143/2 | TMMN |
متغیرهایی که دارای گره یا به عبارت دیگر روابط غیرخطی بودهاند و همچنین متغیرهایی که دارای روابط رگرسیونی خطی بودهاند نیز در شکل 7 ارائه شدهاند که حاکی از وجود روابط متقابل با درجه 1 میباشند.
شکل 7 . متغیرهای مرتبط دارای گره و یا روابط رگرسیونی خطی روی متغیر عمق اپتیکی آئروسل با روش MARS
Fig. 7. Related variables with nodes or linear regression relationships on the aerosol optical depth variable with MARS method
همچنین اهمیت نسبی متغیرها بر پیشبینی مقادیر عمق اپتیکی هواویزها در جدول 5 ارائه شده است.
جدول 5. اهمیت نسبی متغیرها روی پیشبینی مقادیر عمق اپتیکی آئروسل
Table 5. Relative importance of variables on predicting the aerosol optical depth
نام متغیر | مقدار اهمیت نسبی | شمای میزان اهمیت نسبی |
AET | 100 | |||||||||||||||||||||||||||||||||||||||||| |
SOIL | 77/78 | ||||||||||||||||||||||||||||||||| |
PDSI | 16/70 | ||||||||||||||||||||||||||||| |
VS | 64/53 | |||||||||||||||||||||| |
DEM | 83/45 | ||||||||||||||||||| |
NDVI | 47/32 | ||||||||||||| |
TMMN | 02/20 | |||||||| |
جدول 6. شاخصهای انتخاب مدل MARS
Table 6. Model selection criteria of MARS
نام شاخص | مقدار شاخص | |
خطای جذر میانگین مربعات (RMSE) | 02027/0 | |
خطای میانگین مربعات (MSE) | 00041/0 | |
اعتبارسنجی متقاطع تعمیمیافته(GCV) | 00043/0 | |
میانگین خطای مطلق (MAD) | 01592/0 | |
مجذور میانگین خطای مطلق (MRAD) | 40629/0 | |
مجموع مربعات متغیر هدف (SSY) | 258/2 | |
مجموع خطاهای مربع (SSE) | 61660/0 | |
ضریب همبستگی (R^2) | 72694/0 | |
ضریب همبستگی نرمال (R^2 Norm) | 72694/0 | |
ریشه مربعات اعتبارسنجی متقاطع تعمیم یافته (GCV R-Sq) | 71568/0 |
نتایج روش TreeNet به شرح زیر میباشد. مدل در درخت شماره 200 به مقدار بهینه متغیر وابسته رسیده است که در شکل 8 ارائه شده است.
شکل 8. نتایج روش TreeNet در خصوص مقدار بهینه متغیر وابسته و همگرایی دادههای یادگیری و آزمون
Fig.8. Results of the TreeNet method regarding the optimal value of the dependent variable and the convergence of learning and test data
زیر شاخصهای ارزیابی مدل و همچنین اهمیت نسبی متغیرها در فرآیندمدلسازی در روش TreeNet در جدولهای 7 و 8 ارائه شده است.
جدول 7. زیر شاخصهای ارزیابی مدل در روش TreeNet
Table 7. Sub-indicators of model evaluation in TreeNet method
عنوان شاخص ارزیابی | مقدار شاخص |
RMSE | 019/0 |
MSE | 0003/0 |
MAD | 01/0 |
MRAD | 42/0 |
SSY | 65/1 |
SSE | 41/0 |
R2 | 75/0 |
R2 Norm | 8/0 |
AIC | 28/8357- |
AICc | 4/8356- |
BIC | 84/8252- |
جدول 8. اهمیت نسبی متغیرها در فرآیند مدلسازی در روش TreeNet
Table 8. The relative importance of variables in the modeling process in the TreeNet method
نام متغیر | مقدار نرمالشده اهمیت | شمای میزان اهمیت نسبی |
SOIL | 100 | |||||||||||||||||||||||||||||||||||||||||| |
PDSI | 94/83 | ||||||||||||||||||||||||||||||||||| |
AET | 61/62 | |||||||||||||||||||||||||| |
VS | 7/46 | ||||||||||||||||||| |
DEM | 99/35 | |||||||||||||| |
SRAD | 47/23 | ||||||||| |
PR | 32/19 | ||||||| |
VAP | 67/16 | |||||| |
TMMX | 89/15 | |||||| |
DEF | 41/6 | || |
TMMN | 37/6 | || |
NDVI | 51/5 | | |
CARBON | 9/2 |
|
SLOPE | 7/2 |
|
BULK | 32/2 |
|
در ادامه میزان تأثیر هر کدام از متغیرها بر متغیر هدف یعنی عمق اپتیکی آئروسل (AOD) در شکل 9 ارائه شده است.
شکل 9. میزان تأثیر متغیرها بروی متغیر هدف (AOD) در روش TreeNet
Fig. 9. The effect of variables on the target variable (AOD) in the TreeNet method
بعد از پیشبینی مقادیر متغیر وابسته با استفاده از روشهای دادهکاوی یادشده، بر اساس ساختار رستری و ارزشهای تخصیص داده شده به هر نقطهی نمونهبرداری شده (نقاط سمپلگیری شده از متغیرهای اقلیمی ( متغیرهای مستقل) و عمق اپتیکی هواویزها (متغیر وابسته))، پهنهبندی ارزشها در سامانه اطلاعات جغرافیایی و نرمافزار ArcMap10.3 انجام گرفت. همچنین مناطقی که بین سه روش مختلف دادهکاوی بهعنوان مناطق مشترک مطرح بودند با استفاده از توابع منطقی در قالب نقشه چهارم به همراه سه روش دیگر آورده شده است. پهنهبندی پتانسیل ایجاد گرد و غبار در استان یزد به روشهای MARS (ع)، CART (غ)، TreeNet (ف) و logical Intersect (ق) انجام شد که در شکل 10 ارائه شده است. نتایج جمیع روشها به حضور پهنههای با پتانسیل بالای گرد و غبار در مناطق جنوبی و جنوب غربی استان یزد اذعان دارند و رفته رفته از پتانسیل عرصههای مختلف تولید گرد و غبار به سمت شمال و شرق استان کاسته میشود. اگر روش CART را مبنای تصمیمگیری قرار دهیم؛ بر اساس بهترین مقادیر از شاخصهای RMSE، MSE، MAD، MRAD و R2 میتوان عنوان نمود که مناطق غربی استان از سه کلاس مختلف با پتانسیلهای متفاوت بر مبنای کلاس پتانسیل زیاد، متوسط و کم تشکیل شده است. درصد مساحت طبقات مختلف این کلاسها به شرح جدول 9 میباشد.
جدول 9. درصد مساحت پهنههای با پتانسیل مختلف گرد و غبار در استان یزد
Table 9. Percentage of areas with different dust potentials in Yazd province
خیلی زیاد | زیاد | متوسط | کم | خیلی کم | پتانسیل نام روش |
05/16% | 65/18% | 78/25% | 72/19% | 78/19% | CART |
78/19% | 92/19% | 11/20% | 31/20% | 85/19% | MARS |
05/20% | 98/19% | 98/19% | 11/20% | 85/19% | TreeNet |
45/18% | 85/18% | 98/22% | 58/20% | 12/19% | Intersect |
بر طبق نتایج روش CART، بیشتر سطح استان متعلق به کلاس متوسط با سطح 78/25% میباشد و پهنههای با پتانسیل خیلی زیاد با سطح 06/16% نسبت به بقیه کلاسها کمترین سطح را به خود اختصاص داده است. در نهایت، پهنهبندی پتانسیل عرصههای مختلف گرد و غبار استان یزد بر اساس مدلهای دادهکاوی مختلف در شکل 10 ارائه شده است.
تاکنون در ایران نسخه مشترکی برای بهکار بستن بهترین مدل دادهکاوی در خصوص دادههای عمق اپتیکی هواویزها بکار گرفته نشده است. در مطالعهای از بین سه مدل بیزی ساده1، نزدیکترین همسایه2 و درخت تصمیم3، اعلام شد که مدل درختان تصمیم با مقادیر همبستگی بیشتر، مجذور مربعات خطای کمتر و دقت4 بالاتر نسبت به دو مدل دیگر عملکرد بهتری در پیشبینی متغیر هدف داشته است (18). همچنین در آن مطالعه بیان داشتند مدلهای دادهکاوی درختان تصمیم بهدلیل سادگی و تفسیر قابل فهم معمولاً رایج هستند (18).
شکل 10. پهنهبندی پتانسیل تولید هواویز در عرصههای مختلف استان یزد بر اساس مدلهای دادهکاوی، ع) MARS، غ) CART، ف) TreeNet و ق) Intersect
Figure 10. Zoning of the potential for aerosol production in different areas of Yazd province based on data mining models, A) MARS, Gh) CART, F) TreeNet and Q) Intersect
بر اساس نتایج به دست آمده،در پژوهش حاضر نیز دقت و عملکرد مدل CART نسبت به مدلهای MART و MARS، بهتر بوده است. شایان یادآوری است که علاوه بر سه شاخصی که برای سنجش عملکرد در پژوهشهای قبلی استفاده شده بود، در تحقیق حاضر از شاخصهای دیگری همچون خطای میانگین مربعات، میانگین خطای مطلق، مجذور میانگین خطای مطلق، مجموع مربعات متغیر هدف، ضریب آکائیکه، ضریب آکائیکه تصحیح شده و انحراف مدل برای انتخاب بهترین مدل دادهکاوی استفاده شده است. در مدلهایی که متغیر وابسته طبقهبندی شده است، از شاخصهایی نظیر منحنیهای ROC5 و سطح زیر منحنی6 (AUC) استفاده میشود (10 و 23) و در متغیرهای وابستهای که طبقهبندی نشدهاند، از شاخصهایی نظیر ضریب همبستگی، مجذور میانگین مربعات خطا (2) استفاده میشود. در پژوهش حاضر، متغیر وابسته عمق اپتیکی هواویزها به شکل یک بازه پیوسته مورد بررسی و دادهکاوی واقع شد. در پژوهشی دیگر، از دو شاخص تورم واریانس7 و ضریب رواداری8 برای بررسی میزان تأثیر متغیرهای مستقل که شامل متغیرهای اقلیمی و سطح زمین هستند بر متغیر وابسته (میزان گرد و غبار) استفاده کردند (10). در پژوهش یادشده متغیرهای سرعت باد و زمینشناسی بهترتیب بیشترین و کمترین اهمیت نسبی را بر خیزش گرد و غبار در استان خوزستان داشتند (10). همچنین در پژوهشی، متغیرهای شیب و کاربری اراضی بیشترین و متغیر زمینشناسی کمترین اهمیت نسبی را در خیزش گرد و غبار در استان خراسان رضوی داشتهاند (5). از طرفی در پژوهش دیگری، متغیرهای شاخص پوشش گیاهی، ارتفاع و درجه شیب در شرق ایران را دارای بیشترین تأثیر بر خیزش گرد و غبار معرفی کردند (22). پژوهش حاضر در بین جمیع متغیرهای مستقل، بهترتیب رطوبت خاک، ارتفاع و تبخیر و تعرق مرجع و واقعی، بیشترین اهمیت نسبی را در خصوص خیزش پدیده گرد و غبار استان یزد بدست آورد. در پژوهشهای دادهکاوی در زمینه شناسایی مناطق مستعد خیزش گرد و غبار، هرکدام مدل خاصی را بهعنوان بهترین مدل، معرفی کردهاند. در این خصوص، مدلهای دادهکاوی ترکیبی و جنگل تصادفی و مدل درخت رگرسیون تقویت شده بهعنوان مناسبترین مدلهای دادهکاوی معرفی شدند (10، 5 و 22).
نتیجهگیری
پروداکتهای اقلیمی و سطح زمین آیداهو و اوپنلند کمک شایانی به تحلیل محیط طبیعی مینمایند. روشهای پیشرفته دادهکاوی نیازمند گرفتن ارتباطات زمانی- مکانی، خودهمبستگی و خصوصیات پارامترها میباشند (14). در پژوهش حاضر، بُعد مکانی محدوده گرد و غبارخیز استان یزد و مقادیر متغیرهای مختلف روی این پدیده در بازه زمانی 17 ساله مورد بررسی قرار گرفت. موارد خودهمبستگی بیشتر بر روی مباحث سری زمانی متغیرها مطرح میباشند و در این پژوهش بر بعد مکانی خصوصیات متغیرها بر پدیده گرد و غبار تأکید شده است. با توجه به نتایج یاد شده در مورد شناسایی تأثیرگذارترین متغیرها بر گرد و غبار در مناطق مختلف، نمیتوان یک یا چند متغیر را در پدیده خیزش گرد و غبار برای همه مناطق، مشترک در نظر گرفت و این مهم از منطقه به منطقهای دیگر تغییر میکند. کما اینکه متغیرهای زمینشناسی و کاربری اراضی در پژوهش حاضر جزء متغیرهایی بودند که هیچگونه اثری بر متغیر وابسته یعنی حساسیت به گرد و غبار نداشتند. در پژوهش حاضر، اشتراکات متغیرهای مستقل مهم و چرخه تصمیمگیری شامل تبخیر و تعرق واقعی، رطوبت خاک، شاخص خشکسالی پالمر، سرعت باد، ارتفاع، شاخص پوشش گیاهی و حداقل دمای روزانه بودند. هیچکدام از پژوهشهای مرتبط در مورد موضوع پژوهش، در انتخاب بهترین مدل دادهکاوی، همپوشانی نداشتند و مدل دادهکاوی واحدی برای بررسی حساسیت مناطق مختلف به پدیده گرد و غبار در ایران یافت نشد. شایان ذکر است، در این پژوهش مدل الگوریتم درختان رگرسیون و طبقهبندی انتخاب شد. پژوهش حاضر در نوع مدلهای دادهکاوی استفاده شده و متغیرهای مستقل با پژوهشهای یاد شده متفاوت بوده و با توجه به عدم همپوشانی نتایج انتخاب مدل برتر، نمیتوان نسخه واحدی برای انتخاب بهترین مدل دادهکاوی برای ایران در بحث گرد و غبار ارائه نمود. لذا از بهترین مدلهای منتخب در پژوهشهای یاد شده، برای دادهکاوی پدیده گرد و غبار در پژوهشهای آتی استفاده و مورد قیاس قرار گیرند. در مدلهای دادهکاوی نظیر درختان تصمیم، انتخاب تعداد بهینه گرهها و ابعاد درخت تصمیم بسیار مهم است و توصیه میگردد از مقدار بهینه این گرهها در تشکیل درخت تصمیم استفاده شود. در خصوص روشهای ارزیابی نتایج مدلهای دادهکاوی، منحنیهای ROC کمک شایانی به انتخاب بهترین مدل دادهکاوی در مورد متغیر وابسته طبقهبندی شده مینماید و شاخصهایی نظیر خطای جذر میانگین مربعات، ضریب همبستگی، خطای میانگین مربعات و ... کمک شایانی به انتخاب بهترین مدل دادهکاوی در مورد متغیر وابسته طبقهبندی نشده میکند. همچنین با پهنهبندی دادههای خروجی از مدلهای یادگیری ماشینی بر اساس پیکسل سایز ورودی دادههای ماهوارهای در سامانه اطلاعات جغرافیایی، میتوان به شناسایی مناطق حساس و خطرپذیر و نیز مهار آن اقدام نمود. قابل ذکر است در مورد پهنههای مختلف پتانسیل تولید گرد و غبار در استان یزد، رده خطر خیلی زیاد با مساحت 056/16 درصد از سطح استان کمترین مساحت را در قیاس با سایر طبقات خطر به خود اختصاص داد. درپایان پیشنهاد میگردد برای یک منطقه مطالعاتی از چندین مدل دادهکاوی جهت انجام پیشبینیها استفاده شود و با توجه به نتایج شاخصهای ارزیابی عملکرد، بهترین مدل انتخاب گردد و صرفاً به نتایج یک مدل اکتفا نشود. قابل ذکر است اگر در مورد متغیر وابسته (عمق اپتیکی هواویزها) طبقهبندی استاندارد و مقبول جهانی وجود ندارد، جهت ارزیابی عملکرد مدلهای پیشبینی دادهکاوی، از شاخصهایی نظیر سطح زیر منحنی که مخصوص متغیر طبقهبندی شده است استفاده نشود و از شاخصهایی نظیر خطای جذر میانگین مربعات ، ضریب همبستگی و ... در مورد متغیر طبقهبندی نشده استفاده گردد. همچنین استفاده از دادههای سنجش از دور موتور جستجوی سامانه انلاین گوگل (گوگل ارت انجین) به لحاظ صرف زمان اندک تهیه و نیز دردسترس بودن دادهها، جهت انجام مطالعات محیطی نظیر شناسایی منابع گرد و غبار پیشنهاد میگردد.
References
1. Ahmadlou, M. & Delavar. M.R. (2015). Multiple Land Use Change Modeling Using Multivariate Adaptive Regression Spline and Geospatial Information System. Journal of Geomatics Science and Technology, 5 (2) ,131-146. (In Persion).
2. Ali, M.F.M., Asklany, S.A., Abd El-wahab, M. & Hassan, M.A. (2019). Data Mining Algorithms for Weather Forecast Phenomena: Comparative Study, International Journal of Computer Science and Network Security,19 (9), 76-81.
3. Alibakhshi, T., Azizi, Z., Yafaeinezhad, A. & Aghamohammadi, H. (2020). Survey of area changes in water basins of shahid Abbaspour dam Caused by 2019 floods using google earth engine, Iranian journal of ecohydrology. 7(2), 345-357. (In Persion).
4. Bari Abarghuei, H., Tabatabaei Aghda, S.A., Tavakoli, M. & Najjar Hadashi, N. (2006). The origin of Yazd storms and the damages caused by it. 1st National Conference on Wind erosion and dust storms, Yazd University, Yazd, Iran. (In Persion).
5. Boroughani, M., & Pourhashemi, S. (2019). Susceptibility Zoning of Dust Source Areas by Data Mining Methods over Khorasan Razavi Province. Environmental Erosion Research, 9 (3) ,1-22
6. Danesh Shahraki, M., Shahriari, A., Gangali, M. & Bameri, A. (2017). Seasonal and spatial variability of airborne dust loading rate over the Sistan plain cities and its relationship with some climatic parameters. Journal of Water and Soil Conservation, 23(6), 199-215. (In Persion).
7. Ebrahimi-Khusfi Z, Taghizadeh-Mehrjardi R, Mirakbari M (2020) Evaluation of machine learning models for predicting the temporal variations of dust storm index in arid regions of Iran. Atmos Pollut Res. https://doi.org/10.1016/j.apr.2020.08.029.
8. Friedman, J.H. & Meulman, J.J. (2003). Multiple additive regression trees with application in epidemiology. Statistics in Medicine, 22(9), 1365-1381.
9. Friedman, J.H. (1991). Multivariate Adaptive Regression Splines (with discussion). Annals of Statistics, 19 (1), 1-67.
10. Gholami, H, Mohamadifar, A.A. & Collins, A.L. (2020). Spatial mapping of the provenance of storm dust: Application of data mining and ensemble modelling, Atmospheric Research, 233, 1-17.
11. Gordon, L. (2013). Using classification and regression trees (CART) in SAS® enterprise miner TM for applications in public health. SAS Global Forum 2013, San Francisco, California.
12. Halabian, A., javari, M., Akbari, Z. & Akbari, G. (2017). Evaluating the Performance of Decision Tree Model in Estimating the Suspended Sediments of river (A case study on the Basin of Meimeh River). Geography and Development Iranian Journal, 15(49), 81-96. (In Persion).
13. Hojati, M., Darvishi Boloorani, A., Alavipanah, S.K., Kiavarz, M.& Bodagh Jamali, J., (2017), Artificial neural network based model to estimate dust storms 10PM content using MODIS satellite images, Journal of Environmental Studies, 42(4), 823-838. In Persion).
14. Hunter, H. & Cervone, G. (2017) Analysing the influence of African dust storms on the prevalence of coral disease in the Caribbean Sea using remote sensing and association rule data mining, International Journal of Remote Sensing, 38:6, 1494-1521.
15. Karimi, K., Taheri Shahraiyni, H., Habibi Nokhandan, M. & Hafezi Moghadas, N. (2011). Identifying sources of origin for producing dust storms in Middle East using remote sensing. Journal of Climate Research, 2(7-8), 57-72. (In Persion).
16. Khalighi Sigaroudi, Sh., Shahbandari, R., Dadfar, R. & Kamrani, F. (2011). Investigation of the relationship between drought and dust storms (Case study: Yazd province). 2nd National Conference on Wind Erosion and Dust Storms. Yazd University, Yazd, Iran. (In Persion).
17. Loh, WY. (2013). Classification and regression trees. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1(1),14-23.
18. Maimon, O.& Rokach E., (2008), Data mining with decision trees: Theory and applications, Volume 69 of Series in machine perception and artificial intelligence, World Scientific publication, 244.
19. Mirakbari, M., Ganji, A. and Fallah, S.R. (2010). Regional bivariate frequency analysis of meteorological droughts. Journal of Hydrology Engineering. 15(12): 985–1000.
20. Mohammad Khan, Sh. (2017). The study of the status and trend of changes in dust storms in Iran during the period from 1985 to 2005. Irrigation and Watershed Management, Iranian Journal of Natural Resources, 2(3): 495-514. )In Persian(.
21. Panahi, M. & Mirhashemi, S. H., (2016). Assessment among two data mining algorithms CART and CHAID in forecast air temperature of the synoptic station of Arak. Environmental Sciences. 13(4), 53-58. (In Persion).
22. Pourhashemi, S., Amiahmadi, A., Zangane Asadi M.A. & Salehi, M., (2019). Identifying and determining the characteristics of dust centers in Khorasan Razavi province. Geographical Research, 34 (1), 1-9. (In Persion).
23. Pourhashemi, S., boroghani, M., Amirahmadi, A., Zanganeh Asadi, M. & Salhi, M. (2019). Dust Source Prioritization with using Statistical models (Case Study: Khorasan Razavi Provience). Journal of Range and Watershed Management. 72(2), 343-358. (In Persion).
24. Rashki, A., Kaskaoutis, D.G., Rautenbach, C., Eriksson, P.G., Qiang, M. & Gupta, P. (2012). Dust storms and their horizontal dust loading in the Sistan region, Iran. Aeolian Research, 5(3), 51-62.
25. Rezazadeh, M., Irannejad, P. & Shao, Y. (2013). Climatology of the Middle East dust events. Journal of Aeolian Research, 10, 103-109.
26. Rokach, L. & Maimom, O. (2008) Data Mining with Decision Tree: Theory and Application. World scientific publishing Co. Pte Ltd.
27. Sharma, H. & Kumar, S., (2016). A survey on decision tree algorithms of classification in data mining. International Journal of Science and Research. 5(4),2094- 97.
28. Sobhani, B., Safarian Zengir,V. & faizollahzadeh,S., (2020).Modeling and prediction of dust in western Iran, Physical Geography Research Quarterly, 52(1), 17-35. (In Persion).
29. Soleimanpour S., Mesbah S. & Hedayati B. (2018) Application of CART decision tree data mining to determine the most effective drinking water quality factors (case study: Kazeroon plain, Fars province). Iranian Journal of Health and Environment. 11 (1), 1-14. (In Persion).
30. Tsolmon, R., Ochirkhuyag, L. & Sternberg, T. (2008). Monitoring the source of trans-national dust storms in north east Asia. International Journal of Digital Earth. 1, 119–129.
31. Zha, W. & Chan, W., (2005). Objective speech quality measurement using statistical data mining, EURASIP Journal on Applied Signal Processing. 2005(9), 1410–1424.
شناسایی خاستگاههای هواویزهای اتمسفری با استفاده از سنجش از دور و دادهكاوی (مطالعه موردی: استان یزد)
چکیده مبسوط فارسی
طرح مسئله: کشور ایران بدلیل قرار گرفتن در کمربند خشک و نیمهخشک جهان، در معرض پدیدههای محلی و منطقهای گرد و غبار قرار دارد. میانگین روزهای تؤام با گرد و غبار در استان یزد بالغ بر 43 روز در سال است و این مهم بهنحوی بر سلامت و کیفیت زندگی مردم اثرات مخربی وارد آورده است. میزان غلظت ذرات معلق و شاخص عمق اُپتیکی هواویز (AOD) در پی وقايع گرد و غبار یکی از شاخصهای کیفیت هوا میباشد. بنابراین بررسی و تهیه نقشههای پهنهبندی حساسیت با هدف شناسایی مناطق دارای قابلیت بالای تولید گرد و غبار، در محدودۀ فعالیتهای بشری دارای اهمیت است و جهت کاهش خسارات احتمالی و مدیریت خطر، اقداماتی مانند پهنهبندی عرصههای مختلف تولید گرد و غبار میتواند مؤثر واقع شود.
هدف: هدف از پژوهش حاضر پهنهبندی پتانسیل عرصههای مختلف مستعد گرد و غبار با استفاده از مدلهای دادهکاوی و شناسایی مهمترین متغیرها بر این پدیده و بهرهمندی از سنجش از دور در این راستا در استان یزد میباشد.
روش تحقیق: در این تحقیق ابتدا متغیرهای اقلیمی مختلف (از تصاویر ماهوارهای مختلف) از جمله سرعت باد در ارتفاع ده متری سطح زمین (vs)، رطوبت خاک (soil)، بارش تجمعی (pr)، شاخص خشکسالی پالمر (pdsi)، شاخص پوشش گیاهی نرمال شده (NDVI)، خشکی خاک یا کمبود آب خاک (def)، تبخیر و تعرق مرجع (pet) و واقعی (aet)، بعد توپوگرافی (TD)، رادیانس طول موج کوتاه رسیده به زمین (srad)، حداقل دمای هوا (tmmn)، حداکثر دمای هوا (tmmx)، فشار بخار (vap)، کمبود فشار بخار(vpd) و درصد رس (clay) با استفاده از کدنویسی در سامانه آنلاین گوگل ارت انجین (GEE) استخراج شدند. سپس نمونهها از مناطق بحرانی و مستعد گرد و غبار در سیستم اطلاعات جغرافیایی و به کمک تصاویر AOD مودیس استخراج شدند و این ویژگی و همچنین سایر ویژگیها در متغیرهای اقلیمی وارد سه مدل دادهکاوی الگوریتم درختان رگرسیون و طبقهبندی (CART)، رگرسیون انطباقی چندمتغیره اسپیلاین (MARS) و درختان رگرسیون چندگانه جمعشدنی (TreeNet) شدند. در نهایت نتایج پیشبینی این مدلهای دادهکاوی در سیستم اطلاعات جغرافیایی تبدیل به نقشه و پهنههای مختلف پتانسیل خطر خیزش گرد و غبار شدند.
نتایج و بحث: در روش CART متغیرهایی همچون شاخص پوشش گیاهی نرمالشده، تبخیر و تعرق واقعی، مدل رقومی ارتفاع، طول موج کوتاه رسیده به سطح زمین، شاخص خشکسالی پالمر، سرعت باد و درصد رس، گرههای انتهایی جهت شناسایی مناطق با میانگین بالای عمق اپتیکی هواویزها میباشد. در این روش رطوبت خاک، مدل رقومی ارتفاعی و تبخیر تعرق رفرنس بیشترین اهمیت نسبی را در شناسایی مناطق بحرانی خیزش گرد و غبار نشان دادند. ضریب همبستگی مدل مقدار 85/0 را نشان داد. نتایج دادهکاوی به روش MARS نشان داد متغیرهای تبخیر و تعرق واقعی، رطوبت خاک و شاخص خشکسالی پالمر بیشترین اهمیت نسبی را در شناسایی مناطق بحرانی خیزش گرد و غبار داشتهاند. ضریب همبستگی مدل مقدار 72/0 را نشان داد. همچنین در روش TreeNet متغیرهای رطوبت خاک، شاخص خشکسالی پالمر و تبخیر و تعرق واقعی بیشترین اهمیت نسبی را نشان دادند. ضریب همبستگی مدل 75/0 بود.
نتیجهگیری: با توجه به نتایج یاد شده در مورد شناسایی تأثیرگذارترین متغیرها بر گرد و غبار در مناطق مختلف، نمیتوان یک یا چند متغیر را در پدیده خیزش گرد و غبار برای همه مناطق، مشترک در نظر گرفت و این مهم از منطقه به منطقهای دیگر تغییر میکند. کما اینکه متغیرهای زمینشناسی و کاربری اراضی در پژوهش حاضر جزء متغیرهایی بودند که هیچگونه اثری بر متغیر وابسته یعنی حساسیت به گرد و غبار نداشتند. در پژوهش حاضر، اشتراکات متغیرهای مستقل مهم و چرخه تصمیمگیری شامل تبخیر و تعرق واقعی، رطوبت خاک، شاخص خشکسالی پالمر، سرعت باد، ارتفاع، شاخص پوشش گیاهی و حداقل دمای روزانه بودند. هیچکدام از پژوهشهای مرتبط در مورد موضوع پژوهش، در انتخاب بهترین مدل دادهکاوی، همپوشانی نداشتند و مدل دادهکاوی واحدی برای بررسی حساسیت مناطق مختلف به پدیده گرد و غبار در ایران یافت نشد. شایان ذکر است، در این پژوهش مدل الگوریتم درختان رگرسیون و طبقهبندی انتخاب شد. پژوهش حاضر در نوع مدلهای دادهکاوی استفاده شده و متغیرهای مستقل با پژوهشهای یاد شده متفاوت بوده و با توجه به عدم همپوشانی نتایج انتخاب مدل برتر، نمیتوان نسخه واحدی برای انتخاب بهترین مدل دادهکاوی برای ایران در بحث گرد و غبار ارائه نمود. لذا پیشنهاد میشود از بهترین مدلهای منتخب در پژوهشهای یاد شده برای دادهکاوی پدیده گرد و غبار در پژوهشهای آتی استفاده و مورد قیاس قرار گیرند.
واژگان کلیدی: عمق اُپتیکی هواویز، متغیرهای مکانی، یادگیری ماشین، پهنهبندي
Identifying Origins of Atmospheric Aerosols using Remote Sensing and Data Mining (Case study: Yazd province)
Abstract
The main indicators of air quality are the concentration of suspended particles and the aerosol optical depth (AOD) following the occurrence of dust events. The purpose of this study is to identify and predict the potential areas for dust aerosols using remote sensing data and data mining techniques. In this study, three data sets which contain features related to the topography, climate, and land surface condition were employed as the independent variables and a data set for the AOD were considered as the dependent variable for performing a data mining process. Three data mining algorithms, classification and regression tree (CART), multivariate adaptive regression splines (MARS), and TreeNet were utilized to specify the potential of areas for aerosol production. After evaluating the three builded models based on the performance criteria, selecting the most important variables, predicting the AOD and then geographical zoning were performed. The results showed that the CART model with RMSE = 0.014, MSE = 0.002, MAD = 0.011, MRAD = 0.262, and R2 = 0.85 had the best performance compared with the other two data mining models. The soil moisture, elevation, reference and actual evapotranspiration, minimum and maximum temperature, Palmer drought severity index, downward shortwave solar radiation, and wind speed were the most important variables in forecasting the potential of different areas for the production of dust aerosols, respectively. Also, the areas with very high, high, moderate, low and very low susceptibility were occupied about 16%, 19%, 26%, 20% and 20% of the Yazd province, respectively.
Key words: Aerosol optical depth, Spatial variables, Machine learning, Zoning
Introduction
The Middle East is one of the most important regions in the world for dust production. Iran, located in the Middle East, is exposed to numerous local and trans-regional dust systems due to its location in arid and semi-arid regions of the world. Dust storms, in addition to covering arable land and plants with wind-blown materials, destroy fertile lands and reduce biological production and biodiversity, and severely affect the survival of residents. Dust storms are involved in the transmission of dangerous pathogens to humans, air pollution, and damage to respiratory function.
Dust storms in Yazd province are relatively common and the average number of days with dust storms in the province reaches 43 days a year. This phenomenon has caused many problems for the people of the province.
The main indicators of air quality are the concentration of suspended particles and the aerosol optical depth (AOD) following the occurrence of dust events. Numerous studies have been conducted in the world to identify the centers of dust collection and their origin. However, To the best of authors’ knowledge, there is no study on the spatial zoning of dust conditions using three algorithms of CART, MARS and TreeNet algorithms as the predictive models.
The purpose of this study is to forecast and zoning the potential of different areas for the production of dust aerosols using remote sensing data and data mining models as well as to specify the most important variables on this phenomenon in Yazd province.
Materials and methods
The Yazd province lies in a dry region of Central Iran. The province experienced average annual rainfall of about 57 mm and average annual temperature of about 20 ºC. The maximum temperature experienced in the warmest month of the province is close to 46 ºC. The maximum wind speed in this province is up to 120 kilometers per hour.
The Google Earth Engine (GEE) interface (Javascript editor) was applied to collect remote sensing data in order to form three data sets which contain features related to the topography, climate, and land surface conditions. These features were employed as the independent variables of the models, which is builded by taking advantage of three data mining algorithms, classification and regression tree (CART), multivariate adaptive regression splines (MARS), and TreeNet, to specify the potential of areas for dust production. The dependent variable (target variable) of the models was the aerosol optical depth (AOD), which was acquired from MOD04 AOD retrievals from the Moderate Resolution Imaging Spectroradiometer (MODIS) on board NASA's Terra satellite.
The outcomes of the three models for classifying areas with different dust potentials were evaluated under performance criteria, such as R-squared, mean absolute deviation (MAD), the mean square error (MSE), the mean relative absolute deviation (MRAD), and the root mean square error (RMSE).
Results
The results showed the variables mostly affecting the dependent variable (AOD) in the MARS model were actual evapotranspiration, soil moisture, and the Palmer drought severity index. The values of R-squared and RMSE in the MARS model were equal to 0.72 and 0.02, respectively. Similarly, the features with highest relative importance according to the TreeNet model were soil moisture, Palmer drought severity index, and actual evapotranspiration. The values of R-squared and RMSE in the TreeNet model were equal to 0.75 and 0.019, respectively.
The results revealed that the CART model with R-squared = 0.85, MAD = 0.011, MSE = 0.002, MRAD = 0.262, and RMSE = 0.014 had the best performance compared with the other two data mining models. The soil moisture, elevation, reference and actual evapotranspiration, minimum and maximum temperature, Palmer drought severity index, downward shortwave solar radiation, and wind speed were the most important variables in forecasting potential of areas for dust production, respectively. Also, the areas with very high, high, moderate, low and very low susceptibility were occupied about 16%, 19%, 26%, 20% and 20% of the Yazd province, respectively.
Conclusion
All three models, which were based on three data mining algorithms, CART, MARS, and TreeNet, had good agreement in specifying the most important variables affecting the optical depth of the dust aerosols in the study area. However, these models indicated different priority order for the identified variables in terms of relative importance; Besides, there was a difference in their performance criteria. As mentioned above, CART model was the best-performing model, of the current study, for specifying the potential of areas for the generation of dust aerosols. According to this model, 25.8% of the province was classified as the moderate-risk of aerosol production, 18.6% of the province as the high-risk of aerosol production, and 16.0% of the study region as the very high-risk of dust aerosols. The high-risk areas are mostly spread in the western and southwestern regions of the Yazd province.
[1] Naive Bayes
[2] KNN
[3] Decision tree
[4] accuracy
[5] Receiver Operating Characteristic (ROC) curve
[6] AUC (Area under the ROC Curve)
[7] variance inflation factor (VIF)
[8] tolerance coefficient (TC)