ارائه روش تلفیقی کاهش نویز داده کاوی برای تخمین ماده آلی خاک با طیف سنجی VNIR
الموضوعات :الهه اکبری 1 , سهام میرزایی 2 , آرا تومانیان 3 , علی درویشی بلورانی 4 , حسینعلی بهرامی 5
1 - استادیار گروه سنجشازدور و GIS، دانشکده جغرافیا و علوم محیطی، دانشگاه حکیم سبزواری، سبزوار، ایران
2 - دانشجوی دکتری سنجشازدور و سیستم اطلاعات جغرافیایی، دانشکده جغرافیا، دانشگاه تهران، ایران
3 - دانشیار گروه سنجشازدور و سیستم اطلاعات جغرافیایی، دانشکده جغرافیا، دانشگاه تهران، تهران، ایران
4 - دانشیار گروه سنجش ازدور و سیستم اطلاعات جغرافیایی، دانشگاه تهران،
5 - استاد، گروه خاکشناسی، دانشکده کشاورزی، دانشگاه تربیت مدرس، تهران، ایران
الکلمات المفتاحية: رگرسیون کمترین مربعات جزیی, درخت رگرسیون ارتقا یافته, جنوب غربی تهران, طیفسنجی, ماده آلی خاک,
ملخص المقالة :
پیشینه و هدف خاک به عنوان منبع طبیعی ناهمگن و بزرگترین مخزن کربن آلی در اکوسیستم زمینی، از فرآیندها و مکانیسم های پیچیده ای تشکیل شده است. ضرورت برآورد اطلاعات دقیق خاک در مقیاس ملی و منطقه ای به منظور بهبود مدیریت خاک و درک خصوصیات خاک و چگونگی تاثیرگذاری آن در کشاورزی، منجر به علاقه مند شدن محققین به این حوزه شده است. محتوای (SOM) به عنوان شاخص کیفیت خاک در حاصلخیزی آن و تولید مواد غذایی تاثیرگذار است و نیز به عنوان یک متغیر کلیدی در مباحث محیطی و کشاورزی محسوب می شود. جمع آوری تعداد زیادی داده خاک دقیق با هدف مدیریت منابع غذایی برای جمعیت آینده ضروری است. بنابراین استفاده از روش های تخمین سریع و ارزان و البته افزایش دقت برآورد محتوای SOM در ارزیابی و مدیریت منابع خاک می تواند کمک کننده باشد. در کشاورزی دقیق، مقیاس اطلاعات خاک مورد نیاز برای مدیریت اراضی و محصول بسیار کوچکتر بوده و به طور معمول مقیاس جمع آوری داده های میدانی جوابگوی این نیاز نمی باشد. نمونه برداری و آنالیز تعداد زیاد نمونه خاک و تهیه نقشه توزیع SOM، برای مناطق وسیع و بزرگ، بسیار دشوار است. علاوه بر این، روش های سنتی آزمایشگاهی تجزیه و تحلیل خاک برای نمونه برداری زیاد نیاز به نیروی کار بیشتر بوده و علاوه براین زمان بر و هزینه بر است و نیاز به اپراتور آزمایشگاه متخصص دارد. هدف از تحقیق حاضر، مقایسه عملکرد دو روش PLSR و روش یادگیری ماشین درخت رگرسیون ارتقا یافته (BRT) برای پیش بینی مواد آلی خاک با استفاده از طیف VNIR، است. با استفاده از ترکیب تبدیل موجک و تشخیص باندهای مستقل، نویزهای موجود در داده های طیف سنجی خاک کاهش یافته است. علاوه بر این، طیف ها یا باندهای مستقل و موثر در طیف سنجی مواد آلی خاک انتخاب گردیدند. براین اساس، در این تحقیق، روش های Wavelet-PCA-PLSR و Wavelet-PCA- BRT توسعه داده شده است و کارایی هر یک از آن ها ارزیابی می گردد.مواد و روش ها 42 نمونه خاک از منطقه ناهمگن کشاورزی شهری در تهران در 30-0 سانتی متر خاک جمع آوری گردید. ماده آلی خاک با استفاده از روش والکی بلک و بازتاب طیفی خاک با استفاده از طیف سنج FieldSpec3 اندازه گیری شد. مشتق اول و دوم بازتاب، جذب طیفی و مشتق اول و دوم آن محاسبه گردید. به منظور کاهش نویز و هموار سازی طیف، از روش تبدیل موجک تابع ماتریس Sym8 استفاده شده است. همچنین، تبدیل موجک به منظور نشان دادن و بارزسازی ویژگی ها در طیف انجام می شود. از تجزیه و تحلیل مولفه های اصلی و آزمون هادلینگز با فاصله اطمینان 95% به منظور تشخیص داده های پرت استفاده شد. پس از حذف داده پرت از هر مجموعه، روش PLSR و درخت رگرسیون ارتقا یافته بر روی بازتاب، جذب و مشتق اول و دوم آنها در 5 سطح از تبدیل موجک اجرا شده است. سپس، با مقایسه نتایج، مدل مناسب از طریق اعتبارسنجی انتخاب شد. در هنگام استفاده از نمونه عددی، به جای درخت تصمیم گیری از درخت رگرسیون استفاده می شود، اما روند آن ها یکسان است. در درخت رگرسیون از جستجو حریصانه استفاده می شود. بنابراین، با پاسخ دادن به سوال باینری که حداکثر اطلاعات در مورد متغییر پاسخ از طریق کدام نود بدست می آید، گره ریشه و دو فرزند آن تعیین می گردد. این فرایند در هر گره فرزند تکرار می شود. تولید ساختمان درخت به صورت بازگشتی تکرار شده است و یک معیار توقف معمولی در نظر گرفته می شود. معیار توقف می تواند نظیر رسیدن به انشعابی که قابل تقسیم نیست و اطلاعات کمتری می دهد و یا زمانی که اطلاعات در گره حاوی کمتر از، پنج درصد از کل داده ها است، باشد. همچنین، سعی در به حداقل رساندن اندازه درخت است. برای تقسیم گره، عامل جینی، عامل آنتروپی و غیره به منظور به حداقل رساندن این عوامل استفاده شده است. علاوه بر این، در هر شاخه، مجموع مربع خطاها محاسبه شده و آن هایی که مقادیر حداقل دارند، انتخاب می شود. روش درخت رگرسیون ارتقا یافته، دو روش درخت رگرسیون و تکنیک ارتقا را به منظور بهبود توان پیش بینی هر کدام از آن ها ترکیب می کند. به منظور کالیبراسیون و اعتبارسنجی مدل، به طور تصادفی به ترتیب 30 و 12 نمونه خاک انتخاب و برای بیان صحت مدل ها از آماره های R2 و RMSE استفاده شده است. علاوه بر این، برای انتخاب بهترین فاکتور تولید مدل PLSR برای هر طیف، واریانس و باقی مانده مقادیر برآوردی و RMSE اعتبارسنجی استفاده شد. در نهایت، برای ایجاد سطح پیوسته و آگاهی از نحوه تغییر مواد آلی خاک در منطقه، نقشه مواد آلی خاک با استفاده از تصویر ماهواره ای لندست OLI و روش با دقت بیشتر تولید شد.نتایج و بحث برآورد رضایت بخش میزان SOM، ایجاد سطوح پیوسته با دقت بیشتر براساس کاهش نویز و حفظ داده های مفید، همواره مورد توجه محققین بوده است. در این تحقیق نیز با استفاده از داده های طیف سنجی خاک و اندازه گیری آزمایشگاهی میزان مواد آلی، سعی در برآورد چنین سطح پیوست ه ای به منظور تخمین SOM بوده است. با استفاده از تبدیل موجک و حذف داده های پرت براساس هادلینگز در روش PCA، داده های مفید برای تولید سطح پیوسته استخراج شدند. در این روش ، باندها یا طیف های مستقل و موثر در مدل باقی می مانند. در حالی که، لین و همکاران به منظور انتخاب باندهای مناسب در تخمین مواد آلی خاک از روش تبدیل موجک و همبستگی استفاده نموده اند. با استفاده از روش همبستگی در مناطق ناهمگن همانند منطقه مورد مطالعه در این تحقیق، نتایج رضایت بخشی بدست نمی آید. روش PCA به طور غیر نظارت شده، با در نظر گرفتن مقادیر داده، اجزای اصلی و مقادیر و بردارهای ویژه را محاسبه نموده و سعی در ماکزیمم نمودن ماتریس کوواریانس براساس تجزیه مقادیر منفرد دارد. مدل های تخمین مواد آلی خاک به دو روش PLSR و BRT برای طیف بازتابی، جذبی و مشتق اول و دوم آن ها، اجرا شد. بررسی نتایج بدست آمده از توسعه این دو مدل حاکی از این است که مدل BRT، با مقادیر RMSE و R2، به ترتیب 0.58 و 0.94، در داده مشتق دوم طیف اصلی، نتایج بهتری را بدست آورده است. از طرفی، مقادیر RMSE و R2 در مدل PLSR برای داده مشتق اول طیف اصلی، به ترتیب 1.20338 و 0.938 بدست آمده است. بطور کلی مقایسه RMSE مدل BRT و مدل PLSR، دلالت بر نتایج بهتر مدل BRT در این منطقه دارد.نتیجه گیری نتایج این تحقیق موید این مطلب است که در مناطق ناهمگن کشاورزی - شهری، می توان از پتانسیل مدل های توسعه داده شده Wavelet-PCA-PLSR و Wavelet-PCA-BRT برای تخمین مواد آلی خاک استفاده نمود. چرا که اندازه گیری میدانی ویژگی های شیمیایی خاک نظیر مواد آلی بسیار زمان و هزینه بر است. علاوه بر این، امکان اندازه گیری این ویژگی ها در پوشش وسیع وجود ندارد. با استفاده از این توابع پیوسته و تصویر ماهواره ای، می توان نقشه مقادیر مواد آلی خاک را در پوشش وسیع تولید نمود تا از آن بتوان در مطالعاتی نظیر پتانسیل کشت، حاصلخیزی خاک و توسعه پایدار آن بهره برداری نمود.
Alavipanah S.K, Damavandi A.A, Mirzaie S, Rezaie A, Matinfar H.R, Hamzeh S, Teymori H, Javad Zarrin I. 2016. Remote sensing application in evaluation of soil characteristics in desert areas. Natural Environment Change, 2(1): 1-24.
Attaeian B, Shojaeefar S, Zandieh V, Hashemi S.S. 2018. Study of soil organic carbon changes in two critical and vulnerable areas of Qahavand plain rangelands using remote sensing and GIS. RS & GIS for Natural Resources, 8(4): 76-90. (In Persian).
Dai F, Zhou Q, Lv Z, Wang X, Liu G. 2014. Spatial prediction of soil organic matter content integrating artificial neural network and ordinary kriging in Tibetan Plateau. Ecological Indicators, 45: 184-194. doi: https://doi.org/10.1016/j.ecolind.2014.04.003.
Doetterl S, Stevens A, Van Oost K, Quine T.A, Van Wesemael B. 2013. Spatially-explicit regional-scale prediction of soil organic carbon stocks in cropland using environmental variables and mixed model approaches. Geoderma, 204: 31-42. doi:https://doi.org/10.1016/j.geoderma.2013.04.007
Friedman J.H. 2001. Greedy function approximation: a gradient boosting machine. Annals of statistics: 1189-1232. doi:https://doi.org/10.1214/aos/1013203451.
Castaldi F, Palombo A, Pascucci S, Pignatti S, Santini F, Casa R. 2015. Reducing the Influence of Soil Moisture on the Estimation of Clay from Hyperspectral Data: A Case Study Using Simulated PRISMA Data. Remote Sensing, 7(11): 15561-15582. https://doi.org/10.3390/rs71115561.
Groenigen J.W, Mutters C.S, Horwath W.R, Van Kessel C. 2003. NIR and DRIFT-MIR spectrometry of soils for predicting soil and crop parameters in a flooded field. Plant and Soil, 250(1): 155-165. doi:https://doi.org/10.1023/A:1022893520315.
Hotelling H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24(6): 417-441. doi: 10.1037/h0071325.
Khanamani A, Jafari R, Sangoony H, Shahbazi A. 2011. Evaluation of soil status using RS and GIS technology (Case study: Segzi plain). Journal of Applied RS & GIS Techniques in Natural Resource Science, 2(3): 25-37. https://www.sid.ir/en/journal/ViewPaper.aspx?id=250690. (In Persian).
Kuang B, Tekin Y, Mouazen A.M. 2015. Comparison between artificial neural network and partial least squares for on-line visible and near infrared spectroscopy measurement of soil organic carbon, pH and clay content. Soil and Tillage Research, 146: 243-252. doi:https://doi.org/10.1016/j.still.2014.11.00.
Lacoste M, Minasny B, McBratney A, Michot D, Viaud V, Walter C. 2014. High resolution 3D mapping of soil organic carbon in a heterogeneous agricultural landscape. Geoderma, 213: 296-311. doi:https://doi.org/10.1016/j.geoderma.2013.07.002.
Liaghat S, Ehsani R, Mansor S, Shafri H.Z, Meon S, Sankaran S, Azam S.H. 2014. Early detection of basal stem rot disease (Ganoderma) in oil palms based on hyperspectral reflectance data using pattern recognition algorithms. International Journal of Remote Sensing, 35(10): 3427-3439. doi:https://doi.org/10.1080/01431161.2014.903353.
Lin L, Wang Y, Teng J, Wang X. 2016. Hyperspectral analysis of soil organic matter in coal mining regions using wavelets, correlations, and partial least squares regression. Environmental Monitoring and Assessment, 188(2): 1-11. doi:https://doi.org/10.1007/s10661-016-5107-8.
Liu L, Ji, M, Dong Y, Zhang R, Buchroithner M. 2016. Quantitative retrieval of organic soil properties from Visible Near-Infrared Shortwave Infrared (Vis-NIR-SWIR) spectroscopy using fractal-based feature extraction. Remote Sensing, 8(12): 1035. doi:https://doi.org/10.3390/rs8121035.
McCarty G.W, Reeves J.B, Reeves V.B, Follett R.F, Kimble J.M. 2002. Mid-infrared and near-infrared diffuse reflectance spectroscopy for soil carbon measurement. Soil Science Society of America Journal, 66(2): 640-646. doi:https://doi.org/10.1016/j.geoderma.2009.04.005.
Mirzaei S, Darvishi Boloorani A, Bahrami H.A, Alavipanah, S.K, Mousivand A. 2021. Moisture influence reducing on soil reflectance using EPO for organic carbon prediction. 7th International Conference on Agriculture, Environment, Urban and Rural. Tbilisi, Georgia. 16 June. https://civilica.com/doc/1256685. (In Persian).
Morellos A, Pantazi X.E, Moshou, D, Alexandridis T, Whetton R, Tziotzios G, Wiebensohn J, Bill R, Mouazen A.M. 2016. Machine learning based prediction of soil total nitrogen, organic carbon and moisture content by using VIS-NIR spectroscopy. Biosystems Engineering. doi:https://doi.org/10.1016/j.biosystemseng.2016.04.018.
Mouazen A.M, Kuang B, De Baerdemaeker J, Ramon H. 2010. Comparison among principal component, partial least squares and back propagation neural network analyses for accuracy of measurement of selected soil properties with visible and near infrared spectroscopy. Geoderma, 158(1): 23-31. doi:https://doi.org/10.1016/j.geoderma.2010.03.001.
Nawar S, Abdul Munnaf M, Mouazen A.M. 2020. Machine learning based on-line prediction of soil organic carbon after removal of soil moisture effect. Remote Sensing, 12(8): 1308. https://doi.org/10.3390/rs12081308.
Nocita M, Kooistra L, Bachmann M, Müller A, Powell M, Weel S. 2011. Predictions of soil surface and topsoil organic carbon content through the use of laboratory and field spectroscopy in the Albany Thicket Biome of Eastern Cape Province of South Africa. Geoderma, 167: 295-302. doi:https://doi.org/10.1016/j.geoderma.2011.09.018.
Ghazi M, Bahrami H.A, Darvishi Boloorani A, Mirzaei S. 2018. Estimating the measure of the soil’s lime in dust’s centers of Tehran province by using of VINR spectroscopy and satellite images of OLI. RS & GIS for Natural Resources, 8(4): 1-16, https://www.sid.ir/en/journal/ViewPaper.aspx?id=597225 (In Persian).
Steffens M, Kohlpaintner M, Buddenbaum H. 2014. Fine spatial resolution mapping of soil organic matter quality in a Histosol profile. European Journal of Soil Science, 65(6): 827-839. doi: https://doi.org/10.1111/ejss.12182.
Tekin Y, Kuang B, Mouazen A.M. 2013. Potential of on-line visible and near infrared spectroscopy for measurement of pH for deriving variable rate lime recommendations. Sensors, 13(8): 10177-10190. doi:https://doi.org/10.3390/s130810177.
Viscarra Rossel R.A, Behrens, T. 2010. Using data mining to model and interpret soil diffuse reflectance spectra. Geoderma, 158(1): 46-54. doi:https://doi.org/10.1016/j.geoderma.2009.12.025.
Viscarra Rossel R.A, Hicks W.S. 2015. Soil organic carbon and its fractions estimated by visible–near infrared transfer functions. European Journal of Soil Science, 66(3): 438-450. doi:https://doi.org/10.1111/ejss.12237.
Viscarra Rossel R.A, Cattle S.R, Ortega A, Fouad Y. 2009. In situ measurements of soil colour, mineral composition and clay content by vis–NIR spectroscopy. Geoderma, 150(3): 253-266. doi:https://doi.org/10.1016/j.geoderma.2009.01.025.
Vohland M, Besold J, Hill J, Fründ H.C. 2011. Comparing different multivariate calibration methods for the determination of soil organic carbon pools with visible to near infrared spectroscopy. Geoderma, 166(1): 198-205. doi:https://doi.org/10.1016/j.geoderma.2011.08.001.
Wang Y, Wang F, Huang J, Wang X, Liu Z. 2009. Validation of artificial neural network techniques in the estimation of nitrogen concentration in rape using canopy hyperspectral reflectance data. International Journal of Remote Sensing, 30(17): 4493-4505. doi:https://doi.org/10.1080/01431160802577998.
Yang H, Li J. 2013. Predictions of soil organic carbon using laboratory-based hyperspectral data in the northern Tianshan Mountains, China. Environmental Monitoring and Assessment, 185(5): 3897-3908. doi:https://doi.org/10.1007/s10661-012-2838-z.
Yang R.M, Zhang G.L, Liu F, Lu Y.Y, Yang F, Yang F, Yang M, Zhao Y.G, Li D.C. 2016. Comparison of boosted regression tree and random forest models for mapping topsoil organic carbon concentration in an alpine ecosystem. Ecological Indicators, 60: 870-878. doi:https://doi.org/10.1016/j.ecolind.2015.08.036.
_||_Alavipanah S.K, Damavandi A.A, Mirzaie S, Rezaie A, Matinfar H.R, Hamzeh S, Teymori H, Javad Zarrin I. 2016. Remote sensing application in evaluation of soil characteristics in desert areas. Natural Environment Change, 2(1): 1-24.
Attaeian B, Shojaeefar S, Zandieh V, Hashemi S.S. 2018. Study of soil organic carbon changes in two critical and vulnerable areas of Qahavand plain rangelands using remote sensing and GIS. RS & GIS for Natural Resources, 8(4): 76-90. (In Persian).
Dai F, Zhou Q, Lv Z, Wang X, Liu G. 2014. Spatial prediction of soil organic matter content integrating artificial neural network and ordinary kriging in Tibetan Plateau. Ecological Indicators, 45: 184-194. doi: https://doi.org/10.1016/j.ecolind.2014.04.003.
Doetterl S, Stevens A, Van Oost K, Quine T.A, Van Wesemael B. 2013. Spatially-explicit regional-scale prediction of soil organic carbon stocks in cropland using environmental variables and mixed model approaches. Geoderma, 204: 31-42. doi:https://doi.org/10.1016/j.geoderma.2013.04.007
Friedman J.H. 2001. Greedy function approximation: a gradient boosting machine. Annals of statistics: 1189-1232. doi:https://doi.org/10.1214/aos/1013203451.
Castaldi F, Palombo A, Pascucci S, Pignatti S, Santini F, Casa R. 2015. Reducing the Influence of Soil Moisture on the Estimation of Clay from Hyperspectral Data: A Case Study Using Simulated PRISMA Data. Remote Sensing, 7(11): 15561-15582. https://doi.org/10.3390/rs71115561.
Groenigen J.W, Mutters C.S, Horwath W.R, Van Kessel C. 2003. NIR and DRIFT-MIR spectrometry of soils for predicting soil and crop parameters in a flooded field. Plant and Soil, 250(1): 155-165. doi:https://doi.org/10.1023/A:1022893520315.
Hotelling H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24(6): 417-441. doi: 10.1037/h0071325.
Khanamani A, Jafari R, Sangoony H, Shahbazi A. 2011. Evaluation of soil status using RS and GIS technology (Case study: Segzi plain). Journal of Applied RS & GIS Techniques in Natural Resource Science, 2(3): 25-37. https://www.sid.ir/en/journal/ViewPaper.aspx?id=250690. (In Persian).
Kuang B, Tekin Y, Mouazen A.M. 2015. Comparison between artificial neural network and partial least squares for on-line visible and near infrared spectroscopy measurement of soil organic carbon, pH and clay content. Soil and Tillage Research, 146: 243-252. doi:https://doi.org/10.1016/j.still.2014.11.00.
Lacoste M, Minasny B, McBratney A, Michot D, Viaud V, Walter C. 2014. High resolution 3D mapping of soil organic carbon in a heterogeneous agricultural landscape. Geoderma, 213: 296-311. doi:https://doi.org/10.1016/j.geoderma.2013.07.002.
Liaghat S, Ehsani R, Mansor S, Shafri H.Z, Meon S, Sankaran S, Azam S.H. 2014. Early detection of basal stem rot disease (Ganoderma) in oil palms based on hyperspectral reflectance data using pattern recognition algorithms. International Journal of Remote Sensing, 35(10): 3427-3439. doi:https://doi.org/10.1080/01431161.2014.903353.
Lin L, Wang Y, Teng J, Wang X. 2016. Hyperspectral analysis of soil organic matter in coal mining regions using wavelets, correlations, and partial least squares regression. Environmental Monitoring and Assessment, 188(2): 1-11. doi:https://doi.org/10.1007/s10661-016-5107-8.
Liu L, Ji, M, Dong Y, Zhang R, Buchroithner M. 2016. Quantitative retrieval of organic soil properties from Visible Near-Infrared Shortwave Infrared (Vis-NIR-SWIR) spectroscopy using fractal-based feature extraction. Remote Sensing, 8(12): 1035. doi:https://doi.org/10.3390/rs8121035.
McCarty G.W, Reeves J.B, Reeves V.B, Follett R.F, Kimble J.M. 2002. Mid-infrared and near-infrared diffuse reflectance spectroscopy for soil carbon measurement. Soil Science Society of America Journal, 66(2): 640-646. doi:https://doi.org/10.1016/j.geoderma.2009.04.005.
Mirzaei S, Darvishi Boloorani A, Bahrami H.A, Alavipanah, S.K, Mousivand A. 2021. Moisture influence reducing on soil reflectance using EPO for organic carbon prediction. 7th International Conference on Agriculture, Environment, Urban and Rural. Tbilisi, Georgia. 16 June. https://civilica.com/doc/1256685. (In Persian).
Morellos A, Pantazi X.E, Moshou, D, Alexandridis T, Whetton R, Tziotzios G, Wiebensohn J, Bill R, Mouazen A.M. 2016. Machine learning based prediction of soil total nitrogen, organic carbon and moisture content by using VIS-NIR spectroscopy. Biosystems Engineering. doi:https://doi.org/10.1016/j.biosystemseng.2016.04.018.
Mouazen A.M, Kuang B, De Baerdemaeker J, Ramon H. 2010. Comparison among principal component, partial least squares and back propagation neural network analyses for accuracy of measurement of selected soil properties with visible and near infrared spectroscopy. Geoderma, 158(1): 23-31. doi:https://doi.org/10.1016/j.geoderma.2010.03.001.
Nawar S, Abdul Munnaf M, Mouazen A.M. 2020. Machine learning based on-line prediction of soil organic carbon after removal of soil moisture effect. Remote Sensing, 12(8): 1308. https://doi.org/10.3390/rs12081308.
Nocita M, Kooistra L, Bachmann M, Müller A, Powell M, Weel S. 2011. Predictions of soil surface and topsoil organic carbon content through the use of laboratory and field spectroscopy in the Albany Thicket Biome of Eastern Cape Province of South Africa. Geoderma, 167: 295-302. doi:https://doi.org/10.1016/j.geoderma.2011.09.018.
Ghazi M, Bahrami H.A, Darvishi Boloorani A, Mirzaei S. 2018. Estimating the measure of the soil’s lime in dust’s centers of Tehran province by using of VINR spectroscopy and satellite images of OLI. RS & GIS for Natural Resources, 8(4): 1-16, https://www.sid.ir/en/journal/ViewPaper.aspx?id=597225 (In Persian).
Steffens M, Kohlpaintner M, Buddenbaum H. 2014. Fine spatial resolution mapping of soil organic matter quality in a Histosol profile. European Journal of Soil Science, 65(6): 827-839. doi: https://doi.org/10.1111/ejss.12182.
Tekin Y, Kuang B, Mouazen A.M. 2013. Potential of on-line visible and near infrared spectroscopy for measurement of pH for deriving variable rate lime recommendations. Sensors, 13(8): 10177-10190. doi:https://doi.org/10.3390/s130810177.
Viscarra Rossel R.A, Behrens, T. 2010. Using data mining to model and interpret soil diffuse reflectance spectra. Geoderma, 158(1): 46-54. doi:https://doi.org/10.1016/j.geoderma.2009.12.025.
Viscarra Rossel R.A, Hicks W.S. 2015. Soil organic carbon and its fractions estimated by visible–near infrared transfer functions. European Journal of Soil Science, 66(3): 438-450. doi:https://doi.org/10.1111/ejss.12237.
Viscarra Rossel R.A, Cattle S.R, Ortega A, Fouad Y. 2009. In situ measurements of soil colour, mineral composition and clay content by vis–NIR spectroscopy. Geoderma, 150(3): 253-266. doi:https://doi.org/10.1016/j.geoderma.2009.01.025.
Vohland M, Besold J, Hill J, Fründ H.C. 2011. Comparing different multivariate calibration methods for the determination of soil organic carbon pools with visible to near infrared spectroscopy. Geoderma, 166(1): 198-205. doi:https://doi.org/10.1016/j.geoderma.2011.08.001.
Wang Y, Wang F, Huang J, Wang X, Liu Z. 2009. Validation of artificial neural network techniques in the estimation of nitrogen concentration in rape using canopy hyperspectral reflectance data. International Journal of Remote Sensing, 30(17): 4493-4505. doi:https://doi.org/10.1080/01431160802577998.
Yang H, Li J. 2013. Predictions of soil organic carbon using laboratory-based hyperspectral data in the northern Tianshan Mountains, China. Environmental Monitoring and Assessment, 185(5): 3897-3908. doi:https://doi.org/10.1007/s10661-012-2838-z.
Yang R.M, Zhang G.L, Liu F, Lu Y.Y, Yang F, Yang F, Yang M, Zhao Y.G, Li D.C. 2016. Comparison of boosted regression tree and random forest models for mapping topsoil organic carbon concentration in an alpine ecosystem. Ecological Indicators, 60: 870-878. doi:https://doi.org/10.1016/j.ecolind.2015.08.036.
تخمین ماده آلي خاک با داده کاوي دادههای طیف سنجی VNIR ارائه روش تلفيقي کاهش نويز - داده کاوي برای تخمين ماده آلي خاک با طیف سنجی VNIR
چکیده
کسب اطلاع از خصوصيات خاک و به طور ويژه، برآورد ميزان مواد آلي خاک، در کشاورزي دارای اهمیت فراوانی است. در سه دهه اخیر طیف سنجی به عنوان ابزاری غیر مخرب در طيفسنجي به عنوان راه حل غیر مخرب، سريع، مقرون به صرفه و با پوشش وسيع برای تخمين ماده آلی خاک ميباشد. برآورد ماده آلی خاک مورد استفاده قرار گرفته است. با اینحال، روشهای استفاده شده جهت پیش پردازش و مدلسازی ویژگیهای خاک با دادههای طیفی به دقت قابل قبولی نرسیده است. معمولا با ایجاد رابطه آماری، تجربی یا فیزیکی بین ماده آلی و طیف اندازه گیری شده انجام میشود. در هدف اين تحقيق، یک توسعه روش ابتکاری تلفيقي داده کاوی برای برقراری ارتباط ناپارامتریک بین دادههاي طيفسنجي و آزمايشگاهي مواد آلي خاک در استان تهران ميباشدتوسعه داده شد. 42 نمونه خاک از مناطق کشاورزی جنوب غربی استان تهران برداشت و ویژگیهای فیزیکی و شیمایی آنها در آزمایشگاه اندازه گیری شد. طیف سنجیبازتاب طیفی محدوده ۳۵۰-۲۵۰۰ نانومتر نمونههای خاک در شرایط هواخشک با استفاده از طیف سنج FieldSpec 3 در اتاقک تاریک اندازه گیری شددر محدوده ۳۵۰-۲۵۰۰ نانومتر بر روی نمونههای هواخشک انجام شد. از تبدیل موجک گسسته با ۵ سطح برای حذف نويز بطوريکه، پس از انجام پیش پردازش، طيف اصلي، مشتق اول و ، مشتق دوم بازتاب و جذب طیفی و مشتق اول و مشتق دوم جذب محاسبه گرديد. به منظور حذف نويز،استفاده از تبدیل موجک گسسته با ۵ سطح شد.و برای انتخاب طيفهاي مستقل، موثر و حذف دادههاي پرت با استفاده از روش تحليل مولفههاي اصلي و آزمون هادلینگز شناسایی و حذف استفاده شده استند. در نهایت، روشهای رگرسیون کمترين مربعات جزيی و يادگيري ماشين درخت رگرسیون ارتقا يافته با استفاده از باندهاي مستقل (روشهاي توسعه يافته تبديل موجک-تحليل مولفه اصلي- رگرسیون کمترين مربعات جزيی و تبديل موجک-تحليل مولفه اصلي- يادگيري ماشين درخت رگرسیون ارتقا يافته) به منظور توليد تابع پيوسته ماده آلی خاک اجرا گرديد. بهترین دقت برای روشهاي توسعه داده شده برای روش يادگيري ماشين درخت رگرسیون ارتقا يافته و ورودی مشتق دوم بازتاب طيفی در مقایسه با سایر شرایط، دارای بهترین نتایج (RMSE= 0.58, R2 =0.94) را ارائه داد. نتايج اين تحقيق مويد اين مطلب است که در مناطق ناهمگن کشاورزي - شهري، ميتوان از پتانسيل مدلهاي يادگيري ماشين درخت رگرسیون ارتقا يافته براي تخمين مواد آلي خاک استفاده نمود.
واژههای کلیدی: طيفسنجي، ماده آلی خاک، تبديل موجک، تجزیه و تحلیل مولفههای اصلی، رگرسيون کمترين مربعات جزيي، درخت رگرسيون ارتقا يافته، جنوب غربي تهران.
مقدمه
خاک به عنوان منبع طبیعی ناهمگن و بزرگترين مخزن کربن آلي در اکوسيستم زميني، از فرآیندها و مکانیسمهای پیچیدهاي تشکيل شده است (۲۸۳۰). ضرورت برآورد اطلاعات دقیق خاک در مقیاس ملی و منطقهاي به منظور بهبود مدیریت خاک و درک خصوصيات خاک و چگونگي تاثيرگذاري آن در کشاورزي (۲۴۲۶)، منجر به علاقهمند شدن محققين به اين حوزه شده است.
محتواي مواد آلي خاک (Soil Organic Matter (SOM)) به عنوان شاخص کیفیت خاک در حاصلخيزي آن و توليد مواد غذايي تاثيرگذار است (۲، ۳ و ۲۸۳۰) و نيز به عنوان يک متغير کليدي در مباحث محيطي و کشاورزي محسوب ميشود (۱۱). جمعآوري تعداد زيادي داده خاک دقيق با هدف مديريت منابع غذايي براي جمعيت آينده ضروري است (۱). بنابراین استفاده از روشهاي تخمين سریع و ارزان و البته افزايش دقت برآورد محتوایSOM در ارزیابی و مدیریت منابع خاک ميتواند کمک کننده باشد (۹).
در کشاورزی دقیق، مقیاس اطلاعات خاک مورد نیاز برای مدیریت اراضي و محصول بسیار کوچکتر بوده و به طور معمول مقياس جمعآوري دادههاي ميداني جوابگوي اين نياز نميباشد (۱۶۱۷). نمونهبرداري و آناليز تعداد زياد نمونه خاک و تهيه نقشه توزيع SOM، براي مناطق وسيع و بزرگ، بسيار دشوار است (۲۸۳۰). علاوه بر اين، روشهاي سنتي آزمايشگاهي تجزیه و تحلیل خاک براي نمونهبرداری زياد نیاز به نیروی کار بیشتر بوده و علاوه براین زمانبر و هزینهبر است و نیاز به اپراتور آزمایشگاه متخصص دارد.
یکی از رایجترین روشهاي تخمين پارامترهاي خاک، استفاده از طیف سنجی مرئي و مادون قرمز نزدیک(VNIR) (در محدوده طیفی400 ۳۵۰-۲۵۰۰۳۵۰ الي 2500 نانومتر) ميباشد (۱۹). طيفسنجي آزمایشگاهی و میدانی و سنجش از دور ابرطیفی، پتانسیل ارزيابي محتوایSOM را به دلیل فراوانی اطلاعات طیفی داراست (۴). اين روش به عنوان مکمل روشهای تجزیه و تحلیل آزمایشگاهی در برآورد خصوصیات خاک استفاده ميگردد. بطوريکه تمايل پژوهشگران به استفاده از روشهاي تجزیه و تحلیلVNIR با توجه به سرعت، مقرون به صرفه بودن و مهمتر از آن مجاز بودن تعداد نمونهبرداری بالا رو به افزايش است (۱۳، ۱۷۱۸، ۲۱ ۲۳ و ۲۳۲۵). لرزشهای بنیادی مولکولهای آلی در محدود VNIR رخ میدهد و باندهای فراتون و هماوند آنها در محدوده VNIR قرار دارد. پیکهای مختلف بازتابهای طیفی برای مواد آلی مختلف ارائه شده است که مهمترین آنها ترکیبات آروماتیک در طولموجهای 1611-1100-825 نانومتر، آمین در طولموجهای 2060-1500-1000-751 نانومتر، کربوکسیلیک اسید در طولموجهای 1930-1449، آمیدها در طولموجهای 2033-1524 نانومتر، ترکیبات آلیفاتیک در طولموجهای 2275-1706، فنول در طولموج 1961 نانومتر، پلی ساکارید در طولموج 2137 نانومتر، کربوهیدرات در طولموج 2381 نانومتر است. باندهای فراتون و هماوند در این محدوده در مواد آلی در نتیجه کشش و خمش گروههای NH، CH و CO میباشد (۶).
تاکنون نقشهبرداری و طبقهبندی خاک از طریق روشهای مختلف، نظير روشهای آماری مانند رگرسیون مولفههای اصلی (Principal Component Regression (PCR)) (۱۷۱۸)، رگرسيون کمترين مربعات جزيي (Partial Least Squares Regression (PLSR)) (۱۵۱۶، ۱۷۱۸)، و نيز استفاده از روشهای یادگیری ماشین نظير انواع مختلف شبکههای عصبی مصنوعی، درختهای تصمیم گیری، جنگل تصادفی و ماشین بردار پشتیبان (۱۰، ۱۱، ۱۶۱۷، ۱۷ ۱۸ و ۲۲۲۴) انجام شده است. در زمينه مواد آلي خاک نيز تاکنون مطالعات متعددي نظير استفنس و همکاران (2014) (20۲۲) با استفاده از فنآوری ابر طیفی و روشهاي يادگيري ماشين، صورت گرفته است. نامبردگان با استفاده از طیفسنجیVNIR به تهيه نقشهSOM در مناطق همگن داراي مواد آلی پرداختهاند. یانگ و لی (۲۷۲۹) محتوای SOM را از طریق ترکیب طیفسنجی خاک و رگرسیون خطی چند متغیره گام به گام کميسازي نمودهاند. در میان روشهای کارآمد در ايجاد مدلهای قابل اعتماد در زمینه سنجش از دور ابر طیفی، برای تخمین محتوای SOM ، روش رگرسیون کمترين مربعات جزئی بیشتر استفاده شده است. نوتیکا و همکاران (۱۸۲۰) و وهلند و همکاران (۲۵۲۷) از روش طيفسنجي و تخمين ميزان مواد آلي خاک با استفاده از روش PLSR استفاده نمودهاند و قابليت اين روش را در تخمين مواد آلي خاک اذعان نمودهاند. با اين حال، تجزیه و تحلیل PLSR و پردازش مواد آلي خاک بسيار تحت تاثير نويزهاي موجود در دادههاي طيفسنجي ميباشد (۷). از اين رو، لین و همکاران (۱۳) با استفاده روش تبديل موجک – همبستگي – PLSR به تخمين دقيقتر مواد آلي خاک از طريق طيفسنجي و کاهش نويز پرداختهاند. در مورد روش يادگيري ماشين درخت رگرسیون ارتقا يافته (Boosted Regression Tree (BRT)) نيز تحقيقات اندکي در زمينه بررسي مواد آلي خاک از طريق طيفسنجي انجام شده است. در اکثريت مقالات به بررسي ارتباط مواد آلي خاک و عوامل محيطي به روش BRT پرداخته شده است. ویسکارا راسل و بهرنس (۲۲۲۴)، به مقايسه PLSR و روشهاي داده کاوي نظير BRT، بردار پشتیبان تصمیم و جنگل تصادفی پرداختهاند و به کارايي بالاتر روشهاي داده کاوي اشاره کردهاند. لیو و همکاران (۱۴) با استفاده از داده طيفسنجي و نمونه مواد آلي، به روش BRT، ميزان مواد آلي خاک را با دقت قابل قبول تخمين زدهاند.
روش تحقیق
منطقه مورد مطالعه
استان تهران به مرکزیت شهر تهران، با وسعتی حدود ۱۲۹۸۱ کیلومتر مربّع، بین 5/34 تا ۰۵/۳۶ درجه عرض شمالی و ۵۰ تا ۳/۵۳ درجه طول شرقی واقع شده است. این استان از شمال به استان مازندران، از جنوب به استان قم، از جنوبغربی به استان مرکزی، از غرب به استان البرز و از شرق به استان سمنان محدود است. ايستگاههاي نمونهبرداري خاک اندازهگيري شده در اين تحقيق، در جنوب غربي استان تهران در نواحي کشاورزي روستايي شهر ري و اسلامشهر بين ۰۸/۳۵ تا ۶۳/۳۵ درجه عرض جغرافيايي و 51 تا ۶۶/۵۱ درجه طول جغرافيايي واقع شده است (شکل 1).
شکل1. موقعيت جغرافيايي نقاط نمونهبرداري خاک در استان تهران.
Fig 1. Geographical location of soil samples in Tehran province.
مواد و روشها
شکل 2، مراحل اجرايي تحقيق را نشان ميدهد که از چهار مرحله تشکیل شده است. بخش اول شامل نمونهبرداری، آمادهسازی نمونهها و اندازهگیری آزمایشگاهی و طیفسنجی میشود، بخش دوم شامل پیش پردازش دادههای طیفی و محاسبات مشتق بازتاب و جذب طیفی میشود، بخش سوم آمادهسازی مدل و بخش چهارم مدلسازی و ارزیابی صحت نتایج را شامل میشود. در ادامه جزئیات هریک از این مراحل به تفکیک ارائه میشود.
شکل2. فلوچارت روش تحقیق.
Fig 2. Flow chart of research methodology.
نمونهبرداری و اندازهگیری آزمایشگاهی
4۲ نمونه خاک از منطقه ناهمگن کشاورزی شهری در تهران در 30-0 سانتی متر خاک جمعآوری گرديد. اسیدیته خاک با استفاده از pH متر و کربنات کلسیم خاک با استفاده از کلسیمتر و ردو روش اسکیبلر اندازه گیری شد. بافت خاک و ماده آلی خاک به ترتيب با استفاده از روشهاي هيدرومتري و والکی-بلک اندازهگیری شد. در اين تحقيق، اندازهگیری بازتاب طیفی خاک با استفاده از طیفسنجFieldSpec 3 ساخت شرکت ASD در محدوده 2500-350 نانومتر با زاویه دید سنجنده ۲۴ درجه انجام شد. برای کالیبره کردن دستگاه، از صفحه مرجع سفید استفاده شد. این اندازهگیری در یک اتاق تاریک برای جلوگیری از اثر نورهاي زائد انجام شده است. سنجنده بصورت عمود بر نمونه خاک تنظیم و زاویه نور 75 درجه، تنظیم شد. همچنین، فاصله بین سنجنده و نمونه 7 سانتیمتر در نظر گرفته شده است. برای هر نمونه ۷ بار اندازهگیری طیفی تکرار شد. در شکل ۳ مراحل مختلف داده برداری از جمله نمونهبرداری، اندازهگیری آزمایشگاهی و طیفسنجی نشان داده شده است.
شکل۳. نمونهبرداری، اندازهگیریهای آزمایشگاهی و طیفی نمونههای خاک.
Fig 3. Sampling, laboratory measurement and spectrometry of soil samples.
پيش پردازش و تبديلات طیفی
به دلیل اینکه دستگاه طیفسنج از سه مجموعه آشکارساز با جنسهای مختلف ساخته شده است، نتایج این آشکارسازها ممکن است در اثر عوامل مختلف کاملا منطبق نباشد. ابتدا تصحیح باياس میان طیفها و پر کردن شکافها با تابع splice correction در نرم افزار ViewSpec انجام شد. با استفاده از فیلتر Savitzky-Golay چندجملهای درجه دو و اندازه پنجره ۱۱ طیفها نرم شدند. سپس میانگین حسابی 7 تکرار طیفی برای هر نمونه به روشدر نرم افزار MATLAB محاسبه شد. از آنجاييکه مشتق دادههاي طيفي، اثر نويزهاي با فرکانس پايين را کاهش ميدهد (۱۲)، مشتق اول و دوم متوسط طیف محاسبه شد. همچنین، تفاوت طیفی در ناحيه مرئي را میتوان با لگاريتم معکوس گرفتن از طيف بارز نمود، و علاوه بر این، تاثیر تنوع نوردهي را به حداقل رساند (۲۶۲۸). در تحقيق حاضر، علاوه بر محاسبه مشتق اول(FDR) و مشتق دوم(SDR) بازتاب طیفی اصلی (REF)، جذب(1/R) و مشتق اول (log(1/R))' و دوم (log(1/R))'' جذب محاسبه گردید. به منظور توسعه روشهاي Wavelet-PCA-PLSR و Wavelet-PCA-BRT، به ترتيب تبديل موجک، تحليل مولفههاي اصلي و الگوريتم PLSR يا BRT اجرا گرديد که در ادامه تشريح ميشود.
روش رگرسیون کمترين مربعات جزيی - تبديل موجک گسسته
تعداد زیادی نويز در منحنی انعکاس طیفی به ویژه در طیف خاک به چشم ميخورد و طیف تبدیل يافته نيز دندانه دندانه است (۱۳). بنابراین، در این تحقیق، به منظور کاهش نويز و هموارسازي طيف، از روش تبديل موجک تابع ماتریسSym8 براساس لین و همکاران (۱۳) استفاده شده است. همچنین، تبدیل موجک به منظور نشان دادن و بارزسازي ويژگيها در طیف انجام ميشود. تبدیل موجک گسسته (Discrete Wavelet Transform (DWT)) همانند تبديل فوريه، براي تبديل فضاي طيف به فضاي ديگري با ويژگي معنيدار، استفاده ميشود. DWT با استفاده از رابطه (۱) محاسبه شد:
که در اینجا Ψ0,0 موجک والد است که سایر موجکها () از آن مشتق شدهاند، طیف، سطح تجزیه DWT و ضریب موجک محاسبه شده بوسیله تولیدات بین و است (رابطه ۲):
پس از انجام روش کاهش نويز تبدیل موجک، تجزیه و تحلیل مولفههای اصلی (PCA) به منظور تشخیص دادههاي پرت استفاده شد. برای تشخیص دادههاي پرت، مقدار حد آستانه از طريق آزمون هادلینگز (Hotelling's T2) (رابطه 1) محاسبه ميشود (۸). در این پژوهش نيز از آزمون هادلینگز با در نظر گرفتن فاصله اطمینان 95٪ استفاده شده است (رابطه ۳):
که در آن n تعداد نمونهها، L تعداد مؤلفهها، α سطح معنیداری (معمولا بین 1٪ و 5٪) و F L, n- l، توزیع فیشر F باL و n _ L درجه آزادي است. زمانی که مقدار T2 بیش از مقدار حد آستانه باشد، آن داده، پرت تلقي ميگردد (۸).
به منظور کاليبراسيون و اعتبارسنجی مدل، به طور تصادفی به ترتيب 30 و 12 نمونه خاک انتخاب شده است. پس از حذف داده پرت از هر مجموعه، روش PLSR و درخت رگرسیون ارتقا يافته بر روي 6 ويژگي از جمله بازتاب طیفی اصلی (REF)، مشتق اول (FDR) و مشتق دوم (SDR) بازتاب هر طیفی اصلي، لگاریتم معکوس، مشتق اول و دوم آن اجرا شده است. علاوه بر این، این روند در 5 سطح از تبدیل موجک محاسبه شد. سپس، با مقایسه نتایج، مدل مناسب از طريق اعتبارسنجی انتخاب شد. مدل کلي روش PLSR از طريق رابطه ۴ و 5 بدست ميآيد.
که در آنX ماتریس مقادير پيشبيني کننده ورودي،Y ماتریس پاسخ، T و U به ترتیب ماتریس مولفه X و Y است.P و Q، به ترتیب، ماتریس لودينگ (loading) در راستاي X و Y، و ماتریس E و Fماتريس خطا هستند. اين تجزيه با هدف به حداکثر رساندن کوواریانس بینT وU انجام ميشود. برای انجامPLSR در دادههای غیر خطی، از تابع کرنل استفاده ميشود.
روش درخت رگرسيون ارتقا يافته
در هنگام استفاده از نمونه عددی، به جای درخت تصمیمگیری از درخت رگرسیون استفاده میشود، اما روند آنها یکسان است. در درخت رگرسیون از جستجو حریصانه استفاده ميشود. بنابراین، با پاسخ دادن به سوال باینری که حداکثر اطلاعات در مورد Y از طريق کدام نود بدست ميآيد، گره ریشه و دو فرزند آن تعيين ميگردد. این فرایند در هر گره فرزند تکرار میشود. توليد ساختمان درخت به صورت بازگشتی تکرار شده است و یک معیار توقف معمولی در نظر گرفته ميشود. معيار توقف ميتواند نظير رسيدن به انشعابي که قابل تقسيم نيست و اطلاعات کمتري ميدهد و یا زمانی که اطلاعات در گره حاوی کمتر از، پنج درصد از کل دادهها است، باشد. همچنین، سعی در به حداقل رساندن اندازه درخت است. برای تقسیم گره، عامل جینی، عامل آنتروپی و غیره به منظور به حداقل رساندن این عوامل استفاده شده است. علاوه بر این، در هر شاخه، مجموع مربع خطاها محاسبه شده و آنهایی که مقادير حداقل دارند، انتخاب ميشود. همچنین، در درخت رگرسیون، فرایند هرس برای کاهش بيش برازش(over-fitting) استفاده ميگردد (۵). خروجی چند بعدی درخت رگرسیون غیر خطی به صورت رابطه ۶ است:
که در آن P = f(Am;Rm)gM m=0 ، مجموعه پارامترهاي درخت رگرسيون را ارائه ميدهد. R = f(r1; : : : ; rK) مجموعه تقسيمات مجزاي داده ورودي و A = f(a1; : : : ; aK)، مجموعه بردارها، M تعداد درخت و k نود برگ است. در درخت رگرسیون، مهمترین موضوع انتخاب بهترین مقادير پارامترهای A وR است. مجموع وزنی مربعات خطا برای هر گره برگK به صورت رابطه ۷ محاسبه ميشود:
تابع درخت رگرسيون به عنوان يک گروه از رگرسيونهاي درختي H براساس رابطه ۸ تعيين ميشود:
روش درخت رگرسیون ارتقا يافته، دو روش درخت رگرسيون و تکنيک ارتقا را به منظور بهبود توان پيشبيني هر کدام از آنها ترکيب ميکند (۲۸). اين روش، توسط الگوريتم افزایش گراديان، سعي در به حداقل رساندن رابطه ۹ را دارد.
، تابع کاهش مربع خطا و N تعداد نمونههاست. شبه کد درخت رگرسیون ارتقا يافته به شرح زیر است (جدول ۱): که در آن º یک پارامتر انقباض به منظور جلوگیری از بيش برازش است.
جدول۱. شبه کد درخت رگرسيون ارتقا يافته
Table 1. Pseudo-code of the BRT
1: | |||||||
2: | |||||||
3: | |||||||
4: | |||||||
5: | |||||||
6: |
حداکثر | ميانگين | ميانه | حداقل | SOM (%) |
32/4 | 261313/1 | 84/0 | 14/0 | نمونه کاليبراسيون |
33/1 | 734167/0 | 61/0 | 14/0 | نمونه اعتبارسنجي |
تبديل موجک گسسته و حذف دادههاي پرت
طيفهاي نمونههاي خاک به FDR، SDR، log (1/R)، (log (1/R))' و (log (1/R))'' تبديل شدهاند. در شکل ۵-a، ۵-b و ۵-c به ترتيب مشتق اول طيف اصلي، مشتق دوم آن، log (1/R)، (log (1/R))' و (log (1/R))'' ارائه شده است.
شکل.۵ (a) بردار طيفي log (1/R)، (b) مشتق اول و (c) مشتق دوم آن در سه نمونه خاک اندازهگيري شده و ميزان SOM آنها.
Fig 5. (a) Spectral reflectance vector log (1/R), (b) the first derivative, (c) the second derivative in the three soil samples and their levels of SOM.
همانطور که در شکل ۴ و ۵ نيز مشهود است، طيفهاي خاک با نويزهاي دندانه دندانه همراه است. به منظور حذف نويزها و باقيماندن اطلاعات مفيدتر، از تبديل موجک گسسته سطح 5 به منظور تجزيه طيف و حذف نويز استفاده شد. به استناد تحقيقات مختلف که به منظور حذف نويز از تبديل sym8 استفاده کردهاند، در اين تحقيق نيز از اين روش براي حذف نويز بهرهبرداري شد. به علت رعايت اختصار، تنها يک نمونه از نتايج تبديل موجک بر روي مشتق اول جذب طيفی ارائه ميگردد. در شکل 6، به ترتيب از بالا، مشتق اول جذب طيفی، تقريب سطح 5، جزييات سطح 5، الي 1، با استفاده از تبديل موجک گسسته نمايش داده ميشود.
شکل۶. منحني طيف به ترتيب از بالا، (log (1/R))'، تقريب سطح 5، جزييات سطح 5، الي 1. با استفاده از تبديل موجک گسسته.
Fig. 6- Spectral curves of (log (1/R))', level 5 approximation and details of level 5 to 1 from top to down.
براساس اطلاعات آماري بدست آمده از هر سطح تبديل موجک، سطح مناسبتر براي حذف نويز در داده مورد نظر انتخاب شده است. در جدول ۳، اطلاعات آماري در مورد هر سطح موجک در طيف مشتق اول جذب طیفی ارائه ميگردد و با در نظر گرفتن تشابه ميانگين و ميانه، سطح مناسبتر انتخاب گرديد. بطوريکه نزديکي مقادير ميانگين و ميانه و مقدار کمتر انحراف معيار در داده تقريب بدست آمده از تبديل موجک، دلالت بر نرمال بودن هيستوگرام و کاهش مقادير نويز ميباشد. براساس اطلاعات بدست آمده از 5 سطح تبديل موجک، سطح پنجم به دليل نزديکي مقادير ميانه و ميانگين به سطح نرمال نزديکتر است (شکل ۷).
جدول ۳. اطلاعات آماري در مورد هر سطح تبديل موجک در مشتق اول جذب طيفی.
Table 3. statistical data related to each level of wavelet transform in the (log (1/R))' spectrum.
سطح تبدیل | حداقل | حداکثر | ميانگين | ميانه | انحراف معيار |
(log (1/R))' | 0104/0 - | 00805/0 | 0002521/0 - | 0013/0- | 000719/0 |
تقريب سطح 1 | 009455/0- | 00796/0 | 0001592/0 | 0001302/0- | 0006988/0 |
تقريب سطح 2 | 006341/0- | 006671/0 | e-05 2/5- | 0001334/0- | 0005956/0 |
تقريب سطح 3 | 002636/0- | 003445/0 | 0001023/0- | 0001354/0 - | 0005268/0 |
تقريب سطح 4 | 001796/0 - | 00203/0 | e-05 4/7- | 0001341/0- | 0004886/0 |
تقريب سطح 5 | 001505/0- | 001853/0 | 0001156/0- | 000132/0- | 0004666/0 |
شکل۷. هيستوگرام و منحني سطح 5 تبديل موجک براي داده مشتق اول جذب طيفی.
Fig. 7- Histogram and curves of level 5 wavelet transform for the data of the (log (1/R))' spectrum.
بعد از اين مرحله، به منظور حذف مقادير پرت از دادهها، از روش PCA با محاسبه مقدار حد آستانه هادلینگز، استفاده شده است. در اين دادهها با مقدار نمونه (حاصل ضرب تعداد طيف در تعداد نمونه کاليبراسيون)، مولفه و سطح اطمينان به ترتيب، 64500، 30 و 95 درصد (ميزان آلفا 05/0)، ميزان توزيع فيشر و حد آستانه هادلینگز، 6223/1 و 69/48، به ترتيب بدست آمده است.
برآورد ماده آلی خاک با PLSR و BRT و تهيه نقشه
بعد از حذف مقادير پرت، مدلهاي PLSR و BRT براي پيشبيني مقادير SOM استفاده شده است. نتايج بدست آمده براي مدل PLSR در هر تبديل طيف، براساس 20 عامل (مولفه يا فاکتور) و انتخاب بهترین فاکتور توليد مدلPLSR برای واریانس مقادیر برآوردی و باقیمانده وRMSE در هر دو مدل کاليبراسيون و اعتبارسنجی بدست آمده است. به علت رعايت اختصار، از ارائه اين مقادير براي واریانس مقادیر برآوردی و باقیمانده و RMSE در هر دو مدل کاليبراسيون و اعتبارسنجی براي کليه 20 فاکتور خودداري شده است. جدول 4، مقادير باقيمانده Y براي بازتاب و جذب طيفی و تبديلات آنها را در بهترين مولفههاي يافت شده در دو مدل کاليبراسيون و اعتبارسنجي در تبديلات مختلف ارائه ميدهد. براي انتخاب فاکتور مناسبتر در پيشبيني مقادير SOM، مجموعه اين مقادير و نيز مقادير RMSE و R2 در نظر گرفته شده است.
جدول ۴. ليست مقادير باقيمانده Y، واريانس Y و RMSE در بهترين مولفههاي يافت شده در دو مدل کاليبراسيون و اعتبارسنجي در تبديلات مختلف.
Table 4. The list of residual values of Y, explained variance of Y and RMSE in the best achieved components in the two calibration and validation models for different transforms.
RMSE | واریانس Y | باقیمانده Y | مولفه | تبدیل | |||
اعتبارسنجی | کاليبراسيون | اعتبارسنجی | کاليبراسيون | اعتبارسنجی | کاليبراسيون | ||
۹۹۴/۰ | ۸۲۶/۰ | ۱۲۶/۲۲ | ۶۲۶/۴۳ | ۹۸۳/۰ | ۶۸۳/۰ | ۵ | بازتاب |
۰۳۴/۱ | ۱۶۳/۰ | ۱۰۹/۱۹ | ۸۱۹/۹۷ | ۰۹۹/۱ | ۰۲۶/۰ | ۹ | مشتق اول |
۰۸۵/۱ | ۵۳۹/۰ | ۴۲۵/۴ | ۹۹۴/۷۵ | ۳۸۸/۱ | ۲۹۱/۰ | ۳ | مشتق دوم |
۹۹۶/۰ | ۴۷۶/۰ | ۸۳۳/۱۵ | ۲۹۸/۸۱ | ۱۵۲/۱ | ۲۲۶/۰ | ۹ | جذب |
۰۲۰/۱ | ۳۹۷/۰ | ۵۲۵/۱۴ | ۰۱۴/۸۷ | ۹۶۷/۰ | ۱۵۷/۰ | ۶ | مشتق اول |
۲۰۷/۱ | ۳۱۶/۰ | ۵۰۷/۴ | ۷۶۱/۹۱ | ۴۶۳/۱ | ۹۹۸/۰ | ۷ | مشتق دوم |
جدول 5، نتايج رگرسيون دو مدل PLSR و BRT را در تبديلات مختلف طيف نشان ميدهد. با مقايسه نتايج در مدل PLSR، اينطور استنباط ميشود که مشتق اول طيف اصلي براي تبديل موجک سطح 5، نتايج بهتري را برآورد نموده است. بطوريکه مقادير RMSE و R2 به ترتيب 0338/1 و 938/0 بدست آمده است. در مدل BRT، با مقايسه نتايج کاليبراسيون و اعتبارسنجي، اينطور استنباط ميشود که اين مدل در داده مشتق دوم طيف اصلي با مقادير RMSE و R2 به ترتيب 58/0 و 94/0، نتايج بهتري را بدست آورده است. در مرتبه دوم و سوم اهميت، مدل BRT در دو مشتق دوم جذب طيفی و مشتق اول بازتاب طیفی با مقادير RMSE و R2 به ترتيب 7333/0 و 9387/0 و 7613/0 و 9379/0 ميباشند. با مقايسه نتايج دو مدل مشخص ميشود که مدل BRT، نتايج بهتري در هر دو مدل کاليبراسيون و اعتبارسنجي بدست آورده است. در نتيجه از اين مدل، ميتوان براي توليد سطح پيوسته از مقادير SOM با استفاده دادههاي طيفسنجي با دقت به مراتب بالاتر از روشهاي موجود استفاده کرد. شکلهاي ۸ و ۹، نمودارهاي مقادير اندازهگيري شده در مقابل پيشبيني شده با استفاده از داده مشتق دوم طيف اصلي به روش BRT و داده مشتق اول طيف اصلي به روش PLSR را به ترتيب نشان ميدهد. با استفاده از داده مشتق دوم طيف اصلي به روش BRT و داده تصوير ماهوارهاي لندست OLI براي تاريخ نمونهبرداري، نقشه مقادير ماده آلي خاک توليد گرديد (شکل 10).
جدول۵. نتايج تست دو مدل PLSR و BRT.
Table 5. The results of the two PLSR and BRT models.
R2 | RMSEV | RMSEC | مولفه | طيف | مدل |
۸۱/۰ | ۹۹۵/۰ | ۴۷۶/۰ | 9 | جذب | PLSR |
۸۷/۰ | ۰۱۹/۱ | ۳۹۶/۰ | 6 | مشتق اول جذب | |
۹۲/۰ | ۲۱/۱ | ۳۲/۰ | 7 | مشتق دوم جذب | |
۴۳۶/۰ | ۹۹۳/۰ | ۸۳/۰ | 5 | بازتاب | |
۹۳۸/۰ | ۰۳۴/۱ | ۲۶۳/۰ | 9 | مشتق اول بازتاب | |
۷۶/۰ | ۰۸۵/۱ | ۵۳۹/۰ | 3 | مشتق دوم بازتاب | |
۹۲۳/۰ | ۱۵۰/۱ | ۳۰۶/۰ | - | Log (1/R) | BRT |
۸۹۳/۰ | ۰۳۹/۱ | ۳۶۰/۰ | - | log (1/R) مشتق اول | |
۹۳۹/۰ | ۷۳۳/۰ | ۲۷۲/۰ | - | log (1/R) مشتق دوم | |
۹۲۵/۰ | ۹۴۸/۰ | ۳۰۲/۰ | - | طيف اصلي | |
۹۳۸/۰ | ۷۶۱/۰ | ۲۷۴/۰ | - | مشتق اول طيف اصلي | |
۹۳۹/۰ | ۵۷۹/۰ | ۲۷۱/۰ | - | مشتق دوم طيف اصلي |
|
|
ب | الف |
شکل۸. نمودار مقادير اندازهگيري شده در مقابل پيشبيني شده با استفاده از داده مشتق دوم بازتاب طيفی به روش BRT.
الف) داده کاليبراسيون ب) داده اعتبارسنجي
Fig. 8- Histogram of measured vs. predicted values using the data related to the SDR via the BRT model.
a) Calibration data b) validation data
|
|
الف | ب |
شکل۹. نمودار مقادير اندازهگيري شده در مقابل پيشبيني شده با استفاده از داده مشتق اول طيف اصلي به روش PLSR
الف) داده کاليبراسيون ب) داده اعتبارسنجي
Fig. 9- Histogram measured vs. predicted values using the data related to the SDR via the PLSR model.
a) Calibration data b) validation data
شکل10. نقشه مقادير برآورد شده ماده آلي خاک با استفاده از داده مشتق دوم بازتاب طيفی به روش BRT به همراه تعدادي نمونه خاک اندازهگيري شده
Fig. 10- Map of predicted values of soil organic matter using the data related to the SDR via the BRT model with some soil sampling.
بحث و نتیجهگیری
نتایج اندازه گیری آزمایشگاهی نشان داد نمونههای خاک در چهار کلاس بافتی رس، لوم ماسهدار، لوم رس دار و و لوم رس و لای دار قرار میگیرند. کمترین و بیشترین میزان کربنات کلسیم نمونههای خاک به ترتیب ۱۳ و ۲۳ درصد میباشد. کمترین و بیشترین میزان اسیدیته نمونههای خاک به ترتیب ۲۴/۷ و ۹۴/۷ میباشد. کمترین و بیشترین میزان ماده آلی خاک به ترتیب ۱۴/۰ و ۳۲/۴ درصد میباشد. اما اين دادهها بصورت پراکنده ميباشد، برآورد رضایت بخش ميزان SOM، ایجاد سطوح پيوسته با دقت بيشتر براساس کاهش نويز و حفظ دادههاي مفید، همواره مورد توجه محققين بوده است. در اين تحقيق نيز با استفاده از دادههاي طيفسنجي خاک و اندازهگيري آزمايشگاهي ميزان مواد آلي، سعي در برآورد چنين سطح پيوستهاي به منظور تخمين SOM بوده است. بطوريکه با استفاده از تبديل موجک و حذف دادههاي پرت براساس هادلینگز در روش PCA، دادههاي مفيد براي توليد سطح پيوسته استخراج شدهاند. در اين روش، باندها يا طيفهاي مستقل و موثر در مدل باقي ميمانند. در حاليکه، لین و همکاران (۱۳) به منظور انتخاب باندهاي مناسب در تخمين مواد آلي خاک از روش تبديل موجک و همبستگي استفاده نمودهاند. اين در حالي است که با استفاده از روش همبستگي در مناطق ناهمگن همانند منطقه مورد مطالعه در اين تحقيق، نتايج رضايت بخشي بدست نميآيد. روش PCA به طور غير نظارت شده، با در نظر گرفتن مقادير داده، اجزاي اصلي و مقادير و بردارهاي ويژه را محاسبه نموده و سعي در بیشینه نمودن ماتريس کوواريانس براساس تجزیه مقادير منفرد (Singular Value Decomposition (SVD)) دارد.
بعد از حذف دادههاي پرت و باقيماندن دادههاي مفيد، مدلهاي تخمين مواد آلي خاک به دو روش PLSR و BRT، بر روي دادههاي اندازهگيري شده در جنوب غربي تهران توسعه داده شده است. به منظور بارز نمودن اطلاعات و ويژگيها در طيفسنجي خاک از تبديلات مختلف طيف نظير جذب، مشتق اول و مشتق دوم براي بازتابندگی و جذب طیفی نيز قبل از اجراي تبديل موجک و حذف دادههاي پرت استفاده شده است. در نتيجه اين دو مدل توليد سطوح پيوسته، براي اين شش دسته ويژگي، اجرا شده است تا مدل با دقت بهتر برآورد شود. بررسي نتايج بدست آمده از توسعه اين دو مدل حاکي از اين است که مدل BRT، با مقادير RMSE و R2، به ترتيب 58/0 و 94/0، در داده مشتق دوم طيف اصلي، نتايج بهتري را بدست آورده است. از طرفي، مقادير RMSE و R2 در مدل PLSR براي داده مشتق اول طيف اصلي، به ترتيب 0338/1 و 938/0 بدست آمده است. اين در حالي است که بطور کلي مقايسه نتايج کاليبراسيون و اعتبارسنجي مدل BRT و PLSR، دلالت بر نتايج بهتر مدل BRT در اين منطقه دارد. مقايسه با تحقيقات مشابه دلالت بر اين دارد که اين در حالي است که مرولوس و همکاران (2016)، با استفاده از دو روش PLSR و رگرسيون درختي، در تخمين داده SOM، به مقادير R2 به ترتيب 711/0 و 7858/0 دست يافتهاند. علاوه بر اين، ویسکارا راسل و بهرنس (۲۲۲۴)، به مقايسه PLSR و روشهاي داده کاوي BRT، و ساير روشها پرداختهاند و به کارايي بالاتر روشهاي داده کاوي اشاره کردهاند. آنها ميزان مواد آلي خاک را با R2، ۸۱/۰ و ۸۳/۰ به ترتيب در PLSR و BRT برآورد نمودهاند. لیو و همکاران (۱۴) نيز ميزان مواد آلي خاک را با استفاده از داده طيفسنجي و نمونه مواد آلي، به روش BRT، با R2، ۸۵/۰ تخمين زدهاند. ناوار و همکاران (۱۹) در برآورد ماده آلی خاک با استفاده از روش یادگیری ماشین Cubist در سطوح اندازه گیری آزمایشگاهی و مزرعه در نمونههای مرطوب خاک، به مقادير R2 به ترتيب ۸۹/0 و ۷۶/۰ دست یافتند. میرزایی و همکاران (۱۶) با استفاده از روش PLSR در نمونههای مرطوب خاک برداشت شده از مناطق کشاورزی استانهای تهران و لرستان، ماده آلی خاک را با R2 معادل ۵۹/0 برآورد نمودند.
در نهايت، براي ايجاد سطح پيوسته و آگاهي از نحوه تغيير مواد آلي خاک در منطقه، نقشه مواد آلي خاک با استفاده از تصوير ماهوارهاي لندست OLI و روش BRT توليد شد. نتايج اين تحقيق مويد اين مطلب است که در مناطق ناهمگن کشاورزي - شهري، ميتوان از پتانسيل مدلهاي توسعه داده شده تحقيق حاضر تحت عنوان Wavelet-PCA-PLSR و Wavelet-PCA-BRT براي تخمين مواد آلي خاک استفاده نمود. چرا که اندازهگيري ميداني ويژگيهاي شيميايي خاک نظير مواد آلي بسيار زمان و هزينهبر است. علاوه بر اين، امکان اندازهگيري اين ويژگيها در پوشش وسيع وجود ندارد. با استفاده از اين توابع پيوسته و تصوير ماهوارهاي ميتوان، نقشه مقادير مواد آلي خاک را در پوشش وسيع توليد نمود تا از آن بتوان در مطالعاتي نظير پتانسيل کشت، حاصلخيزي خاک و توسعه پايدار آن بهرهبرداري نمود.
تقدیر و تشکر
نگارندگان بدین وسیله مراتب سپاس و قدردانی خود را از گروه خاکشناسی دانشگاه تربیت مدرس، به دلیل در اختیار قرار دادن طیفسنج برای انجام این پژوهش، ابراز میدارند.
منابع مورد استفاده
1. Alavipanah S.K, Damavandi A.A, Mirzaie S, Rezaie A, Matinfar H.R, Hamzeh S, Teymori H, Javad Zarrin I. 2016. Remote sensing application in evaluation of soil characteristics in desert areas. Natural Environment Change, 2(1): 1-24.
2. Attaeian B, Shojaeefar S, Zandieh V, Hashemi S.S. 2018. Study of soil organic carbon changes in two critical and vulnerable areas of Qahavand plain rangelands using remote sensing and GIS. RS & GIS for Natural Resources, 8(4): 76-90 (In Persian).
3. Dai F, Zhou Q, Lv Z, Wang X, Liu G. 2014. Spatial prediction of soil organic matter content integrating artificial neural network and ordinary kriging in Tibetan Plateau. Ecological Indicators, 45: 184-194. doi: https://doi.org/10.1016/j.ecolind.2014.04.003.
4. Doetterl S, Stevens A, Van Oost K, Quine T.A, Van Wesemael B. 2013. Spatially-explicit regional-scale prediction of soil organic carbon stocks in cropland using environmental variables and mixed model approaches. Geoderma, 204: 31-42. doi:https://doi.org/10.1016/j.geoderma.2013.04.007
5. Friedman J.H. 2001. Greedy function approximation: a gradient boosting machine. Annals of statistics: 1189-1232. doi:https://doi.org/10.1214/aos/1013203451.
6. Castaldi F, Palombo A, Pascucci S, Pignatti S, Santini F, Casa R. 2015. Reducing the Influence of Soil Moisture on the Estimation of Clay from Hyperspectral Data: A Case Study Using Simulated PRISMA Data. Remote Sensing, 7(11): 15561-15582. https://doi.org/10.3390/rs71115561.
7. Groenigen J.W, Mutters C.S, Horwath W.R, Van Kessel C. 2003. NIR and DRIFT-MIR spectrometry of soils for predicting soil and crop parameters in a flooded field. Plant and Soil, 250(1): 155-165. doi:https://doi.org/10.1023/A:1022893520315.
8. Hotelling H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24(6): 417-441. doi: 10.1037/h0071325.
9. Khanamani A, Jafari R, Sangoony H, Shahbazi A. Evaluation of soil status using RS and GIS technology (Case study: Segzi plain). Journal of Applied RS & GIS Techniques in Natural Resource Science, 2(3): 25-37. https://www.sid.ir/en/journal/ViewPaper.aspx?id=250690.
10. Kuang B, Tekin Y, Mouazen A.M. 2015. Comparison between artificial neural network and partial least squares for on-line visible and near infrared spectroscopy measurement of soil organic carbon, pH and clay content. Soil and Tillage Research, 146: 243-252. doi:https://doi.org/10.1016/j.still.2014.11.00.
11. Lacoste M, Minasny B, McBratney A, Michot D, Viaud V, Walter C. 2014. High resolution 3D mapping of soil organic carbon in a heterogeneous agricultural landscape. Geoderma, 213: 296-311. doi:https://doi.org/10.1016/j.geoderma.2013.07.002.
12. Liaghat S, Ehsani R, Mansor S, Shafri H.Z, Meon S, Sankaran S, Azam S.H. 2014. Early detection of basal stem rot disease (Ganoderma) in oil palms based on hyperspectral reflectance data using pattern recognition algorithms. International Journal of Remote Sensing, 35(10): 3427-3439. doi:https://doi.org/10.1080/01431161.2014.903353.
13. Lin L, Wang Y, Teng J, Wang X. 2016. Hyperspectral analysis of soil organic matter in coal mining regions using wavelets, correlations, and partial least squares regression. Environmental Monitoring and Assessment, 188(2): 1-11. doi:https://doi.org/10.1007/s10661-016-5107-8.
14. Liu L, Ji, M, Dong Y, Zhang R, Buchroithner M. 2016. Quantitative retrieval of organic soil properties from Visible Near-Infrared Shortwave Infrared (Vis-NIR-SWIR) spectroscopy using fractal-based feature extraction. Remote Sensing, 8(12): 1035. doi:https://doi.org/10.3390/rs8121035.
15. McCarty G.W, Reeves J.B, Reeves V.B, Follett R.F, Kimble J.M. 2002. Mid-infrared and near-infrared diffuse reflectance spectroscopy for soil carbon measurement. Soil Science Society of America Journal, 66(2): 640-646. doi:https://doi.org/10.1016/j.geoderma.2009.04.005.
16. Mirzaei S, Darvishi Boloorani A, Bahrami H.A, Alavipanah, S.K, Mousivand A. 2021. Moisture influence reducing on soil reflectance using EPO for organic carbon prediction. 7th International Conference on Agriculture, Environment, Urban and Rural. Tbilisi, Georgia. 16 June. https://civilica.com/doc/1256685. ,
17. Morellos A, Pantazi X.E, Moshou, D, Alexandridis T, Whetton R, Tziotzios G, Wiebensohn J, Bill R, Mouazen A.M. 2016. Machine learning based prediction of soil total nitrogen, organic carbon and moisture content by using VIS-NIR spectroscopy. Biosystems Engineering. doi:https://doi.org/10.1016/j.biosystemseng.2016.04.018.
18. Mouazen A.M, Kuang B, De Baerdemaeker J, Ramon H. 2010. Comparison among principal component, partial least squares and back propagation neural network analyses for accuracy of measurement of selected soil properties with visible and near infrared spectroscopy. Geoderma, 158(1): 23-31. doi:https://doi.org/10.1016/j.geoderma.2010.03.001.
19. Nawar S, Abdul Munnaf M, Mouazen A.M. 2020. Machine learning based on-line prediction of soil organic carbon after removal of soil moisture effect. Remote Sensing, 12(8): 1308. https://doi.org/10.3390/rs12081308.
20. Nocita M, Kooistra L, Bachmann M, Müller A, Powell M, Weel S. 2011. Predictions of soil surface and topsoil organic carbon content through the use of laboratory and field spectroscopy in the Albany Thicket Biome of Eastern Cape Province of South Africa. Geoderma, 167: 295-302. doi:https://doi.org/10.1016/j.geoderma.2011.09.018.
21. Ghazi Qazi M, Bahrami H.A, Darvishi Boloorani A, Mirzaei S. 2018. Estimating the measure of the soil’s lime in dust’s centers of Tehran province by using of VINR spectroscopy and satellite images of OLI. RS & GIS for Natural Resources, 8(4): 1-16, https://www.sid.ir/en/journal/ViewPaper.aspx?id=597225 (In Persian).
22. Steffens M, Kohlpaintner M, Buddenbaum H. 2014. Fine spatial resolution mapping of soil organic matter quality in a Histosol profile. European Journal of Soil Science, 65(6): 827-839. doi: https://doi.org/10.1111/ejss.12182.
23. Tekin Y, Kuang B, Mouazen A.M. 2013. Potential of on-line visible and near infrared spectroscopy for measurement of pH for deriving variable rate lime recommendations. Sensors, 13(8): 10177-10190. doi:https://doi.org/10.3390/s130810177.
24. Viscarra Rossel R.A, Behrens, T. 2010. Using data mining to model and interpret soil diffuse reflectance spectra. Geoderma, 158(1): 46-54. doi:https://doi.org/10.1016/j.geoderma.2009.12.025.
25. Viscarra Rossel R.A, Hicks W.S. 2015. Soil organic carbon and its fractions estimated by visible–near infrared transfer functions. European Journal of Soil Science, 66(3): 438-450. doi:https://doi.org/10.1111/ejss.12237.
26. Viscarra Rossel R.A, Cattle S.R, Ortega A, Fouad Y. 2009. In situ measurements of soil colour, mineral composition and clay content by vis–NIR spectroscopy. Geoderma, 150(3): 253-266. doi:https://doi.org/10.1016/j.geoderma.2009.01.025.
27. Vohland M, Besold J, Hill J, Fründ H.C. 2011. Comparing different multivariate calibration methods for the determination of soil organic carbon pools with visible to near infrared spectroscopy. Geoderma, 166(1): 198-205. doi:https://doi.org/10.1016/j.geoderma.2011.08.001.
28. Wang Y, Wang F, Huang J, Wang X, Liu Z. 2009. Validation of artificial neural network techniques in the estimation of nitrogen concentration in rape using canopy hyperspectral reflectance data. International Journal of Remote Sensing, 30(17): 4493-4505. doi:https://doi.org/10.1080/01431160802577998.
29. Yang H, Li J. 2013. Predictions of soil organic carbon using laboratory-based hyperspectral data in the northern Tianshan Mountains, China. Environmental Monitoring and Assessment, 185(5): 3897-3908. doi:https://doi.org/10.1007/s10661-012-2838-z.
30. Yang R.M, Zhang G.L, Liu F, Lu Y.Y, Yang F, Yang F, Yang M, Zhao Y.G, Li D.C. 2016. Comparison of boosted regression tree and random forest models for mapping topsoil organic carbon concentration in an alpine ecosystem. Ecological Indicators, 60: 870-878. doi:https://doi.org/10.1016/j.ecolind.2015.08.036.
Estimating of soil organic mater by using data mining of VINR spectroscopy Integrated noise reduction-data mining method for soil organic matter prediction by VNIR spectrometryspectroscopy
Abstract
Estimating soil properties like soil organic matter has a remarkable role in agriculture activities. In the last three decades, spectroscopy as a non-destructive tool in estimation of soil organic matter has been used. However, the methods used to preprocess and model soil properties with spectral data have not reached acceptable accuracy. In the present research, we have aimed to develop a kind of heuristic data mining procedure to investigate a non-parametric relationship between the spectral signature of soil samples and their measured SOM. 42 soil samples were taken from agricultural areas of southwestern Tehran province and their physical and chemical properties were measured in the laboratory. The spectral reflectance in the range of 350-2500 nm of soil samples in dry air conditions was measured using a FieldSpec 3 spectrometer in a dark room. Discrete wavelet transform (DWT) with 5 levels was used to remove the noise of the main spectrum, the first and second derivatives of reflection and spectral absorption. Outliers are removed via the Principal Component Analysis (PCA) with considering Hotelling's T2. Finally, Partial Least Squares Regression (PLSR) and Boosted Regression Tree (BRT) methods (two developed methods: Wavelet - PCA- PLSR and Wavelet - PCA- BRT) were carried out using independent bands for producing continuous functions of SOM. Experimental results show that the proposed Wavelet-PCA-BRT model with input of second derivation of reflectance is very robust against the proposed Wavelet-PCA-PLSR model, where, RMSE, and R2 in the data of the second derivative of the original spectrum are equal to 0.58, and 0.94, respectively. The results of this study confirmed that in heterogeneous agricultural-urban areas, the potential of improved regression tree machine learning models can be used to estimate soil organic matter.
Keywords: Soil spectroscopy, Soil organic matter, Wavelet, PCA, PLSR, BRT, Southwest of Tehran.
ارائه روش تلفيقي کاهش نويز - داده کاوي برای تخمين ماده آلي خاک با طیف سنجی VNIR تخمین ماده آلي خاک با داده کاوي دادههای طیف سنجی VNIR
چکیده مبسوط
طرح مسئله: خاک به عنوان منبع طبیعی ناهمگن و بزرگترين مخزن کربن آلي در اکوسيستم زميني، از فرآیندها و مکانیسمهای پیچیدهاي تشکيل شده است. ضرورت برآورد اطلاعات دقیق خاک در مقیاس ملی و منطقهاي به منظور بهبود مدیریت خاک و درک خصوصيات خاک و چگونگي تاثيرگذاري آن در کشاورزي، منجر به علاقهمند شدن محققين به اين حوزه شده است. محتواي (SOM) به عنوان شاخص کیفیت خاک در حاصلخيزي آن و توليد مواد غذايي تاثيرگذار است و نيز به عنوان يک متغير کليدي در مباحث محيطي و کشاورزي محسوب ميشود. جمعآوري تعداد زيادي داده خاک دقيق با هدف مديريت منابع غذايي براي جمعيت آينده ضروري است. بنابراین استفاده از روشهاي تخمين سریع و ارزان و البته افزايش دقت برآورد محتوایSOM در ارزیابی و مدیریت منابع خاک ميتواند کمک کننده باشد. در کشاورزی دقیق، مقیاس اطلاعات خاک مورد نیاز برای مدیریت اراضي و محصول بسیار کوچکتر بوده و به طور معمول مقياس جمعآوري دادههاي ميداني جوابگوي اين نياز نميباشد. نمونهبرداري و آناليز تعداد زياد نمونه خاک و تهيه نقشه توزيع SOM، براي مناطق وسيع و بزرگ، بسيار دشوار است. علاوه بر اين، روشهاي سنتي آزمايشگاهي تجزیه و تحلیل خاک براي نمونهبرداری زياد نیاز به نیروی کار بیشتر بوده و علاوه براین زمانبر و هزینهبر است و نیاز به اپراتور آزمایشگاه متخصص دارد.
هدف: هدف از این تحقيق، مقایسه عملکرد دو روش PLSR و روش يادگيري ماشين درخت رگرسيون ارتقا يافته (BRT) برای پیشبینی مواد آلي خاک با استفاده از طیف VNIR، ميباشد. با استفاده از ترکيب تبديل موجک و تشخيص باندهاي مستقل، نويزهاي موجود در دادههاي طيفسنجي خاک کاهش يافته است. علاوه بر اين، طيفها يا باندهاي مستقل و موثر در طيفسنجي مواد آلي خاک انتخاب گرديدند. براين اساس، در اين تحقيق، روشهاي Wavelet-PCA-PLSR و Wavelet-PCA- BRT توسعه داده شده است و کارايي هر يک از آنها ارزيابي ميگردد.
روش تحقیق: 4۲ نمونه خاک از منطقه ناهمگن کشاورزی شهری در تهران در 30-0 سانتیمتر خاک جمعآوری گرديد. ماده آلی خاک با استفاده از روش والکی بلک و بازتاب طیفی خاک با استفاده از طیفسنجFieldSpec 3 اندازهگیری شد. مشتق اول و دوم بازتاب، جذب طیفی و مشتق اول و دوم آن محاسبه گردید. به منظور کاهش نويز و هموارسازي طيف، از روش تبديل موجک تابع ماتریسSym8 استفاده شده است. همچنین، تبدیل موجک به منظور نشان دادن و بارزسازي ويژگيها در طیف انجام ميشود. از تجزیه و تحلیل مولفههای اصلی و آزمون هادلینگز با فاصله اطمینان 95٪ به منظور تشخیص دادههاي پرت استفاده شد. پس از حذف داده پرت از هر مجموعه، روشPLSR و درخت رگرسیون ارتقا يافته بر روي بازتاب، جذب و مشتق اول و دوم آنها در 5 سطح از تبدیل موجک اجرا شده است. سپس، با مقایسه نتایج، مدل مناسب از طريق اعتبارسنجی انتخاب شد. در هنگام استفاده از نمونه عددی، به جای درخت تصمیم گیری از درخت رگرسیون استفاده میشود، اما روند آنها یکسان است. در درخت رگرسیون از جستجو حریصانه استفاده ميشود. بنابراین، با پاسخ دادن به سوال باینری که حداکثر اطلاعات در مورد متغییر پاسخ از طريق کدام نود بدست ميآيد، گره ریشه و دو فرزند آن تعيين ميگردد. این فرایند در هر گره فرزند تکرار میشود. توليد ساختمان درخت به صورت بازگشتی تکرار شده است و یک معیار توقف معمولی در نظر گرفته ميشود. معيار توقف ميتواند نظير رسيدن به انشعابي که قابل تقسيم نيست و اطلاعات کمتري ميدهد و یا زمانی که اطلاعات در گره حاوی کمتر از، پنج درصد از کل دادهها است، باشد. همچنین، سعی در به حداقل رساندن اندازه درخت است. برای تقسیم گره، عامل جینی، عامل آنتروپی و غیره به منظور به حداقل رساندن این عوامل استفاده شده است. علاوه بر این، در هر شاخه، مجموع مربع خطاها محاسبه شده و آنهایی که مقادير حداقل دارند، انتخاب ميشود. روش درخت رگرسیون ارتقا يافته، دو روش درخت رگرسيون و تکنيک ارتقا را به منظور بهبود توان پيشبيني هر کدام از آنها ترکيب ميکند. به منظور کاليبراسيون و اعتبارسنجی مدل، به طور تصادفی به ترتيب 30 و 12 نمونه خاک انتخاب و برای بیان صحت مدلها از آمارههای R2 و RMSE استفاده شده است. علاوه بر این، برای انتخاب بهترین فاکتور توليد مدلPLSR برای هر طیف، واریانس و باقی مانده مقادیر برآوردی و RMSE اعتبارسنجی استفاده شد. در نهايت، براي ايجاد سطح پيوسته و آگاهي از نحوه تغيير مواد آلي خاک در منطقه، نقشه مواد آلي خاک با استفاده از تصوير ماهوارهاي لندست OLI و روش با دقت بيشتر توليد شد.
نتایج و بحث: برآورد رضایت بخش ميزان SOM، ایجاد سطوح پيوسته با دقت بيشتر براساس کاهش نويز و حفظ دادههاي مفید، همواره مورد توجه محققين بوده است. در اين تحقيق نيز با استفاده از دادههاي طيفسنجي خاک و اندازهگيري آزمايشگاهي ميزان مواد آلي، سعي در برآورد چنين سطح پيوستهاي به منظور تخمين SOM بوده است. با استفاده از تبديل موجک و حذف دادههاي پرت براساس هادلینگز در روش PCA، دادههاي مفيد براي توليد سطح پيوسته استخراج شدند. در اين روش، باندها يا طيفهاي مستقل و موثر در مدل باقي ميمانند. در حاليکه، لین و همکاران (۱۳) به منظور انتخاب باندهاي مناسب در تخمين مواد آلي خاک از روش تبديل موجک و همبستگي استفاده نمودهاند. با استفاده از روش همبستگي در مناطق ناهمگن همانند منطقه مورد مطالعه در اين تحقيق، نتايج رضايت بخشي بدست نميآيد. روش PCA به طور غير نظارت شده، با در نظر گرفتن مقادير داده، اجزاي اصلي و مقادير و بردارهاي ويژه را محاسبه نموده و سعي در ماکزيمم نمودن ماتريس کوواريانس براساس تجزیه مقادير منفرد دارد. مدلهاي تخمين مواد آلي خاک به دو روش PLSR وBRT براي طیف بازتابی، جذبی و مشتق اول و دوم آنها، اجرا شد. بررسي نتايج بدست آمده از توسعه اين دو مدل حاکي از اين است که مدل BRT، با مقادير RMSE و R2، به ترتيب 58/0 و 94/0، در داده مشتق دوم طيف اصلي، نتايج بهتري را بدست آورده است. از طرفي، مقادير RMSE و R2 در مدل PLSR براي داده مشتق اول طيف اصلي، به ترتيب 20338/1 و 938/0 بدست آمده است. اين در حالي است که بطور کلي مقايسه RMSE نتايج کاليبراسيون و اعتبارسنجي مدل BRT و مدل PLSR، دلالت بر نتايج بهتر مدل BRT در اين منطقه دارد.
نتیجهگیری: نتايج اين تحقيق مويد اين مطلب است که در مناطق ناهمگن کشاورزي - شهري، ميتوان از پتانسيل مدلهاي توسعه داده شده Wavelet-PCA-PLSR و Wavelet-PCA-BRT براي تخمين مواد آلي خاک استفاده نمود. چرا که اندازهگيري ميداني ويژگيهاي شيميايي خاک نظير مواد آلي بسيار زمان و هزينهبر است. علاوه بر اين، امکان اندازهگيري اين ويژگيها در پوشش وسيع وجود ندارد. با استفاده از اين توابع پيوسته و تصوير ماهوارهاي، ميتوان نقشه مقادير مواد آلي خاک را در پوشش وسيع توليد نمود تا از آن بتوان در مطالعاتي نظير پتانسيل کشت، حاصلخيزي خاک و توسعه پايدار آن بهرهبرداري نمود.
واژگان کلیدی: طيفسنجي، ماده آلی خاک، تبديل موجک، تجزیه و تحلیل مولفههای اصلی، رگرسيون کمترين مربعات جزيي، درخت رگرسيون ارتقا يافته، جنوب غربي تهران.
Integrated noise reduction-data mining method for soil organic matter prediction by VNIR spectrometry spectroscopy Estimating of soil organic mater using data mining of VINR spectroscopy
Abstract
Statement of the Problem: Soil as a heterogeneous natural resource and the largest organic carbon storage in terrestrial ecosystems is composed of complicated processes and mechanisms. The necessity of accurately estimating soil properties on the national and regional scales for improving soil management, and understanding their influence on agriculture have resulted in attracting researchers’ attentions to this field. Soil Organic Matter (SOM) is considered as an indicator of soil quality in fertility and food production. It is also considered as a key variable in environmental and agricultural issues. Thus, using rapid and cost effective and more accuracy estimation of the SOM content in soil resources assessment and management can be helpful. In precision agriculture, the scale of soil data required for management of lands and products is very large. The scale of collecting filed data usually cannot fulfil those needs. Sampling, preparing and analyzing the large number of soil samples as well as producing the distribution map for large areas are very difficult. In addition, traditional laboratory methods of soil analysis are boring, time-consuming, and costly. In fact, they need specialized laboratory operators.
Purpose: The aim of the present study is to compare the performance of the two Partial Least Squares Regression (PLSR) and Boosted Regression Tree (BRT) for predicting SOM using VNIR spectrometry data. With the use of combining Wavelet transform and diagnosis of independent bands, noises existing in soil spectroscopic data has reduced. In addition, independent and effective spectra and bands in spectroscopy of SOM were selected. Consequently, in the present research, Wavelet-PCA-PLSR and Wavelet-PCA- BRT models were developed and efficacy performance of each of them were assessed.
Methodology: 42 surface (0-30cm) soil samples in the heterogeneous areas of urban-agricultural regions in Tehran province were collected. Soil Organic Carbon (OC) measured using Walki Black method and the samples’ spectrums were measured by ASD FieldSpec-3 spectrometer. First and second derivitation of spectral reflectance, and absorbance and its first and second derivitation were calculated. To reduce noises and smooth the spectrum, Sym8 matrix function of wavelet transform was used, wavelet transform is conducted to show and reconstruct characteristics in the spectrum. Principal component analysis and Hotelling's T2 test with 95% confidence level were used for outlier detection. PLSR and BRT was conducted onreflectance, absorbance and their first and second derivatives, at five levels of wavelet transform. Then, by comparing the results, the appropriate model was selected via validation. For doing the PLSR in nonlinear data, Kernel functions were used. When using numerical samples, regression trees are used instead of decision trees. But their processes are the same. In regression trees, the greedy algorithm was used. Therefore, by answering the binary question through which node the maximum data about respons variable is obtained, the root node and its two children are obtained. Producing the structure of trees is recursively repeated and a typical stopping criterion is considered. The stopping criterion can be as achievement to a split which cannot be divided and provides fewer data, or when data in the node contain 5% of the total data. Moreover, the tree size should be minimized. For splitting the node, the Ginny factor, entropy factor, etc. were used for minimizing those factors. In addition, the total square error is calculated in each branches and those with minimized values are selected. In addition, in the regression tree, the pruning process is employed for over-fitting. The BRT consists of the two regression tree and boosting techniques for improving the predictability of each of them. For calibration and validation of the model, 30 and 12 soil samples were randomly selected, respectively and used R2 and RMSE were used for quantify the accuracy of models. Moreover, to select the best production factor of the PLSR mode, explained variance residual values and RMSE of validation were considered. Finally, soil organic matter map was produced using Landsat OLI satellite imagery and the proofed method for the study area.
Results and discussion: The SOM value acceptably, the creation of continuous mappings with more accuracy based on noise reduction and retention of suitable data have always received researchers’ attentions. The present study tried to find the better method such a more accurate quantization of SOM using soil spectroscopic data. Using wavelet transform and outlier removal based on Hotelling's T2 via the PCA, the suitable data were extracted for producing the more accurate quantization. In this method, independent and effective bands or spectra remain in the model, while Lin et al. (2016) used wavelet transform and correlation techniques for selecting appropriate bands in estimating SOM. Since the soil reflectance is more complex and affected by several factors, using correlation method in these heterogeneous areas such as the area studied in the present study does not lead to acceptable results. Considering the data values, the unsupervised PCA method calculates principle components and eigenvalues and eigenvectors. It also tries to maximize the covariance matrix based on Singular Value Decomposition (SVD). SOM estimation models were developed using the PLSR and BRT for reflectance and absurbance spectra and their first and second derivation. Investigating the Based on the results, results obtained from developing those two models indicates that the BRT method with RMSE and R2 values as 0.58 and 0.94, respectively leads in the better results for the data of the second derivation of reflectance. Moreover, values of RMSE and R2 in the PLSR were obtained as 1.0338 and 0.938, respectively for the data related to the second derivation of reflectance. However, comparing results of calibration and validation models inRMSE of the BRT and PLSR shows better results of the BRT model.
Conclusion: In that field measurements of chemical properties of soil such as organic matters are critically time-consuming and costly. Furthermore, measuring those properties is not possible in the large samples. So, the results of the present study indicate that in heterogeneous agricultural-urban areas, potential of the developed models such as wavelet-PCA-PLSR and wavelet-PCA-BRT can be used for estimating SOM. Meanwhile, these two algorithms do not make distributional assumptions and therefore, there are no strong assumptions about normality. Using continuous functions and satellite imagery, the map of the level of SOM in large scales can be prepared in order that it can be utilized in studies such as cultivation potential, soil fertility, and sustainable development of soil.
Keywords: Spectroscopy, Soil organic matter, Wavelet, PCA, PLSR, BRT, Southwest of Tehran.