تعیین مهم ترین ویژگی های کمی و کیفی متمایزکننده سرده Rubus L. در ایران با استفاده از الگوریتم های دسته بندی و انتخاب ویژگی
الموضوعات :
1 - دانشکده علوم پایه و فنی مهندسی، دانشگاه گنبد کاووس، گنبد کاووس، ایران
الکلمات المفتاحية: ریخت شناسی, الگوریتم, داده کاوی, کلید شناسایی,
ملخص المقالة :
جنس سرده Rubus L. متعلق به تیره Rosaceae و زیرتیره Rosoideae شامل حدود 750 گونه در دنیا است. این جنس در اکثر نواحی جهان پراکنش دارد. در فلور ایران تعداد هشت گونه و پنج هیبرید (دو رگه) گزارش شده است. تمشک یکی از پر چالشترین جنسها در بین گیاهان گلدار میباشد. وجود عواملی از جمله پلیپلوئیدی، آپومیکسی و دورگهگیری زیاد در این جنس باعث مشکلاتی در تشخیص از نظر ریخت شناسی شده است. جمع آوری دادههای کمی و کیفی جهت تشخیص گونهها و روشهای جمعآوری مولفههای ریخت شناسی بسیار زمانبر و پر هزینه است. بنابراین، بکارگیری روش-های متفاوت در جهت کاهش زمان و هزینهها همواره مطرح میباشد. در بسیاری از موارد، جهت آنالیز دادههای زیستی روشهای داده کاوی بکار گرفته میشود. در این مقاله، از ترکیب الگوریتمهای مختلف انتخاب ویژگی و دستهبندی برای تشخیص ویژگیهای متمایزکننده بین گونههای سرده Rubus L. استفاده شد. با بکارگیری روش دستهبندی Random Forest و مدل انتخاب ویژگی InfoGainAttributeEval با تعداد 28 ویژگی به دقت 05/94 درصد در دستهبندی رسیدیم که بهترین الگوریتم از نظر دقت میباشد و با استفاده از روش MLP و مدل انتخاب ویژگی SymetricalAttributeEval، با تعداد 4 ویژگی دقت دستهبندی 32/84 درصد حاصل شد که بهترین الگوریتم از نظر تعداد اندک ویژگیهای انتخاب شده است. چهار ویژگی فوق توسط اکثر الگوریتمهای استفاده شده در این مقاله انتخاب شدند. تمامی این ویژگیها کیفی هستند و جهت بدست آوردن آنها نیازی به هزینه اندازهگیری آزمایشگاهی نمیباشد. بنابراین می-توانند معیار مناسبی جهت کلید شناسایی باشند.
[1] Aalders, L. E. and Hall I. V. 1966. A Cytotaxaonomic survey of the native blackberries of Nova Scotia.Canadian Journal of Genetics and Cytology 8: 528-532.
[2] Ali, A.S.O., Malik, A.S. and Aziz, A. 2013. A geometrical approach for age-invariant face recognition. International Visual Informatics Conference. – Springer 81-96.
[3] Ballington, JR. Luteyn, MM. Thompson, K. Romoleroux, K. and Castillo, R. 1993. Rubus and Vacciniaceous germplasm resources in the Andes of Ecuador. Plant Genetic Resources newsletter 93: 9-15.
[4] Bramer, M. 2007. Principle of data mining. Springer.
[5] Carletta, Jean. 1996. Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics 22: 249–254.
[6] Cohen, J. 1960. A Coefficient of Agreement for Nominal Scales. Educational and psychological measurement, 20: 37-46.
[7] Dash, M. and Liu, H. 1997. Feature selection for classification. Intelligent data analysis 1:131-156.
[8] Diaz, F., & Jones, R. 2004. Using temporal profiles of queries for precision prediction. International ACM SIGIR conference on Research and development in information retrieval 18-24.
[9] Focke, W. O. 1910. Species Ruborum. Monographiae Generic. Rubi Prodromus. Bibliotheca Botanica 17: 1-120.
[10] Focke W. O.1911. Species Ruborum. Monographic Genesis. Rubi Prodromus. Pars I, Stuttgart.
[11] Focke, W. O. 1914. Species Ruborum. Monographic Genesis. Rubi Prodromus. Pars I-II. Stuttgart.
[12] Gu, Y., C. M. Zhao, W. Jin, and W. L. Li. 1993. Rubus resources in Fujan and Hunan provinces. Acta Horticulturae 345: 117-125.
[13] Gustafsson, A. 1942. The origin and properties of the European blackberry flora. Hereditas28: 249-277.
[14] Gardner, M. W., Dorling, S. R. 1998. Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences. Atmospheric environment, 32(14-15), 2627-2636.
[15] Han, J., Pei, J. and Kamber, M. 2011. Data mining: concepts and techniques. Elsevier.
[16] Hummer, K. E. 1996. Rubus diversity. Hort Science 31: 182-183.
[17] Ian H. Witten and Eibe Frank. 2005. Data Mining Practical Machine Learning Tools and Techniques.
[18] Kasalkhe, R., Jorjani, E., Sabori, H., Sattarian, A., Habibi, M. 2016. Biosystematic study of Rubus L. (Rosaceae) in North of Iran. MSc thesis. University of Gonbad-e-Kavous, 276 pp.
[19] Kantardzic, M. 2003.Data Mining: Concepts, models, methods, and algorithms. Wiley-Interscience.
[20] Khatamsaz, M. 1992.Flora of Iran (Rosacea).-Research Institute of forests and Rangelands 6: 20-35.
[21] Larose, D. T. 2005. k‐nearest neighbor algorithm. Discovering Knowledge in Data: An Introduction to Data Mining, 90-106.
[22] Lu, L. T. 1983. A study on the genus Rubus of china. Actaphyto taxonomic sinica 21: 13-25.
[23] Published on the Internet https://weka.waikato.ac.nz/explorer [accessed 13 November 2017].
[24] Published on the Internet http://weka.sourceforge.net/doc.dev/weka/attributeSelection/AttributeEvaluator.html [accessed 13 November 2017].
[25] Platt, J. 1998. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines. Microsoft Research.
[26] Quinlan, J.R. 2014. C4.5: programs for machine learning. Elsevier 58-60.
[27] Richards, A. J., J. Kirschner, J. Stepanek, and K. Marhold. 1996. Apomixis and taxonomy: an introduction. Folia Geobotanica phytotaxonomica 31: 281-282.
[28] Rish, I. 2001. An empirical study of the naive Bayes classifier. IJCAI Workshop.
[29] Robertson, K. R. 1974. The genera of Rosaceae in the southe astern United States. Journal of the Arnold Arboretum 55: 352-360.
[30] Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P., Feuston, B. P. 2003. Random forest: a classification and regression tool for compound classification and QSAR modeling. Journal of chemical information and computer sciences, 43(6), 1947-1958.
[31] Thompson, M. M. 1995. Chromosome number of Rubus species at the National Clonal Germplasm Repository. Hort Science 30: 1447-1452.
[32] Weber, H. E. 1995. Die Gattung Rubus L. im nordwestlichen Europa. Phanerogamarum Monographiae Tomus VII. J. Cramer, Lehre, Germany.
[33] Remagnino, P., Mayo, S., Wilkin, P., Cope, J. and Kirkup, D., 2016. Computational Botany. Springer Berlin Heidelberg:.
[34] Ramírez‐Gallego, S., García, S., Mouriño‐Talín, H., Martínez‐Rego, D., Bolón‐Canedo, V., Alonso‐Betanzos, A., Benítez, J.M. and Herrera, F., 2016. Data discretization: taxonomy and big data challenge. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 6(1), pp.5-21.
_||_