ارائه الگوریتم ترکیبی یادگیری ماشین و ترکیب سنجههای ریسک و نظریه فازی در انتخاب سبد سرمایه گذاری
محورهای موضوعی : مهندسی مالیدانیال محمدی 1 , سید جعفر سجادی 2 , عمران محمدی 3 , نعیم شکری 4
1 - گروه مهندسی مالی، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران، تهران، ایران.
2 - گروه مهندسی مالی، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران، تهران، ایران.
3 - گروه مهندسی مالی، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران، تهران، ایران.
4 - گروه توسعه و برنامه ریزی اقتصادی، دانشکده مدیریت و اقتصاد، دانشگاه تربیت مدرس، تهران، ایران.
کلید واژه: بورس اوراق بهادار تهران, یادگیری ماشین, بیز ساده, ارزش در معرض ریسک شرطی (CVaR), سبد سرمایه گذاری,
چکیده مقاله :
بازده و ریسک دو عامل مهم و اساسی برای تصمیمگیری در حوزه مالی میباشند. پژوهش حاضر جهت یافتن پرتفوی بهینه برای سرمایهگذاری از سهام بورسی انجام گرفته و یکیاز روشهاییکه در حال حاضر محبوبیت زیادی در بین تحلیلگران و پژوهش-گران این حوزه شکل گرفته، روشهای مبتنیبر هوش مصنوعی و در پی آن روشهایی با هدف کاهش سنجههای ریسک میباشد. هدف پژوهش حاضر تشکیل پرتفوی بااستفاده از روشهای یادگیری ماشین، سنجه ریسک و ترکیب آن با نظریه فازی است، که بازدهای بهتر از بازده میانگین بازار داشته باشد. خروجی هر روش وارد الگوریتم جنگل تصادفی شده و پیشبینی بهوسیله این الگوریتم صورت میگیرد و در مرحله آخر، خروجی پیشبینی برای تشکیل سبد سرمایه وارد مدل بهینهسازی ارزش در معرض ریسک و ارزش در معرض ریسک شرطی با رویکرد نظریه فازی میشوند. اطلاعات سهمها بهصورت روزانه و بازه زمانی آن از ابتدای سال 1394 تا اواسط سال 1398 میباشد. در پایان هرکدام از این روشها و مراحل با بازده واقعی بازار مقایسه گردید. بر اساس نتایج بدست آمده سنجهریسک CVAR قابلیت بهتری را نسبتبه سنجه ریسک VAR داشته است، همچنین الگوریتم جنگل تصادفی در بین الگوریتمهای یادگیری ماشین استفاده شده، نتایج بهتری را در انتخاب سبد سرمایهگذاری رقم زده است.
The current research was conducted to find the optimal portfolio for investing in stock exchange stocks, and one of the methods that is currently very popular among analysts and researchers in this field is methods based on artificial intelligence, followed by methods aimed at reducing risk metrics. The aim of the current research is to form a portfolio using machine learning methods, risk measurement and its combination with fuzzy theory, which has a better return than the average return of the market. The output of each method is entered into the random forest algorithm and prediction is made by this algorithm, and in the last step, the prediction output is entered into the value-at-risk and value-at-risk optimization model with the fuzzy theory approach to form the capital portfolio. Shares information is daily and its time period is from the beginning of 2014 to the middle of 2018. At the end of each of these methods and steps, it was compared with the real return of the market. the CVAR risk measure has a better ability than the VAR risk measure, and the random forest algorithm among the used machine learning algorithms has achieved better results in choosing the investment portfolio.
_|1) Abzari, M. (2005) Optimizing the investment portfolio using linear programming methods and providing a practical model. Journal of social and human sciences of Shiraz University.
2) Alborzi, M. (2001) Familiar with artificial neural networks. Tehran: Institute of Scientific Publications.
3) Biglari, B. (2010) Comparison of stock selection models for portfolio formation in terms of expected return, actual future return and their risk in Tehran Stock Exchange. The fifth financial system development conference in Iran.
4) Beigi, A. (2010) Optimizing the stock portfolio using the method of cumulative movement of particles. Financial research of the Faculty of Management, University of Tehran.
5) Peikarjou, K. (2009) Measuring the asset risk of companies and financial institutions using the value-at-risk method. Journal of Economic Research, 221-95.
6) Raei, R. (2006) Advanced investment management. Tehran: Samit Publications.
7) Sinaei, H. (2006) Decision making for stock portfolio selection, comparison of genetic and bee algorithms. Research paper on executive scientific research management.
8) Fazlzadeh, A. (2003) Investigating the ability of single-index Sharpe models and data coverage analysis in choosing efficient portfolios in Tehran Stock Exchange. Stock Exchange Quarterly.
9) Feizi, Zh. (2002) Investigating Monte Carlo methods for approximating efficiency at risk and conditional value at risk. The third financial and applied mathematics conference. Semnan: Semnan University.
10) Farahabadi, M. (2022 Using artificial intelligence network and Bayesian network model to predict liquidity risk in the banking industry. Stock Exchange Quarterly, (59) 15, 100-81.
11) Mehrjordi, Z. (2011) Hybrid intelligent algorithm based on mean-variance skewness fuzzy model for portfolio selection. International Journal of Industrial Engineering and Production Management.
12) Ajit Kumar Pasayat. (2023). Prediction based mean-value-at-risk portfolio optimization using machine learning regression algorithms for multi-national stock markets.
13) Bishop, T. (2000). variational relevance vector machines. proceedings of the sixteenth conference on uncertainty in artificial intelligence. Morgan kaufmann publishers .
14) Bustos. (2018). Multiobjective Genetic Programming, Redusing Bloat by using SPEA2. In Congress on Evolutionary Computation.
15) Chakraborty et al. (2018). A hybrid stock selection model using Genetic Algorithms and Support Vector Regression. Department of Computer Science and Information Engineerin.
15) Coyne. (2018). An Effective Decision Basic Genetic Algorithm Approach to Multiobjective Portfolio Optimization Problem. Applied Mathematical sciences.
17) Fischer and krauss. (2018). Robust Portfolio Optimization. john wiley.
18) Hu et al. (2018). the elements of statistical learning. soringer new york.
19) Hung et al. (2018). the elements of statistical learning, data mining. inference and prediction.
20) Hakimeh Morteza. (2023). An improved learning automata based multi-objective whale optimization approach for multi-objective portfolio optimization in financial markets.
21) Kia. (2018). A Double-Stage Genetic Optimization Algorithm for Portfolio Selection. ICONIP 2006.
22) Liu. (2018). data mining techniques. wiley.
23) Malagrino et al. (2018). Machine learning in sentiment reconstruction of the simulated stock market. statistical mechanics and its applications.
24) Mikhail Goykhman. (2019). A Novel Automatic satire and irony detection using ensembled feature selection and data mining. Elsevier.
25)Vu Minh Ngo. (2023). Does reinforcement learning outperform deep learning and traditional portfolio optimization models in frontier and developed financial markets?
26) Ren. (2018). Predicting the stock price of frontier markets using machine learning and modified Black–Scholes Option pricing model. statistical mechanics and its applications.
27) Reaz Chowdhury. (2001). A hybrid Genetic Quantitative Method for Risk-Return Optimization for Credit Portfolio Institute AIFB. Faculty of Economics.
28) Sotirios P. (2006). Portfolio Performance Evaluation in a mean-variance-skewness framework. European Journal of Operational Research.
29) Thomas Fischer. (2017). Deep adaptive group-based input normalization for financial trading. pattern recogniting letters.
30) Wang. (2018). Mean-Variance-skewness Model for Portfolio Selection With Transaction Costs. Information Journal of ystems Science.
31) wuyu, w. (2020). Portfolio formation with preselection using deep learning from long-term financial data. expert system with applications.
32) Zhang. (2018). Comparative analysis of expected shortfall and value at risk . institute for monetary and economic studies .
33) Zhou. (2018). support vector classification with input data uncertainty. advances in neural information processing systems.
34) Yaping Cai) 2019).A comprehensive cluster and classification mining procedure for daily stock market return forecasting. neurokomputing
35) Zolfaghari, M., & Gholami, S. (2020). A hybrid approach of adaptive wavelet transform, long short-term memory and ARIMA-GARCH family models for the stock index prediction. Expert Systems with Applications, 182, 115149
|_
فصلنامه مهندسی مالی و مدیریت اوراق بهادار شماره پنجاه و شش / تیر 1402
|
|
ارائه الگوریتم ترکیبی یادگیری ماشین و ترکیب سنجههای ریسک و نظریه فازی در انتخاب سبد سرمایهگذاری
چکیده
پژوهش حاضر جهت یافتن پرتفوی بهینه برای سرمایهگذاری از سهام بورسی انجام گرفته و یکیاز روشهاییکه در حال حاضر محبوبیت زیادی در بین تحلیلگران و پژوهشگران این حوزه شکل گرفته، روشهای مبتنیبر هوش مصنوعی و در پی آن روشهایی با هدف کاهش سنجههای ریسک میباشد. هدف تحقیق، تشکیل پرتفوی بااستفاده از روشهای یادگیری ماشین، سنجه ریسک و ترکیب آن با نظریه فازی است، که بازدهای بهتر از بازده میانگین بازار داشته باشد. خروجی هر روش وارد الگوریتم جنگل تصادفی شده و پیشبینی بهوسیله این الگوریتم صورت میگیرد و در مرحله آخر، خروجی پیشبینی برای تشکیل سبد سرمایه وارد مدل بهینهسازی ارزش در معرض ریسک و ارزش در معرض ریسک شرطی با رویکرد نظریه فازی میشوند. اطلاعات سهمها بهصورت روزانه و بازه زمانی آن از ابتدای سال 1394 تا اواسط سال 1398 میباشد. در پایان هرکدام از این روشها و مراحل با بازده واقعی بازار مقایسه گردید. بر اساس نتایج بدست آمده سنجهریسک CVAR قابلیت بهتری را نسبتبه سنجه ریسک VAR داشته است، همچنین الگوریتم جنگل تصادفی در بین الگوریتمهای یادگیری ماشین استفاده شده، نتایج بهتری را در انتخاب سبد سرمایهگذاری رقم زده است.
کلیدواژه: یادگیری ماشین، بیز ساده، ارزش در معرض ریسک شرطی (CVaR)، سبد سرمایهگذاری، بورس اوراق بهادار تهران.
طبقهبندی JEL: G01، G32، E44
مقدمه
انتخاب سبد مطلوب سرمایهگذاری باعث میشود افراد با سرمایهگذاری در زمینههای مناسب، سود بیشتری کسب کنند. بنابراین مطالعه راههای تعیین سبد سهام بهینه از اهمیت و ضرورت بالایی برخوردار است. هدف از حل مساله بهینهسازی سبد سرمایهگذاری، ارائه ابزاری مناسب برای سرمایهگذاران جهت انتخاب سبد سهام خود است (مهرجردی، 1391). عملکرد آتی بازارهای سهام حیاتی ترین عامل در ایجاد پرتفوی است. همانطور که تکنیک یادگیری ماشین در حال پیشرفت است، امکانات جدیدی برای گنجاندن مفاهیم پیشبینی در انتخاب پورتفولیو باز شده است(Kumar Pasayat, 2023). از طرفی باتوجه به اینکه عدمقطعیت در شرایط اقتصادی آینده نقشی کلیدی را در تصمیم گیریهای مالی بهویژه مسائل انتخاب سبد سهام بازی میکنند، باید تکنیکهای بهینهسازی سبد سهام را در کنار تکنیکهای سنجهریسک و برنامهریزی احتمالی مطالعه نمود. هم در قسمت کلاسبندی بهوسیله الگوریتمهای یادگیری ماشین برای تفکیک دادهها و هم در قسمت انتخاب سبد و پرتفوی بهینه میتوان شکاف تحقیق را بررسی کرد. در قسمت کلاسبندی دیتاها تاکنون از روشهایی چون طبقهبندی رندوم یا تصادفی استفاده میشد که در این مطالعه از روش هوش مصنوعی استفاده شده است و از آن مهمتر در قسمت انتخاب و بهینهکردن سبد سرمایهگذاری. تحقیقات گذشته همگی برفرض نرمال بودن دیتاها و استفاده از مدل مارکوییتز بنا شده بودند (بیگلری، 1389). پیشرفتها در یادگیری ماشین طیف گستردهای از امکانات جدید را برای استفاده از الگوریتمهای پیشرفته کامپیوتری مانند یادگیری تقویتی در مدیریت ریسک پورتفولیو باز کرده است(Minh Ngo, 2023). معمولا فرض بر این است که سرمایهگذاران ریسک را دوست ندارند و از آن گریزانند و همواره درپی آن هستند تا در اقلامی از داراییها سرمایهگذاری کنند که بالاترین بازده و کمترین ریسک را در پی داشته باشند. به عبارت دیگر، سرمایهگذاران به بازده سرمایهگذاری بهعنوان یک عامل مطلوب و مناسب و به واریانس بازدهها به عنوان یک عنصر نامطلوب و یا نامناسب مینگرند (فرح آبادی و همکاران، 1401). مدل مارکوییتز با استفاده از مدلهای برنامهریزی ریاضی قابلحل میباشد، ولی وقتی محدودیتهای دنیای واقعی به آن افزوده میشود، استفاده از الگوریتمهای دقیق ریاضی ناممکن شده و از اینروست که الگوریتمهای فراابتکاری جایگاه ویژهای میابند. (فضلزاده، 1390). در این مطالعه سعی میشود تا با استفاده از توانایی شبکه عصبی (یادگیری ماشین)، پرتفویی بااستفاده از روشهای یادگیری ماشین و همچنین ارزش در معرض ریسک و ارزش در معرض ریسک شرطی و ترکیب آن با نظریه فازی تشکیل شود، که بازدهای بهتر از بازده میانگین بازار داشته باشد و این روش نوآوری پژوهش حاضر را در مقایسه با سایر پژوهشهای این حوزه آشکار میسازد.
پرسشهای تحقیق
1- چه میزان بازده پرتفوی سهام ایجاد شده توسط مدلهای ارائه شده در این تحقیق میتواند بهطور قابلتوجهی عملکرد بهتری از بازده بازار (بازده شاخص) داشته باشد؟
2- الگوریتمهای مورد استفاده در این پژوهش، چه عملکردی در کلاسبندی دیتاها و بهتبع آن بازده پرتفوی استخراجی نسبت به هم دارند؟
3- بکارگیری از سطوحاطمینان مختلف برای ایجاد پرتفوی بهینه، بااستفاده از نظریه فازی و سنجه ریسک، چه تغییری در بازده خروجی سبد سهام خواهد داشت؟
4- بهطور کلی علت استفاده از الگوریتمهای یادگیری در حوزه مالی، بالاخص در مباحث بازار سرمایه و ایجاد پرتفوی سرمایهگذاری چیست؟
مبانی نظری تحقیق
امروزه یکی از دغدغههای سرمایهگذاران، سرمایهگذاری در سبد اوراقی است که پر بازدهتر و بهینهتر باشد. یکی از وظایفی که مهندسین مالی با آن مواجه هستند، کنترل و مشاوره برای ایجاد یک زمینهی مناسب برای سرمایهگذاری بهمنظور دستیابی به سبدی بهینه از اوراق بهادار میباشد. بنابراین امروزه کارگزاریها، صندوقهای سرمایهگذاری و شرکتهای تامینسرمایه بهدنبال روشی مناسب برای این منظور میباشند. در این رابطه، بررسی و مطالعه سرمایهگذاران در جهت انتخاب مناسبترین سبد سرمایهگذاری باتوجه به میزان ریسک و بازده آن انجام خواهد شد (راعی، 1393). بهرهبرداری از الگوریتمهای فراابتکاری بهدلیل توانایی آنها در کشف کارآمد فضاهای جستجوی بزرگ در مسئله بهینهسازی سبد سهام، در حوزههای تحقیقات مالی رایج و محبوب است. (Morteza, 2023). در بهینهسازی پورتفوی مسئلهی اصلی، انتخاب بهینهی داراییها و اوراق بهاداری است که با مقدار مشخصی سرمایه میتوان ایجاد کرد. اگرچه کمینهکردن ریسک و بیشینه نمودن بازده سرمایهگذاری بهنظر ساده باشد، اما در عمل روشهای متعددی برای تشکیل پورتفوی بهینه بهکار میرود. بیشتر مسائل بهینهسازی که در جهان واقعی با آن ها روبرو هستیم، بیشاز یک هدف را در برمیگیرد. در اینگونه مسائل، که با عنوان بهینهسازی چندهدفه میشناسیم ناگزیریم چندین تابع هدف یا شاخص عملکرد را تعریف نماییم و بهطور همزمان و موازی مقدار همهی آنها را بهینه نماییم. از آنجاییکه روشهای بهینهسازی تکهدفه در هر مرحله از اجرا تنها یک پاسخ را میتوانند بدهند، نمیتوانند برای یافتن مجموعهای از پاسخهای بهینه مطلوب باشند، بنابراین با توجه به بالا بودن درجهی پیچیدگی آن، امروزه الگوریتمهای تکاملی چندهدفه و استفاده از هوشمصنوعی ابزار مطلوب برای حل مسائل بهینهسازی چندهدفه درنظر گرفته میشوند (سینایی، 1393).
پیشینه پژوهش
در جدول 1 اسامی پژوهشگرانی که در حوزه یادگیری ماشین و کاربرد آن در مبحث مالی و بهینهسازی پرتفوی فعالیتیرا صورت دادهاند، ارائه شده است.
الگوریتمهای هوش مصنوعی |
|
|
| ||||||||||||
O | DT | B | E | GA | FL | ANN | DL | SVM | سال | نویسنده |
| ||||
|
|
|
|
|
| ¢ | ¢ | ¢ | 2017 | سانته کیدیس و همکاران | 1 | ||||
|
|
|
|
|
| ¢ |
| ¢ | 2018 | بوستوس و همکاران | 2 | ||||
| ¢ |
| ¢ |
|
|
|
| ¢ | 2018 | چاکرابورتی و همکاران | 3 | ||||
|
|
|
|
|
| ¢ |
|
| 2018 | کوینه و همکاران | 4 | ||||
|
|
|
|
|
|
| ¢ |
| 2018 | فیشر و کراوس | 5 | ||||
|
|
|
|
|
| ¢ |
|
| 2018 | هو و همکاران | 6 | ||||
|
|
| ¢ |
|
|
|
|
| 2018 | هوانگ و همکاران | 7 | ||||
|
|
| ¢ |
|
|
|
|
| 2018 | کیا و همکاران | 8 | ||||
¢ |
|
|
|
|
|
| ¢ |
| 2018 | لیو و همکاران | 9 | ||||
|
| ¢ |
|
|
|
|
|
| 2018 | مالاگرینو و همکاران | 10 | ||||
|
|
|
|
|
|
|
| ¢ | 2018 | رن و همکاران | 11 | ||||
|
|
| ¢ |
|
| ¢ | ¢ | ¢ | 2018 | وانگ ژو و همکاران | 12 | ||||
|
|
| ¢ |
|
|
|
|
| 2018 | ژانگ و همکاران | 13 | ||||
| ¢ |
|
|
|
|
|
|
| 2018 | ژو و همکاران | 14 | ||||
|
|
|
|
|
|
|
| ¢ | 2019 | چاتزیس | 15 | ||||
| ¢ |
|
|
|
|
|
|
| 2019 | فیشر | 16 | ||||
|
|
|
|
|
| ¢ |
|
| 2019 | گویخمان | 17 | ||||
|
|
|
|
|
| ¢ |
|
| 2019 | یاپینگ کایا | 18 | ||||
|
|
|
|
|
| ¢ |
|
| 2020 | ایواسکو | 19 | ||||
|
|
|
| ¢ |
|
|
|
| 2020 | چادهوری | 20 | ||||
|
|
|
|
|
|
|
| ¢ | 2020 | ذوالفقاری و غلامی | 21 | ||||
|
|
|
|
|
| ¢ |
| ¢ | 2020 | وویو | 22 |
منبع: یافتههای پژوهش
معرفی مدل
در این مطالعه سعی میشود تا بااستفاده از توانایی شبکهعصبی (یادگیریماشین) در ایجاد رابطه بین متغیرهای مختلف، مدلی طراحی شود تا بتوان یک سبد سهام بهینه را طراحی کرد. قبلاز ورود به بحث بهینهسازی سبد سهام، ابتدا دادهها بهوسیله یادگیری ماشین تفکیک و کلاسبندی میشود و سپس دادههای فیلتر شده برحسب نوع اطلاعاتی که وجود دارد، بهینه خواهد شد (بیگی، 1389). هدف اصلی از مطالعه حاضر ساختن یک مدل تصمیمگیری است که یکپارچهسازی آن بهوسیله الگوریتمهای یادگیری ماشین (جنگل تصادفی و بیز ساده) انجام شده و درنهایت از کلاس مورد نظر یک پرتفوی بهینه با ارزش درمعرض ریسک (VAR) و ارزش درمعرض ریسک شرطی (C_VAR) که با نظریه فازی ترکیب شده است، خارج خواهد شد. در این راستا بعداز دریافت اطلاعات (قیمتها) از سایت رسمی سازمان بورس اوراق بهادار، آنها بهوسیله یک سری ویژگیها و بهکمک هوش مصنوعی کلاسبندی میشوند. این سهمها به دو کلاس مثبت و منفی تقسیم میشوند و هدف آن است که از بین سهمهای کلاس مثبت یک پرتفوی بهینه بهکمک سنجهریسک C_VAR و VaR ایجاد شود. درنهایت بااستفاده از معیار بررسی بهینگی ترینر، پرتفوهای ایجادشده با بازدهی صورتگرفته از طریق بازار مقایسه خواهند شد. ازطرفی CVaR معیارمنسجمی برای اندازهگیری ریسک است و خصوصیات جالبی را از خود بروز میدهد، CVaR نسبتبه آنالیز میانگین - واریانس در مواجه با توزیع نامتقارن بازدهی سرمایه، بهتر عمل میکند (فیضی، 1391).
فرآیند استخراج اطلاعات از دادهها، یک عمل پیچیده است که میتوان از کارهایی که انجام میشود، به بحث پیشبینی و دستهبندی، کاهش پیچیدگی داده، کاهش حجم داده و استخراج مهمترین ویژگیها اشاره نمود، که میتوان بهوسیله آنها حجم عظیمی از دادههای پخش شده در اطرافمان را براساس الگوهایی که دارند، بهدرستی دستهبندی کرد و اطلاعات و دانش مورد نیاز خود را از آنها استخراج کنیم. این کار یک مزیت دیگر نیز دارد که آن، کاهش پراکندگی دادهها است، که باعث خواهد شد در هنگام بهره برداری از دادهها، دچار سردرگمی نشویم. درحقیقت، ما به بررسی یکی از ابزارهای جدید و در عینحال کارامد در حوزه دادهکاوی پرداختهایم، که قابلیت زیادی دارد و میتواند بهترین نتیجه را نمایش دهد(البرزی، 1380).
جنگل تصادفی
جنگل تصادفی یک روش یادگیری گره برای طبقهبندی و رگرسیون است که با ساخت بسیاری از درختهای تصمیمگیری در زمان آموزش و خروجی طبقات با درختان مجزا اداره میشود. جنگل تصادفی متناسب با درختان تصمیم متعدد بر روی دادهها و با انتخاب N نمونه بهصورت تصادفی، مجموعه دادههای آموزشی میشود. بهمنظور برازش درختان متعدد، جنگل تصادفی بهطور تصادفی F ویژگی ورودی برای انشعاب در هر گره از درخت تصمیمگیری انتخاب میکند. مقدار F معمولا برابر با میباشد که تعداد کل نمونهها است (راوی ، 2017). مقدار کمی از F عملکرد پایینتری نسبتبه همبستگی میان درختان تصمیمگیری میدهد، درحالیکه مقدار زیادی از F طبقهبندی با دقت بهتری میدهد. در روش جنگل تصادفی عدمتشابه مشاهدات بهطریقی کاملا متفاوت از توابع فاصله متداول و براساس ساختار این مدل تعیین میگردد. تشابه مشاهدات در این روش برمبنای قرارگرفتن آنها در برگهای یکسان اندازهگیری میشود. در شکل 1 نحوه تبدیل الگوریتم درخت تصمیم به الگوریتم جنگل تصادفی ارایه شده است.
شکل 1: نحوه تبدیل الگوریتم درخت تصمیم به الگوریتم جنگل تصادفی
منبع: یافتههای پژوهش
ü هر گره داخلی یا غیربرگ با یک ویژگی مشخص میشود. این ویژگی سوالی را در رابطه با مثال ورودی مطرح میکند.
ü در هر گره داخلی به تعداد جوابهای ممکن برای این سوال، شاخه وجود دارد که هریک از شاخه ها با مقدار آن جواب مشخص میشوند.
ü برگهای این درخت با یک کلاس که به آن برچسب گفته میشود و یا یک دسته از جوابها مشخص میشوند.
ü بالاترین گره را در درخت تصمیم، گره ریشه مینامند.
در یادگیري ماشین، گاهی سعی داریم که از میان فضاي فرضیههاي H بهترین فرضیهي سازگار با نمونههاي آموزشی D را پیدا کنیم. چندین راه براي تعریف "بهترین" در این جمله وجود دارد، یکی از این تعاریف "محتملترین" است، با در دست داشتن دادههاي D بدون نیاز به هیچ اطلاعات اولیهي دیگر نمیتوان محتملترین فرضیه را انتخاب کرد. قضیهي بیز متدي مستقیم براي محاسبه ي احتمالات فرضیههاي موجود در H ارائه میکند. به عبارت دیگر، قضیهي بیز روشی براي محاسبهي احتمال یک فرضیه بر اساس احتمال قبلیاش، احتمال مشاهدهي دادههاي سازگار با فرض درستی این فرضیه و احتمال خود دادههاي مشاهده شده ارائه میکند. براي تعریف دقیق قضیهي بیز، ابتدا بیایید نشانهگذاريها را معرفی کنیم. براي نشان دادن احتمال اولیهي فرضیهي h احتمال قبل از مشاهدهي دادههاي آموزشی، از P(h) استفاده میکنیم. به P(h) احتمال اولیه h نیز میگویند، این احتمال از اطلاعات قبلی اي که در مورد احتمال درستی فرضیهي h داریم تأثیر میپذیرد. بهطور مشابه از P(D) براي نمایش احتمال اولیهي مشاهدهي نمونههاي آموزشی D استفاده میکنیم (مثلاً احتمال مشاهدهي D بدون داشتن هیچ اطلاعات قبلی در مورد اینکه با چه فرضیههایی سازگار است). براي نشان دادن احتمال مشاهدهي D در جایی که فرضیهی h درست است از P(Dǀh) استفاده میکنیم. در حالت کلی، از p(x|y) برای نشان دادن احتمال x با فرض وقوع y استفاده میکنیم. در مسائل یادگیري ماشین، علاقهي ما به احتمال P(hǀD) است که در آن h یک فرضیه و D نمونههای آموزشی مشاهده شده هستند. به P(hǀD) احتمال ثانویه h نیز میگویند، زیرا که اطمینان ما به فرضیهی h بعد از مشاهدهی نمونههای آموزشی D را نشان میدهد. توجه داشته باشید که احتمال ثانویه P(hǀD) بر خلاف احتمال اولیه P(h) که از نمونههاي آموزشی مستقل است، از نمونههاي آموزشی D تأثیر میپذیرد.
قضیه بیز، اساس متدهاي یادگیري بیز است، زیرا که راهی براي محاسبهي احتمال ثانویه P(hǀD) از P(h)، P(D) و P(Dǀh) طبق رابطه (1) میباشد:
(1) |
|
|
|
s.t:
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
s.t:
|
|
ردیف | نماد | شرکت | ردیف | نماد | شرکت |
1 | اخابر | مخابرات ایران | 16 | زاگرس | پتروشیمی زاگرس |
2 | همراه | ارتباطات سیار ایران | 17 | شبریز | پالایشگاه نفت تبریز |
3 | وسینا | بانک سینا | 18 | شبندر | پالایشگاه نفت بندرعباس |
4 | وبملت | بانک ملت | 19 | ولساپا | لیزینگ رایان سایپا |
5 | پارسیان | بیمه پارسیان | 20 | وایران | لیزینگ ایرانیان |
6 | آسیا | بیمه اسیا | 21 | وصنعت | سرمایهگذاری توسعه صنعت و تجارت |
7 | خبهمن | گروه بهمن | 22 | وخارزم | سرمایهگذاری خوارزمی |
8 | خرینگ | رینگسازی مشهد | 23 | ومعادن | توسعه معادن و فلزات |
9 | خزامیا | زامیاد | 24 | ثفارس | عمران و توسعه فارس |
10 | فولاد | فولاد مبارکه اصفهان | 25 | رکیش | کارت اعتباری ایران کیش |
11 | فملی | ملی صنایع مس ایران | 26 | فاراک | ماشینسازی اراک |
12 | سغرب | سیمان غرب | 27 | دارو | کارخانجات داروپخش |
13 | سکرد | سیمان کردستان | 28 | قزوین | کارخانجات قند قزوین |
14 | شفن | پتروشیمی فناوران | 29 | غشاذر | پگاه آذربایجان غربی |
15 | کرماشا | صنایع پتروشیمی کرمانشاه | 30 | حکشتی | کشتیرانی جمهوری اسلامی ایران |
ویژگیهای مورد بررسی در الگوریتمهای مورد استفاده
در این قسمت از پژوهش، ویژگیها (فیچرهای) استفاده شده در الگوریتمهای مورد بررسی ارایه شده است. این ویژگیها ترکیبی از شاخصهای تکنیکال و بازدهی های مختلف است. در انتخاب اندیکاتورها/اسیلاتورها در تحلیل تکنیکال، معیاریکه برای ما در این مقاله مهم بوده سازگاری آن با بازار سرمایه ایران است. این هدف زمانی محقق میشود که از بین تعداد زیادی از اندیکاتور/اسیلاتور، آنهایی برگزیده میشوند که حتیالمقدور پارامتر میانگین را در فرمول خود دارا باشند، زیرا این پارامتر نسبت به باقی پارامترها بیشترین کمک را در مدلسازی و پیشبینی قیمتها به محقق (معاملهگران) خواهد کرد.
در جدول 3 ویژگیهای مورد بررسی در الگوریتمها ذکر شده است.
جدول 3: ویژگیهای مورد بررسی در الگوریتمها
ردیف | نام ویژگی (فیچر) | ادیکاتور / اسیلاتور | پارامترهای مورد استفاده | فرمول | ||||||
1 | EMA | Exponential Moving Average | close (i,i-1,i-2,…) |
| ||||||
2 | ADX | Average Directional Index |
|
| ||||||
3 | RSI | Relative Strength Index | Profit , loss |
| ||||||
4 | Stoch | Stochastic | Close , low , high |
| ||||||
5 | MACD | Moving Average Convergence Divergence | EMA |
| ||||||
6 | CCI | Commodity Channel Index | High , low , close |
| ||||||
7 | ATR | Average True Range | High , low |
| ||||||
8 | OBV | On Balanced Volume | Volume |
| ||||||
9 | TRIX | Triple Exponential Average | EMA |
| ||||||
10 | R(-1) | Return(-1) | Close i , close i-1 |
| ||||||
11 | R(-2) | Return(-2) | Close i-1,close i-2 |
| ||||||
12 | R(-3) | Return(-3) | Close i-2,close i-3 |
| ||||||
13 | R(-4) | Return(-4) | Close i-3,close i-4 |
| ||||||
14 | R(-5) | Return(-5) | Close i-4,close i-5 |
|
جنگل تصادفی – بیز ساده | الگوریتم مورد استفاده برای کلاسبندی | 1 |
جنگل تصادفی | پیشبینی | 2 |
VaR – CvaR | بهینهسازی(فازی) | 3 |
0.9 و 0.99 | سطح اطمینان(درصد) | 4 |
جنگل تصادفی
در این بخش، دادههای سریزمانی سهمها وارد ماشین RF میشوند. بعداز فیلترشدن آنها از طریق ویژگیهای وارده در جدول 3، خروجی موردنظر براساس دو کلاس مثبت و منفی در قالب جدول 5 ارائه میگردد. ملاحظه میشود 9 سهم طبق این الگوریتم، مجوز حضور در کلاس مثبت را ازآن خود کردهاند.
جدول 5: خروجی الگوریتم جنگل تصادفی
| اخابر | همراه | وِسینا | وبملت | پارسیان | آسیا | خبهمن | خرینگ | خزامیا | فولاد |
کلاس | - | - | - | - | + | + | - | - | - | - |
دقت | 55% | 58% | 57% | 56% | 60% | 59% | 53% | 48% | 50% | 62% |
| فملی | سغرب | سکرد | شفن | کرماشا | زاگرس | شبریز | شبندر | ولساپا | وایران |
کلاس | + | - | - | + | - | - | - | - | - | - |
دقت | 53% | 57% | 55% | 65% | 58% | 51% | 54% | 53% | 58% | 54% |
| وصنعت | وخارزم | ومعادن | ثفارس | رکیش | فاراک | دارو | قزوین | غشاذر | حکشتی |
کلاس | + | - | + | + | - | + | - | - | + | - |
دقت | 54% | 48% | 48% | 53% | 49% | 56% | 60% | 59% | 48% | 57% |
شرکتهایی که وارد کلاس مثبت شدهاند (هم در روش جنگل تصادفی و هم در روش بیز ساده)، برای پیشبینی بهوسیله الگوریتم جنگل تصادفی، وارد مرحله بعد میشوند.
بیز ساده
در این بخش (جدول 6)، دادههای سریزمانی سهمها وارد ماشین NB میشوند. بعداز فیلترشدن آنها از طریق ویژگیهای وارده، خروجی موردنظر براساس دو کلاس مثبت و منفی در قالب جدول زیر ارائه میگردد. ملاحظه میشود 18 سهم طبق این الگوریتم، مجوز حضور در کلاس مثبت را ازآن خود کردهاند.
جدول 6: خروجی الگوریتم بیز ساده
| اخابر | همراه | وسینا | وبملت | پارسیان | آسیا | خبهمن | خرینگ | خزامیا | فولاد |
کلاس | - | + | + | + | - | + | + | - | + | + |
دقت | 48% | 41% | 56% | 54% | 54% | 57% | 48% | 40% | 54% | 46% |
| فملی | سغرب | سکرد | شفن | کرماشا | زاگرس | شبریز | شبندر | ولساپا | وایران |
کلاس | + | - | + | + | + | + | - | - | + | - |
دقت | 47% | 57% | 59% | 57% | 49% | 52% | 47% | 46% | 44% | 51% |
| وصنعت | وخارزم | ومعادن | ثفارس | رکیش | فاراک | دارو | قزوین | غشاذر | حکشتی |
کلاس | - | + | + | - | + | + | - | - | - | + |
دقت | 49% | 54% | 41% | 48% | 50% | 61% | 46% | 47% | 47% | 46% |
منبع: یافتههای پژوهش
پیشبینی با استفاده از الگوریتم جنگل تصادفی
در این بخش کلیه خروجیهای الگوریتمها، که برای عمل کلاسبندی استفاده شدهاند، بهوسیله الگوریتم جنگل تصادفی در جداول 7 و 8 پیشبینی میشوند. استفاده از نظریه فازی و سه پیشبینی خوشبینانه (r1)، محتمل (r2) و بدبینامه (r3) باعث نوآوری جدیدی در این پژوهش شده است. برای هر سهم که در مرحله قبل مجوز حضور در کلاس مثبت را گرفته است (بهتفکیک دو روش جنگل تصادفی و بیز ساده)، تعداد سه پیشبینی (3 عدد تصادفی) برای روز بعد شناسایی میشود، که این 3 عدد ورودیهای بهینهسازی پرتفوی سرمایهگذاری به روش سنجه ریسک و نظریه فازی است.
جدول 7: پیشبینی براساس خروجی الگوریتم جنگل تصادفی
سهم |
|
|
| ردیف | سهم |
|
|
| |
1 | آسیا | 0.9% | 1.15% | 1.16% | 6 | سفارس | 0.4% | 0.5% | 1.8% |
2 | فاراک | 1.1% | 1.3% | 2.1% | 7 | شفن | 0.08% | 0.1% | 1.9% |
3 | فملی | 0.1%- | 0 | 0.92% | 8 | ومعادن | 0.8%- | 0.01% | 3.24% |
4 | غشاذر | 0.5% | 0.7% | 0.8% | 9 | وصنعت | 0.7% | 0.8% | 1.2% |
5 | پارسیان | 0.7% | 0.8% | 1.1% |
|
|
|
|
|
ردیف | سهم |
|
|
| ردیف | سهم |
|
|
|
1 | آسیا | 0.9% | 1.15% | 1.16% | 10 | رکیش | 0.2%- | 0 | 1.12% |
2 | فاراک | 1.1% | 1.3% | 2.1% | 11 | سکرد | 0.5%- | 0.2% | 1.8% |
3 | فملی | 0.1%- | 0 | 0.92% | 12 | شفن | 0.08% | 0.1% | 1.9% |
4 | فولاد | 0.1% | 0.2% | 2.28% | 13 | وبملت | 0.3%- | 0.6% | 1.73% |
5 | همراه | 0.06% | 0.09% | 0.3% | 14 | وخارزم | 1.8%- | 0.2%- | 2.5% |
6 | حکشتی | 1.2% | 2.27% | 2.92% | 15 | ولساپا | 0.4% | 1.24% | 4.2% |
7 | کرماشا | 0.9% | 1.05% | 2.4% | 16 | ومعادن | 0.8%- | 0.01% | 3.24% |
8 | خبهمن | 1.4%- | 0.2%- | 0.34% | 17 | وسینا | 0.3% | 0.4% | 1.2% |
9 | خزامیا | 1.6% | 1.92% | 1.95% | 18 | زاگرس | 1.2%- | 0.3% | 2.58% |
ردیف | متغیر | نماد |
|
| ردیف | متغیر | نماد |
|
|
1 |
| آسیا | 0.22 | 0 | 6 |
| سفارس | 0 | 0.0087 |
2 |
| فاراک | 0 | 0.0095 | 7 |
| شفن | 0.11 | 0 |
3 |
| فملی | 0 | 0.27 | 8 |
| ومعادن | 0 | 0.169 |
4 |
| غشاذر | 0 | 0.52 | 9 |
| وصنعت | 0.333 | 0 |
5 |
| پارسیان | 0.347 | 0.096 |
|
|
|
|
|
|
|
| |||||||
| 2.61% | 3.05% |
ردیف | متغیر | نماد |
|
| ردیف | متغیر | نماد |
|
|
1 |
| آسیا | 0.021 | 0.122 | 10 |
| رکیش | 0 | 0.178 |
2 |
| فاراک | 0134 | 0.08 | 11 |
| سکرد | 0.0992 | 0 |
3 |
| فملی | 0 | 0 | 12 |
| شفن | 0 | 0 |
4 |
| فولاد | 0 | 0 | 13 |
| وبملت | 0 | 0 |
5 |
| همراه | 0 | 0 | 14 |
| وخارزم | 0 | 0.61 |
6 |
| حکشتی | 0.287 | 0 | 15 |
| ولساپا | 0 | 0 |
7 |
| کرماشا | 0 | 0 | 16 |
| ومعادن | 0.182 | 0 |
8 |
| خبهمن | 0 | 0 | 17 |
| وسینا | 0.2 | 0 |
9 |
| خزامیا | 0.0692 | 0 | 18 |
| زاگرس | 0 | 0 |
|
|
| |||||||
| 6.32% | 7.76% |
ردیف | متغیر | نماد |
|
| ردیف | متغیر | نماد |
|
|
1 |
| آسیا | 0 | 0.2 | 6 |
| سفارس | 0 | 0 |
2 |
| فاراک | 0.29 | 0 | 7 |
| شفن | 0.25 | 0 |
3 |
| فملی | 0.08 | 0.08 | 8 |
| ومعادن | 0 | 0 |
4 |
| غشاذر | 0 | 0 | 9 |
| وصنعت | 0 | 0 |
5 |
| پارسیان | 0.38 | 0.72 |
|
|
|
|
|
|
|
| |||||||
| 7.73% | 11.43% |
ردیف | متغیر | نماد |
|
| ردیف | متغیر | نماد |
|
|
1 |
| آسیا | 0.08 | 0 | 10 |
| رکیش | 0.16 | 0 |
2 |
| فاراک | 0 | 0 | 11 |
| سکرد | 0 | 0.23 |
3 |
| فملی | 0 | 0.24 | 12 |
| شفن | 0 | 0 |
4 |
| فولاد | 0.33 | 0.37 | 13 |
| وبملت | 0.2 | 0 |
5 |
| همراه | 0 | 0 | 14 |
| وخارزم | 0.15 | 0 |
6 |
| حکشتی | 0 | 0 | 15 |
| ولساپا | 0 | 0 |
7 |
| کرماشا | 0 | 0.16 | 16 |
| ومعادن | 0.08 | 0 |
8 |
| خبهمن | 0 | 0 | 17 |
| وسینا | 0 | 0 |
9 |
| خزامیا | 0 | 0 | 18 |
| زاگرس | 0 | 0 |
|
|
| ||||||
| 8.77% | 10.91% |
ردیف | بازدهی | الگوریتم | سنجهریسک | سطحاطمینان |
|
| مقدار ترینر برای پرتفوی | مقدار ترینر برای بازار |
1 | 11.43% | جنگل تصادفی | CVAR |
| 9.93% | 1.16 | 8.09% | 1.34 % |
2 | 10.91% | بیز ساده | CVAR |
| 9.41% | 1.94 | 4.85% | 1.34 % |
3 | 8.77% | بیز ساده | CVAR |
| 7.27% | 1.94 | 3.74% | 1.34 % |
4 | 7.76% | بیز ساده | VAR |
| 6.26% | 1.94 | 3.22% | 1.34 % |
5 | 7.73% | جنگل تصادفی | CVAR |
| 6.23% | 1.16 | 5.37% | 1.34 % |
6 | 6.32% | بیز ساده | VAR |
| 4.82% | 1.94 | 2.48% | 1.34 % |
7 | 3.05% | جنگل تصادفی | VAR |
| 1.55% | 1.16 | 1.33% | 1.34 % |
8 | 2.61% | جنگل تصادفی | VAR |
| 1.11 | 1.16 | 0.95% | 1.34 % |
Liu et al | 22 | Investment | 1 |
Malagrino et al | 23 | Portfolio | 2 |
Ren et al | 24 | Markowitz | 3 |
Wang. Xu. et al | 25 | Machine Learning | 4 |
Zhang et al | 26 |
| 5 |
Zhou et al | 27 |
| 6 |
Sotirios P. Chatzis | 28 |
| 7 |
Thomas Fischer | 29 |
| 8 |
Mikhail Goykhman | 30 |
| 9 |
Yaping Caia | 31 |
| 10 |
Codruț-Florin Ivașcu | 32 |
| 11 |
Reaz Chowdhury | 33 |
| 12 |
Zolfaghari & Gholami | 34 | Support vector machine | 13 |
Wuyu Wang | 35 | Tsantekidis et al | 14 |
Classification | 36 | Bustos et al | 15 |
Random Forest | 37 | Chakraborty et al | 16 |
Ravi | 38 | Coyne et al | 17 |
Naïve Bayes | 39 | Fischer and Krauss | 18 |
Treyner | 40 | Hu et al | 19 |
Feature | 41 | Huang et al | 20 |
|
| Kia et al | 21 |