Ülkelerin Gelişmişlik Düzeylerinin Karar Ağacı ve Rastgele Orman Yöntemleriyle Tahmin Edilmesi


Özkan B., Parim C., Çene E.

Ekoist journal of econometrics and statistics (Online), cilt.0, sa.38, ss.87-104, 2023 (Hakemli Dergi) identifier

Özet

Ülkelerin gelişmişlik düzeyleri ile ekonomik açıdan kalkınma düzeyleri arasında çok yakın bir ilişki söz konusudur. Ülkeler, çeşitli ölçütlere göre incelenerek, gelişmişlik düzeylerine göre az gelişmişten çok gelişmişe doğru farklı gruplarda değerlendirilebilirler. Ülkelerin gelişmişlik düzeylerinin belirlenmesinde, genellikle sosyo-ekonomik faktörler belirleyici rol oynamaktadır. Gelişmişlik düzeyi her ne kadar sosyo-ekonomik değişkenler yardımıyla belirlense de, ülkelerin sınıflandırılması farklı organizasyonlar (Birleşmiş Milletler, Uluslararası Para Fonu vb.) tarafından farklı yöntemlerle yapılabilmektedir. Bu durum bir ülkenin gelişmişlik düzeyinin yönteme ve organizasyona göre farklı kategoride yer almasına sebep olmaktadır. Bu çalışmanın amacı, 193 ülke için gelişmişlik düzeyini tahmin eden bir makine öğrenmesi modeli geliştirmektir. Gelişmişlik düzeyi, “Yüksek Gelir”, “Üst Orta Gelir”, “Alt Orta Gelir” ve “Düşük Gelir” kategorilerinden oluşmaktadır. Ülkelerin gelişmişlik seviyesini etkileyen 26 değişken ise, Dünya Gelişmişlik İndeksi (World Development Indicators - WDI) veri tabanından elde edilmiştir. İlk olarak özellik seçimi olarak gelişmişlik düzeyini etkileyen en önemli değişkenlerin belirlenmesinde, rastgele orman metodu yardımıyla değişken önemi kullanılmıştır. Önemli bulunan bağımsız değişkenler yardımıyla, karar ağaçları ve rastgele orman algoritmaları kullanılarak gelişmişlik düzeyleri sınıflandırılmıştır. Rastgele orman algoritmasıyla oluşturulan modelin ülkelerin gelişmişliklerini %70 oranında doğru sınıflandırdığı belirlenmiştir. Ayrıca, bulgular Ergen Doğurganlık Hızı, Toplam Doğurganlık Oranı ve Tarım, Orman ve Balıkçılık’ın GSYİH (Gayri Safi Yurtiçi Hasıla) daki payının ülkelerin gelişmişliklerini etkileyen en önemli değişkenler olduğunu göstermektedir.
A very close relationship exists between countries’ development levels and economic level. Countries can be examined according to various criteria and evaluated under different groups based on their level of development, from underdeveloped to highly developed. Socioeconomic factors generally play a decisive role in determining countries’ levels of development. Although the level of development is determined with the help of socioeconomic variables, different organizations (e.g., United Nations [UN], International Monetary Fund [IMF]) may make country classifications with different methods. This situation causes a country’s development level to occur in different categories based on the method used and the organization that performed it. The aim of this study is to propose a machine learning model that predicts the development level for 193 countries. Development level consists of the categories of high income, upper middle income, lower middle income, and low income. The 26 variables that affect countries’ development levels were obtained from the World Development Indicators (WDI) database. Firstly, random forest based variable importance was used to determine the variables which have the most important effects on countries’ development levels. Afterwards, countries’ development levels were classified using decision trees and random forest algorithms with the most important variables selected through variable importance. The model composed with the random forest algorithm was determined to have correctly classified countries’ development levels at an accuracy of 70%. In addition, the findings show the variables of adolescent fertility rate, total fertility rate, and the share of agriculture, forestry, and fisheries in gross domestic product GDP) to be the most important variables affecting countries’ development levels.