Öznitelik Mühendisliği ile Makine Öğrenmesi Yöntemleri Kullanılarak BIST 100 Endeksi Değişiminin Tahminine Yönelik Bir Yaklaşım


Kaynar T., Yigit O. E.

Journal of Yasar University, cilt.16, sa.64, ss.1741-1762, 2021 (TRDizin) identifier

  • Yayın Türü: Makale / Tam Makale
  • Cilt numarası: 16 Sayı: 64
  • Basım Tarihi: 2021
  • Dergi Adı: Journal of Yasar University
  • Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
  • Sayfa Sayıları: ss.1741-1762
  • Yıldız Teknik Üniversitesi Adresli: Evet

Özet

Finansal piyasaların ana çıktısı bir zaman serisi problemidir ve zaman serileri doğaları gereği gürültülü, durağan olmayan ve karmaşık bir yapı sergilemektedirler. Bu karmaşık yapı sebebiyle zaman serilerinin gelecekteki davranışlarını öngörme süreci araştırmacılar açısından hayli zorlu bir çalışma alanı olmaktadır. Bu çalışmada BIST 100 endeksi günlük getiri yönünün tahmin edilmesinde kapsamlı bir öznitelik mühendisliği işlemi uygulanmış ve farklı makine öğrenmesi algoritmaları kullanılarak modellemeler gerçekleştirilmiştir. Modellere girdi olarak alınacak öznitelikler, serinin özetleyici istatistiklerine, örnekleme dağılımının ek karakteristiklerine ve serinin lineer olmayan/karmaşık yapısını yansıtan gözlenen dinamiklerine bağlı olarak çıkartılmış ve dışsal değişken kullanmadan da sınıflandırma performanslarının oldukça yüksek olduğu gösterilmiştir. Ayrıca farklı eğitim-test oranları kullanılarak tahminlerin dayanıklılığı araştırılmıştır.
The main output of financial markets is a time series problem and a time series exhibit noisy, non-linear and chaotic structure by nature. Due to this complex structure, the process of predicting the future behavior of time series is a very challenging field for researchers. In this study, a comprehensive feature engineering process was applied to estimate the daily return direction of the BIST 100 index and models were carried out using different machine learning algorithms. The features to be taken as input to the models were extracted depending on the summative statistics of the series, the additional characteristics of the sampling distribution, and the observed dynamics reflecting the non-linear/complex structure of the series and it was shown that the classification performances are quite high without using exogenous variables. In addition the durability of the predictions performances was investigated using different training-test ratios.