Makine Öğrenimi Yöntemlerini Kullanarak Gayrimenkul Değer Tahmini


Ayar M. D., Şen A.

19. Türkiye Harita Bilimsel ve Teknik Kurultayı, Ankara, Türkiye, 4 - 06 Ekim 2023, ss.1

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Ankara
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1
  • Yıldız Teknik Üniversitesi Adresli: Evet

Özet

Gayrimenkul değerlemesi, mülkiyetin doğru bir şekilde değerlendirilmesi ve tahmini piyasa değerinin belirlenmesi sürecidir. Ancak doğru gayrimenkul değerlemesi, insan uzman bilgisi gerektirir ve manuel gayrimenkul değerleme süreci zaman alıcıdır (Kok, Koponen & Martinez Barbosa, 2017). Geleneksel yöntemler genellikle manuel değerlendirme tekniklerini içerirken, makine öğrenimi teknikleri gayrimenkul değerlemesi alanında büyük bir potansiyel sunmaktadır. Son yıllarda bilim insanları, gayrimenkul piyasasındaki varlıkların fiyatlarını tahmin etmek için makine öğrenimi yöntemleri ve algoritmalarının kullanımına yönelmiştir (Lemeš & Akagic, 2022). Gayrimenkul değerlemesi için makine öğrenimi yöntemleri, mülkün değerini etkileyen faktörleri analiz ederek ve tahmin modelleri oluşturarak çalışır. Bu faktörler arasında konum, yapısal özellikler, emlak piyasası verileri, sosyal ve ekonomik faktörler yer alabilir. Çok sayıda faktör bulunduğundan geleneksel yöntemlerde, çok sayıda değişken ve karmaşık ilişkiler göz ardı edilebilir. Bu gibi sebeplerden ötürü son yıllarda makine öğrenimi yöntemleri ile gayrimenkul fiyat tahmini konusu üzerine birçok çalışma yapılmıştır.  

Alkan, Dokuz & Ecemiş (2023), matematiksel modelleme yerine makine öğrenmesi algoritmaları (Destek Vektör Makineleri, k-En Yakın Komşuluk, Rastgele Orman) kullanılarak algoritma tabanlı değerleme yapmış, 0.73 R Kare Skoru ile Destek Vektör Makineleri yönteminin en başarılı tahminleri yaptığını elde etmiştir.

Bilgilioğlu & Yılmaz (2022), aralarında Yapay Sinir Ağları, Destek Vektör Makinesi ve Rastgele Orman yöntemlerinin bulunduğu beş makine öğrenimi tekniğini karşılaştırmayı amaçlamış, en iyi sonucun Yapay Sinir Ağları tekniğinin verdiğini görmüştür.

Tchuende & Nyawa (2022), gayrimenkul fiyat tahmininde konum özelliklerinin uygunluğunu yüksek ve ince ayrıntı düzeyleriyle ölçen farklı bir yaklaşım önererek yedi popüler makine öğrenimi yöntemini (Yapay Sinir Ağları, Rastgele Orman, Adaptive Boost, Gradyan Arttırma, Destek Vektör Makineleri, k – En Yakın Komşuluk, Doğrusal Regresyon) karşılaştırmış ve 0.79 R Kare Skoru ile Rastgele Orman Algoritmasının en başarılı tahminleri yaptığını elde etmiştir.

Bu çalışmada, gayrimenkul değerlemesinde makine öğrenimi yöntemlerinin karşılaştırmalı kullanımı incelenmiştir. Çalışmada 2023 yılı mayıs ve haziran aylarına ait İstanbul ili Bayrampaşa ilçesinde ki satılık 1261 adet konut ilanı veri seti için kullanılmıştır. Veri setinde konutlara ait yapısal ve mülki bilgilere (Brüt metrekare, net metrekare, oda sayısı, salon sayısı, bina yaşı, toplam kat sayısı, bulunduğu kat, ısıtma türü, banyo sayısı, balkon bilgisi, eşya bilgisi, kullanım durumu bilgisi, site bilgisi, kredi durumu, tapu türü, fiyat) ek coğrafi bilgiler (enlem, boylam) bilgileri de bulunmaktadır. Bu değişkenlerden kategorik veriler ölçeklenerek makine öğrenimi algoritmalarına hazır hale getirilmiştir. 1261 satılık konut ilanının yüzde 33’ü test seti, yüzde 67’si eğitim seti olarak ayrılmıştır. Bu veri setine ağaç temelli makine öğrenimi yöntemlerinden Rastgele Orman (RO), Adaptive Boosting (AdaBoost), Extreme Gradient Boosting (XGBoost) ile bir yapay sinir ağı yöntemi olan Çok Katmanlı Algılayıcılar (ÇKA) yöntemleri uygulanarak veri eğitilmiş, test verileri tahmin edilmiştir. Makine öğrenimi modelleri R Kare (R2), Ortalama Mutlak Hata, Ortalama Kare Hata, Kök Ortalama Kare Hatası ölçütleri ile karşılaştırılmıştır. Karşılaştırma sonucunda Rastgele Orman algoritması ile yapılan tahmin modeli 0.88 R2 Skoru ile en başarılı model olmuştur. RO Algoritmasını, 0.82 R2 Skoru ile XGBoost, 0.72 R2 Skoru ile AdaBoost, 0.48 R2 Skoru ile ÇKA yöntemleri takip etmiştir. RO algoritmasının en başarılı tahmin sonuçlarını verdiği görüldükten sonra veri setinden coğrafi veriler (enlem, boylam) çıkarılarak yeni bir RO modeli ile tahmin yapılmış, coğrafi özelliklerin tahmine etkisi gözlemlenmiştir. Coğrafi veriler olmadan hazırlanan bu yeni model ise 0.82 R2 Skoru elde etmiştir. Böylece çalışma sonunda RO yönteminin gayrimenkul değer tahminlerinde kullanılabileceği gözlemlenmiş, coğrafi verilerin değer tahminlerinin doğruluğunu arttırdığı anlaşılmıştır.


Real estate valuation is the process of accurately assessing property and determining its estimated market value. However, accurate real estate valuation requires human expert knowledge and the manual real estate valuation process is time-consuming (Kok, Koponen & Martinez Barbosa, 2017). While traditional methods often involve manual valuation techniques, machine learning techniques offer great potential in the field of real estate valuation. In recent years, scientists have turned to the use of machine learning methods and algorithms to predict the prices of assets in the real estate market (Lemeš & Akagic, 2022). Machine learning methods for real estate valuation work by analyzing the factors that influence the value of the property and building prediction models. These factors can include location, structural features, real estate market data, social and economic factors. Due to the large number of factors, traditional methods may ignore the large number of variables and complex relationships. For these reasons, there have been many studies on real estate price prediction with machine learning methods in recent years.  

Alkan, Dokuz & Ecemiş (2023) performed algorithm-based valuation using machine learning algorithms (Support Vector Machines, k-Nearest Neighborhood, Random Forest) instead of mathematical modeling and found that the Support Vector Machines method made the most successful predictions with an R Square Score of 0.73.

Bilgilioğlu & Yılmaz (2022) aimed to compare five machine learning techniques, including Artificial Neural Networks, Support Vector Machine and Random Forest methods, and found that the Artificial Neural Networks technique gave the best result.

Tchuende & Nyawa (2022) compared seven popular machine learning methods (Artificial Neural Networks, Random Forest, Adaptive Boost, Gradient Boost, Gradient Boosting, Support Vector Machines, k-Nearest Neighborhood, Linear Regression) by proposing a different approach that measures the relevance of location features in real estate price prediction with high and fine levels of granularity and found that the Random Forest Algorithm made the most successful predictions with an R Square Score of 0.79.

In this study, the comparative use of machine learning methods in real estate valuation is examined. In the study, 1261 housing advertisements for sale in Bayrampaşa district of Istanbul province for the months of May and June 2023 were used for the data set. The dataset includes structural and property information (gross square meters, net square meters, number of rooms, number of living rooms, age of the building, total number of floors, floor, heating type, number of bathrooms, balcony information, furniture information, usage status information, site information, credit status, title deed type, price) as well as geographical information (latitude, longitude). Categorical data from these variables were scaled and made ready for machine learning algorithms. 33 percent of the 1261 housing for sale advertisements were divided into a test set and 67 percent into a training set. Random Forest (RF), Adaptive Boosting (AdaBoost), Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP), an artificial neural network method, were applied to this dataset to train the data and predict the test data. The machine learning models were compared with R Square (R2), Mean Absolute Error, Mean Square Error, Root Mean Square Error. As a result of the comparison, the prediction model with the Random Forest algorithm was the most successful model with an R2 Score of 0.88. It was followed by XGBoost with an R2 Score of 0.82, AdaBoost with an R2 Score of 0.72, and RDA with an R2 Score of 0.48. After it was seen that the RO algorithm gave the most successful prediction results, a new RO model was predicted by removing geographical data (latitude, longitude) from the data set and the effect of geographical features on the prediction was observed. This new model prepared without geographical data obtained an R2 Score of 0.82. Thus, at the end of the study, it was observed that the RO method can be used in real estate value estimations, and it was understood that geographical data increases the accuracy of value estimations.