Makine Öğrenmesi İle Bot Tanıma


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, -, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: Mustafa Keskin

Danışman: Banu Diri

Özet:

Varlık ˙Ismi Tanıma (V˙IT) Dogal Dil ˘ ˙I¸sleme (DD˙I) süreçlerinde yer alan önemli bir görevdir. Günümüzde bilgi eri¸sim sistemlerinin çogunda kullanılmaktadır. Makine ˘ Ögrenme tabanlı denetimli modellerin e ˘ gitilmesi için etiketli veri setleri gereklidir. ˘ V˙IT görevi için bir korpustaki her bir kelimenin etiketli olması gerekmektedir. Büyük miktardaki verileri etiketleme i¸slemi ˙Ingilizce için düzenli olarak yapılsa da diger diller için bu i¸slem genellikle böyle yapılmamaktadır. ˘ ˙Ingilizce için yapılan çalı¸smalarda bile genellikle gazete makaleleri gibi belirli alanlarda sınırlıdır. Diger ˘ alanlardaki görevler için etiketlenmi¸s kelimelerin sayısı neredeyse hiç yoktur. ˙Insanlar tarafından yapılan veri etiketleme i¸slemi oldukça zor, zaman alan ve maliyetli bir i¸stir. Otomatik veri etiketleme teknikleri bu i¸sin ucuz ve hızlı bir ¸sekilde yapılmasını saglamaktadır. Çalı¸smada ilk olarak Türkçe Varlık ˘ ˙Ismi Tanıma (V˙IT) için otomatik veri etiketleme metodolojisinden bahsedilmi¸stir. Yapılan bu çalı¸smada DBpedia ontolojisi kullanılmı¸s ve Türkçe Wikipedia veri seti üzerinden etiketleme yapılmı¸stır. Etiketleme i¸sleminde TFIdf ve kelime vektörlerinden yararlanılan bir yöntem ile veriler etiketlenmi¸stir. Etiketler ki¸si, yer, kurum, zaman ve konuya özel varlık isimlerinden olu¸smaktadır. Çalı¸smanın ikinci bölümünde ise Türkçe için daha önce olu¸sturulmu¸s veri seti kullanılarak egitilmi¸s modellerin performansları ˘ kar¸sıla¸stırılmı¸stır. Model performansları kar¸sıla¸stırılması yapılırken kelime vektörler, karakter vektörleri ve yazım özellikleri kullanılarak kar¸sıla¸stırılmalar yapılmı¸stır. Bu kar¸sıla¸stırmaların yanında zamana baglı problemleri sınıflandırma amaçlı kullanılan ˘ CRF ve TimeDistributed Softmax gibi yöntemlere ait kar¸sıla¸stırmalar da yapılmı¸stır. Kelime vektörlerinin kullanımının tek ba¸sına yeterli olmadıgı performansı artırmak ˘ xi için karakter vektörleri ve yazım özellikleri gibi özelliklerin kullanılmasının ba¸sarımı artırıldıgı gözlemlenmi¸stir. CRF’in TimeDistributed Softmax’e göre yakla¸sık 0.5 gibi ˘ performans artı¸sı yaptıgı gözlemlenmi¸stir. Yapılan çalı¸smada 0,9486’lük F skor elde ˘ edilerek Türkçe Varlık ˙Ismi Tanıma alanında yapılan en iyi sonuca ula¸sılmı¸stır