Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, -, Türkiye
Tezin Onay Tarihi: 2019
Tezin Dili: Türkçe
Öğrenci: Mustafa Keskin
Danışman: Banu Diri
Özet:
Varlık ˙Ismi Tanıma (V˙IT) Dogal Dil ˘ ˙I¸sleme (DD˙I) süreçlerinde yer alan önemli bir
görevdir. Günümüzde bilgi eri¸sim sistemlerinin çogunda kullanılmaktadır. Makine ˘
Ögrenme tabanlı denetimli modellerin e ˘ gitilmesi için etiketli veri setleri gereklidir. ˘
V˙IT görevi için bir korpustaki her bir kelimenin etiketli olması gerekmektedir.
Büyük miktardaki verileri etiketleme i¸slemi ˙Ingilizce için düzenli olarak yapılsa da
diger diller için bu i¸slem genellikle böyle yapılmamaktadır. ˘ ˙Ingilizce için yapılan
çalı¸smalarda bile genellikle gazete makaleleri gibi belirli alanlarda sınırlıdır. Diger ˘
alanlardaki görevler için etiketlenmi¸s kelimelerin sayısı neredeyse hiç yoktur. ˙Insanlar
tarafından yapılan veri etiketleme i¸slemi oldukça zor, zaman alan ve maliyetli
bir i¸stir. Otomatik veri etiketleme teknikleri bu i¸sin ucuz ve hızlı bir ¸sekilde
yapılmasını saglamaktadır. Çalı¸smada ilk olarak Türkçe Varlık ˘ ˙Ismi Tanıma (V˙IT)
için otomatik veri etiketleme metodolojisinden bahsedilmi¸stir. Yapılan bu çalı¸smada
DBpedia ontolojisi kullanılmı¸s ve Türkçe Wikipedia veri seti üzerinden etiketleme
yapılmı¸stır. Etiketleme i¸sleminde TFIdf ve kelime vektörlerinden yararlanılan bir
yöntem ile veriler etiketlenmi¸stir. Etiketler ki¸si, yer, kurum, zaman ve konuya
özel varlık isimlerinden olu¸smaktadır. Çalı¸smanın ikinci bölümünde ise Türkçe için
daha önce olu¸sturulmu¸s veri seti kullanılarak egitilmi¸s modellerin performansları ˘
kar¸sıla¸stırılmı¸stır. Model performansları kar¸sıla¸stırılması yapılırken kelime vektörler,
karakter vektörleri ve yazım özellikleri kullanılarak kar¸sıla¸stırılmalar yapılmı¸stır. Bu
kar¸sıla¸stırmaların yanında zamana baglı problemleri sınıflandırma amaçlı kullanılan ˘
CRF ve TimeDistributed Softmax gibi yöntemlere ait kar¸sıla¸stırmalar da yapılmı¸stır.
Kelime vektörlerinin kullanımının tek ba¸sına yeterli olmadıgı performansı artırmak ˘
xi
için karakter vektörleri ve yazım özellikleri gibi özelliklerin kullanılmasının ba¸sarımı
artırıldıgı gözlemlenmi¸stir. CRF’in TimeDistributed Softmax’e göre yakla¸sık 0.5 gibi ˘
performans artı¸sı yaptıgı gözlemlenmi¸stir. Yapılan çalı¸smada 0,9486’lük F skor elde ˘
edilerek Türkçe Varlık ˙Ismi Tanıma alanında yapılan en iyi sonuca ula¸sılmı¸stır