Şablon ve Anlamsal Benzerlik Tabanlı Alt-Üst Kavram İlişkisinin Türkçe Derlemden Otomatik Çıkarılması


ŞAHİN G., DİRİ B., Yıldız T.

IEEE 23. Sinyal İşleme ve Uygulama Kurultayı, Malatya, Türkiye, 16 Mayıs 2015, ss.1-5

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Malatya
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-5
  • Yıldız Teknik Üniversitesi Adresli: Evet

Özet

Özetçe—Anlamsal ilişkilerin çeşitli kaynaklardan (Wikipedia, Web, derlem vb.) çıkartılması doğal dil işleme çalışmalarında önemli bir konudur. Bu çalışmada alt-üst kavram ikililerinin Türkçe derlemden otomatik çıkartılması amaçlanmıştır. İkililerin çıkartılmasında şablon ve anlamsal benzerlik tabanlı yöntemler birlikte kullanılmıştır. Başlangıç ikililerinden şablonlar elde edilmiş, şablonlar kullanılarak çeşitli üst kavramlar için alt kavramlar üretilmiştir. Doküman frekansı ve anlamsal benzerlik tabanlı eleme yöntemleri kullanılarak hatalı aday alt kavramlar elenmiştir. 14 farklı üst kavram için denemeler yapılmış ve ortalama %77 oranında doğruluk elde edilmiştir.

Anahtar Kelimeler — şablon tabanlı yaklaşım; alt-üst kavram ilişkisi; anlamsal benzerlik; birliktelik ölçümü.

Abstract—Extraction of semantic relations from various resources (Wikipedia, Web, corpus etc.) is an important issue in natural language processing. In this paper, automatic extraction of hyponym-hypernym pairs from Turkish corpus is aimed. For extraction of hyponym-hypernym pairs, pattern and semantic similarity based methods are used together. Patterns are extracted from initial hyponymhypernym pairs and using patterns, hyponyms are extracted for various hypernyms. Incorrect candidate hyponyms are removed using document frequency and semantic similarity based elimination methods. After experiments for 14 hypernyms, average accuracy of 77% was obtained.

Keywords — pattern based approach; hyponymhypernym relation; semantic similarity; association measure.