Türkçe Parça-Bütün İlişkisi İkililerinin Derlemden Çıkartılması için Hibrit Bir Metot


ŞAHİN G., DİRİ B., Yıldız T.

24.Sinyal İşleme ve İletişim Uygulamaları (SİU) Kurultayı, Zonguldak, Türkiye, 16 Mayıs 2016, ss.1-5

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Zonguldak
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-5
  • Yıldız Teknik Üniversitesi Adresli: Evet

Özet

Özetçe— Çeşitli anlamsal ilişkilere ait kavramsal ikililerin farklı kaynaklardan (sözlük tanımları, derlem vb.) otomatik ve yüksek doğrulukla çıkartılması doğal dil işlemedeki (DDİ) önemli çalışmalardan birisidir. Bu çalışmada Türkçe parça-bütün ilişkisi ikililerinin derlemden çıkartılması için hibrit bir yöntem önerilmiştir. Önerilen yöntemde derlem istatistik bilgileri, WordNet benzerlik fonksiyonları ve Word2Vec kelime vektör benzerliklerinden yararlanılmıştır. Başlangıç parça-bütün ikilileri oluşturulmuş ve ilişkiye ait şablonlar derlemden çıkartılmıştır. Şablonların güvenilirlik puanları hesaplanmış ve güvenilir şablonlar yeni ikililer üretmede kullanılmıştır. Üretilen yeni parça-bütün ikilileri için çeşitli güvenilirlik puanları hesaplanmıştır. Yöntemin başarısı 19 bütün kavram için üretilen parça kavramların doğrulukları hesaplanarak ölçülmüş ve ortalama %83 (ilk 10 ikili), %74 (ilk 20 ikili), %68 (ilk 30 ikili) tutturma değerleri elde edilmiştir.

Anahtar Kelimeler — parça-bütün anlamsal ilişkisi; şablon tabanlı yöntem; sözdizimsel şablon; anlamsal sözlük; doğal dil işleme

Abstract— Extraction of various semantic relation pairs from different sources (dictionary definitions, corpus etc.) with high accuracy is one of the most popular topics in natural language processing (NLP). In this study, a hybrid method is proposed to extract Turkish part-whole pairs from corpus. Corpus statistics, WordNet similarities and Word2Vec word vector similarities are used together in this study. Firstly, initial part-whole seeds are prepared and by using these seeds part-whole patterns are extracted from corpus. For each pattern, a reliability score is calculated and reliable patterns are selected to produce new pairs from corpus. Various reliability scores are used for new pairs. To measure success of method, 19 target whole words are selected and average 83% (first 10 pairs), 74% (first 20 pairs), 68% (first 30 pairs) precisions are obtained, respectively.

Keywords — part-whole semantic relationship; pattern based method; lexico-syntacti