Metin Kümelemede Alternatif Yöntemler ve Bildirim Yönetimi Üzerine Bir Uygulama


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Yıldız Teknik Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: Emre Rıdvan Muratlar

Danışman: Doğan Yıldız

Özet:

Bildirim yönetimi sistemleri CRM çalışmaları kapsamında önemli bir yere sahiptir. Müşterilerden gelen geri bildirimler değerlendirilmeli, şikayetler giderilmeli ve müşteri memnuniyeti sağlanmalıdır. Son yıllarda sosyal medya kullanımının artması ile bildirimlerin büyük bir çoğunluğu sosyal medya kanalları üzerinden gelmektedir. Bu bildirimlerin fazla sayıda olması durumunda, uygulanacak stratejilerin belirlenmesi için verilerin otomatik şekilde gruplandırılması gerekmektedir. Bu konu kapsamında çeşitli metin madenciliği ve makine öğrenmesi algoritmaları kullanılmaktadır. Veri sayısı fazla olduğunda verilerin etiketlenmesi oldukça fazla iş yükü getirmektedir. Bu gibi durumlarda kümeleme yöntemleri, benzer verilerin gruplanması için kullanılabilir. Metin verilerinin kümelenmesi yüksek veri boyutu nedeniyle zorlayıcı bir problemdir. Veri boyutunun fazla olması küme kalitesinin düşmesine ve algoritma çalışma sürelerinin uzamasına neden olmaktadır. Bu sorunun çözümü için farklı yöntemler üzerinde çalışılmaktadır. Tez kapsamında, öncelikle metin madenciliği süreçlerine değinilecek, sonrasında k-means algoritmasına alternatif olarak Küresel k-means ve Mini-Batch k-means algoritmaları incelenecektir. Tezin son aşamasında Python programlama dili kullanılarak özel bir bankayı etiketleyerek atılan tweet’lere metin madenciliği yöntemlerinden veri temizleme, kelime kökü tespiti, kelimelerin dizginciklere ayrılması, durdurma kelimelerinin elenmesi ve kelimelerin vektörleştirilmesi işlemleri yapılacaktır. Metin verileri, makine öğrenmesi algoritmalarında kullanılabilir hale getirildikten sonra k-means, Küresel k-means ve Mini-Batch k-means algoritmaları ile kümeleme yapılacaktır. Uygulama sonuçları hata kareleri toplamı(SSE), silüet katsayısı ve algoritma çalışma süreleri açısından değerlendirilecektir.