2021 29th Signal Processing and Communications Applications Conference (SIU), İstanbul, Türkiye, 9 - 11 Haziran 2021, ss.1-4
Özetçe—Firmaların çeşitli kanallar aracılığıyla topladıkları
müşteri yorumları, müşteri memnuniyetinin değerlendirilmesi
için faydalı kaynaklardır. Yapılan yorum miktarının sürekli
artması manuel analizi zorlaştırmakta, zaman ve insan kaynağı
tüketmektedir. Bu çalışmada, bankacılık hizmetlerini kullanan
müşterilerin NPS anketleri yoluyla toplanan Türkçe yazılmış
yorumları Doğal Dil İşlemesi yöntemleri ile analiz edilmiştir.
BERT tabanlı duygu sınıflandırma modelleri geliştirilmiş ve
bankacılık alanı için geleneksel yöntemlerle karşılaştırılmıştır.
Yöntemlerin etkinliği, (i) az miktarda etiketli eğitim verisinin
olduğu ve (ii) hedef alanda etiketli eğitim verisinin olmadığı
kısıtlı-kaynaklı durumlar için araştırılmıştır. Birinci durum için,
BERTurk tabanlı modelin geleneksel modellere göre daha
yüksek başarım elde ettiği ve eğitim verisinin azalmasından daha
az etkilendiği gösterilmiştir. İkinci durum için, Twitter'dan alan
dışı verilerin eğitim için kullanılması araştırılmıştır. Ayrıca,
doğal dil çıkarımı için ön-eğitilmiş olan XLM-Roberta tabanlı
model ile örneksiz öğrenme yaklaşımı değerlendirilmiştir. Alan
dışı verilerin kullanılması bankacılık alanında duygu analizi için
düşük performansla sonuçlanırken, örneksiz öğrenme yaklaşımı
ile umut verici sonuçlar elde edilmiştir.
Abstract—Customer comments collected by companies
through various channels are useful resources for understanding
customer satisfaction. The continuous increase in the amount of
comments makes manual analysis infeasible. In this study, the
comments of customers, written in Turkish, regarding banking
services collected through NPS questionnaires were analyzed
using Natural Language Processing methods. BERT-based
sentiment classification models were developed and compared
with traditional methods for the banking domain. The
effectiveness of the methods was investigated in a low-resource
setting, where (i) there is a small amount of labeled training data
and (ii) there is no labeled training data in the target domain. For
the first case, the results showed that BERTurk-based model
performs better than the traditional models and its performance
is affected less from the decrease in training data size. For the
second case, training with out of domain data from Twitter was
explored. In addition, zero-shot learning with XLM-Roberta,
which was pertained for natural language inference, was
investigated. While using out of domain data resulted in poor
performance, the zero-shot learning approach achieved
promising results for sentiment classification in the banking
domain.