What Java Developers have talked about? An empirical study on Stack Overflow


Creative Commons License

Güler Bayazıt N. , Şahin A. S.

Avrupa Bilim ve Teknoloji Dergisi, cilt.19, ss.354-365, 2020 (Diğer Kurumların Hakemli Dergileri)

  • Cilt numarası: 19
  • Basım Tarihi: 2020
  • Doi Numarası: 10.31590/ejosat.702949
  • Dergi Adı: Avrupa Bilim ve Teknoloji Dergisi
  • Sayfa Sayıları: ss.354-365

Özet

Java, çeşitli alanlarda uzun zamandır yaygın olarak kullanılan bir programlama dilidir. Java ve kütüphaneleri; hatalar, değişiklik istekleri, performans ve kullanılabilirlik gereksinimleri vb. gibi çeşitli sebeplerle sık sık güncellenmektedir. Bu makalede, bu değişikliklerin Java kullanımını nasıl etkilediği ve kullanımındaki eğilimler analiz edilmiştir. Veri kaynağı olarak, yazılım teknolojileri alanındaki en büyük çevrimiçi soru-cevap sitesi olan Stack Overflow genel veri kümesi kullanılmıştır. İlk olarak, Stack Overflow veri kümesinde Java ile ilgili sorulmuş tüm soru-cevap gönderilerini bulmak için kosinüs benzerliği kullanan pratik bir yaklaşım önerilmiş ve bu yaklaşım daha önceki yaklaşımlarla karşılaştırılmıştır. Daha sonra, oluşturulan derlem üzerinde konu modelleme yapmak için Gizli Dirichlet Ayırımı yöntemi kullanılarak ana konular belirlenmiş; ana konular ve anahtar kelimeler yıllara göre incelenmiştir. Son olarak, konular “alana özgü” ve “geliştirme ortamıyla ilgili” konular olarak sınıflandırıp, bu sınıfların hem kısa vadede hem de uzun vadede değişme eğilimleri araştırılmıştır

Java has been a widely used programming language for a long time in various fields. Java and its libraries have been frequently updated for various reasons including bugs, change requests, performance and usability requirements and so on. In this paper, we examine how these changes affect the use of Java and analyze trends in its usage. As a data source, we use the Stack Overflow public dataset which is the largest online Q&A site about software technologies. We firstly employ a practical approach to extract the Javarelated posts from the Stack Overflow dataset using cosine similarity and compare it with previous works. We then apply Latent Dirichlet Allocation (LDA) to the corpus for topic modelling. We divided the data set into two-year periods to obtain consistent clusters. After obtaining main topics, we examine topics and keywords on a two-year basis. Finally, unlikely previous works, we manually classify topics into two as “domain-specific” and “development environment” and investigate tendencies of these classes to change in both the short term and the long term.