The Implementation of DCGAN in the Data Augmentation for the Sperm Morphology Datasets


Creative Commons License

Balayev K., Guluzade N., Aygün S. , İlhan H. O.

European Journal of Science and Technology, pp.307-314, 2021 (Refereed Journals of Other Institutions)

  • Publication Type: Article / Article
  • Publication Date: 2021
  • Doi Number: 10.31590/ejosat.952561
  • Title of Journal : European Journal of Science and Technology
  • Page Numbers: pp.307-314

Abstract

A large amount of data is the key requirement in order to train a neural network efficiently. Using a small size training set in network training causes low accuracy for model performance over the testing set and also hard to implement the model in practice. Similar to many other problems, sperm morphology datasets are also limited for training the neural network-based deep networks in order to provide an automatic evaluation of sperm morphometry. Data augmentation mitigates this problem by utilizing actual data more effectively. The standard data augmentation techniques focus on only spatial changes over the images and can only produce a restricted number of useful informative and disjunctive data. Therefore, in order to create more distinctive and diverse data than the regular spatial domain-based augmentation techniques, a deep learning-based data augmentation technique which is known as the generative model, is trained in this study for the sperm morphology datasets. The deep convolutional generative adversarial network (DCGAN) was optimized and utilized in this study for three well-known sperm morphometry datasets as SMIDS, HuSHeM, and SCIAN-Morpho. Each dataset was individually augmented to a 1000 sample size by the proposed approach. In order to optimize the network with different parameters and observe the generated data, a graphical user interface has been designed. For the similarity evaluation of the generated images to original images, the Fréchet Inception Distance (FID) score was utilized. The FID results indicate that the most similar generated images have been obtained for SMIDS with an average of 29.06 FID score. The worst performance (Average FID = 53.46) was obtained for the SCIAN-Morpho dataset, which has low resolution and data imbalance problems. Lastly, DCGAN based proposed approach resulted in an average of 44.25 FID score for the HuSHeM dataset.

Bir sinir ağını verimli bir şekilde eğitmek için büyük miktarda veri temel gereksinimdir. Ağ eğitiminde küçük boyutlu bir eğitim kümesinin kullanılması, test kümesinde düşük doğruluklu model performansına neden olur ve modelin pratikte uygulanmasını zorlaştırır. Diğer birçok soruna benzer şekilde, sperm morfolojisi veri kümeleri de, sperm morfometrisinin otomatik değerlendirilmesini sağlamak için sinir ağı tabanlı derin ağları eğitmek açısından sınırlıdır. Veri artırma, gerçek verileri daha verimli kullanarak bu sorunu azaltır. Standart veri artırma teknikleri, yalnızca görüntüler üzerindeki uzamsal değişikliklere odaklanır ve sadece sınırlı sayıda yararlı bilgi sağlayan ve ayrık veri üretebilir. Bu nedenle, standart uzamsal tabanlı veri artırma tekniklerinden daha farklı ve çeşitli veriler oluşturmak için, bu çalışmada sperm morfolojisi veri kümeleri adına üretici model olarak bilinen derin öğrenme tabanlı bir veri artırma tekniği kullanılmıştır. Bu çalışmada Derin Evrişimli Üretici Çekişmeli Ağ (DCGAN) optimize edilmiş ve SMIDS, HuSHeM ve SCIAN-Morpho gibi üç iyi bilinen sperm morfometrisi veri kümeleri kullanılmıştır. Her veri kümesi, önerilen yaklaşımla ayrı ayrı 1000 örneklem büyüklüğüne yükseltilmiştir. Ağı farklı parametrelerle optimize etmek ve üretilen verileri gözlemlemek için grafiksel bir kullanıcı arayüzü tasarlanmıştır. Üretilen görüntülerin orijinal görüntülere benzerlik değerlendirmesi için Fréchet Başlangıç Mesafesi (FID) skoru kullanılmıştır. FID sonuçları, oluşturulan en benzer görüntülerin ortalama 29.06 FID puanı ile SMIDS için elde edildiğini göstermektedir. En kötü performans (Ortalama FID = 53.46), düşük çözünürlük ve veri dengesizliği sorunları olan SCIAN-Morpho veri kümesi için elde edilmiştir. Son olarak, DCGAN tabanlı önerilen yaklaşım HuSHeM veri kümesi için ortalama 44.25 FID puanıyla sonuçlanmıştır.