Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici

Uzun, Alp; Özer, Alperen; Turkmen, Hafiza

doi:10.7240/jeps.888164

Evrişimsel Sinir Ağı Tabanlı Osmanlıca Belge Çözümleyici

Uzun A. B., Özer A., Turkmen H. I.

International journal of advances in engineering and pure sciences (Online), cilt.33, sa.4, ss.581-591, 2021 (TRDizin)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 33 Sayı: 4
Basım Tarihi: 2021
Doi Numarası: 10.7240/jeps.888164
Dergi Adı: International journal of advances in engineering and pure sciences (Online)
Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
Sayfa Sayıları: ss.581-591
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Yıldız Teknik Üniversitesi Adresli: Evet

Osmanlıca, yüzyılları kapsayan bir tarihe ışık tutabilecek, onlarca neslin yaşantılarını, hayallerini, bilgi birikimini kapsayan zengin bir dildir. Ancak Arap alfabesini temel alan karmaşık yapısı ve Türkçe’nin ihtiyaçlarını karşılamakta zorlanması nedeni ile modern çağa uyum sağlayamamış ve değişime uğramıştır. Evrişimsel Sinir Ağları Tabanlı Osmanlıca Belge Çözümleyici projesi kapsamında, tarihi belgeler üzerinde araştırma yapmak isteyen insanların önüne çıkan yeni bir alfabe öğrenme zorluğunu gidermek ve Osmanlıca yazılmış belgeleri anlamalarını kolaylaştırmak için bir platform geliştirilmesi amaçlanmıştır. Platform, kullanıcının görüntüsünü verdiği Osmanlıca belgenin içinde kullanıcının çevirmek istediği metni seçmesini ve bu metnin perspektif dönüşüm ile düzeltilerek sonraki görüntü işleme adımlarına hazır hale gelmesini sağlayan bir araç bulundurmaktadır. Seçilen metin otomatik görüntü işleme yöntemleri ile satırlarına, kelimelerine ve karakterlerine ayrıldıktan sonra bir Evrişimsel Sinir Ağı (ESA, Convolutional Neural Network-CNN) kullanılarak metinde bulunan karakterler tanınmıştır. Arap alfabesi ve yazım kuralları nedeni ile birçok kelimede yazılmayan, ya da yazılıp telaffuz edilmeyen karakterler bulunmaktadır. Bu nedenle, kelimelerin düzenlenmesi gerekmektedir. Bu işlem ise Zemberek doğal dil işleme eklentisi kullanılarak yapılmış, metinde bulunan kelimelere karşılık gelebilecek kelimelerin önerilmesi amaçlanmıştır. Kullanıcıya Zemberek eklentisinin önereceği kelimeler arasında seçim yapma ya da kendi önerdiği kelimeyi girme imkanı tanınmıştır. Sonuç olarak sistemin satır ayırma başarısı %97, satırlar üzerindeki kelimeleri ayırma başarısı ise %96 olmuştur. Bununla birlikte uygun ayrılmış karakterler için %88.47 doğru sınıflandırma yapılmaktadır.

Ottoman Turkish is a rich language that can shed light on the history spanning centuries, encompassing the lives, dreams and knowledge of dozens of generations. However, it could not adapt to the modern age and has changed due to its complex Arabic alphabet-based structure and the difficulties at meeting the needs of Turkish. Within the scope of the Convolutional Neural Networks Based Ottoman Document Analyzer project, it is aimed to develop a platform for people who want to research on historical documents to overcome the difficulty of learning a new alphabet and to facilitate their understanding of documents written in Ottoman Turkish. The platform has a tool that allows the users to select the Ottoman document that they want to translate and to correct this document with perspective transformation in order to make it ready for latter image processing steps. After the selected text is divided into lines, words, and characters, respectively, the characters in the document are recognized using a Convolutional Neural Network. Because of the Arabic alphabet and spelling rules, there are characters that are not written or pronounced in many words. Therefore, the words need to be arranged. This process is performed by using Zemberek natural language processing plugin and it is aimed to suggest words that could correspond to the words in the text. The users are enabled to choose between the words suggested by the Zemberek plugin or to enter the word they suggest. As a result, the success of the line separation process of the system is 97%, and the success of separating the words on the lines is 96%. In addition to this, 88.47% correct classification is performed for appropriately separated characters.