DYNAMIC DATA REPLICATION AND DISTRIBUTION IN DATABASE SYSTEMS

Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: İngilizce

Öğrenci: SAADI HAMAD THALIJ THALIJ

Danışman: Veli Hakkoymaz

Özet:

Veri tabanı sistemleri teknolojisinin gelişmesi ile birlikte yeni teorik temeller oluşmuş ve çok sayıda uygulama kullanılır hale gelmiştir. Benzer biçimde, bilgisayar ağlarının gelişimi de çok sayıda bilgisayarın birbirlerine bağlanarak aralarında veri ve kaynak değişimi yapabilmelerini sağlamıştır. Merkezileştirilmiş Veri Yönetim Sistemi ve bu sisteme çok sayıda kullanıcının aynı anda bağlanabilmesi nedeni ile Veri Yararlanıcılarının veriye tek bir büyük merkezi sistemde odaklanmaları imkansız olmuştur. Artan ağ trafiği ve azalan etkinlik nedeni ile bir çok alanda verinin bölünmesi zorunlu hale gelmiştir, ve her bir lokasyonun kendi depolama ve lokal işleme becerileri olmuştur. Bunun devamında Dağıtılmış Veri Tabanları (Distributed Databases) (DDB) ortaya çıkmıştır. Günümüzde güvenilir ve doğru veriye ihtiyaç zorunluluğu olduğundan bu veri tabanları çok önemli bir rol oynamaktadır. Donanım, yazılım, protokol, depolama ve ağlarda yaşanan yenilikçi gelişmeler sonucunda ticari gereksinimlerin konumu dönüşmüştür. Bu dönüşüm ile birlikte DDB kullanımı yapılabilir ve operasyonel bir karara dönüşmüştür. Dağıtılmış veri tabanlarının üstünlüğü fiziksel olarak bağı bulunmayan her hangi bir konumdan başka bir konuma bağlı veriyi aktarabilmesidir. Dağıtılmış Veri Tabanı Yönetim Sistemi (Distributed Database Management System) (DDBMS), dağıtılmış veri tabanını yöneten ve paralellik ile modülariteyi entegre ederek çok konumda çok kullanıcıya şeffaf erişim imkanı sunan uygulama yazılımları sınıfına girmektedir. Etkin olsa da, DDB tasarımı çok sayıda uygulama kısıtlamalarına da sahiptir. Bu kısıtlamalar verinin parçalanması, tahsisi ve kopyalanması konusunda etkin yöntemlerin seçilebilmesi konusundadır.

Bu araştırma tezi, DDB tasarım sorunları ile alakalı etkin çözümlerin geliştirilmesi konusuna odaklanmaktadır. Tezin esas amacı ise, DDBlerde sorgulamayı güçlendirip daha iyi performans sağlayabilmek adına verinin parçalanması, tahsisi ve kopyalanması konusunda güçlü yöntemler sunabilmektir. Birinci yaklaşımda, sorgulamalar ile alakalı gözlemlenen verilerin kısıtlamalarına odaklanılır. Buradaki amaç, geçici dağıtılmış veri tabanı tasarımında etkisiz olan parçalama konusu hakkında bir karara varmaktır. Bu aşamada etkinliği hesaplama işi sadece doğru tasarım ve alanlar arasındaki ağ iletişim masrafları üzerinden hesaplanır. Bu sorunu çözebilmek adına geliştirilmiş Hiyerarşik Aglomeratif Kümele (hierarchical agglomerative clustering) (IHAC) algoritma modeli kullanılarak dağıtılmış veri tabanlarının semantik fragmantasyonuı türetilir. IHAC, veri sayıları yerine tüm veri objelerini göz önüne alarak veri temsil matrisini oluşturur. Geleneksel hiyerarşik aglomeratif kümeleme algoritması ise veri temsil matrisini oluştururken benzerlik ölçümlerini seçmek ve hesaplamak için veri sayısı veya sıklığını göz önüne alır. Bu sayede veri objelerinin kümeleme işlemi daya güçlü olur ve bunun sonucu olarak da veri parçalama işlemi daha etkin bir biçimde yapılır.

İkinci yaklaşımda, sorgulama uzaktan erişimi ve verinin geri alınması nedeni oluşan iletişim masraflarından doğan DDB performans bozulmasına odaklanılır. Bu işlemi optimize etmek için etkin bir veri tahsisi yaklaşımı kullanılabilir. Bu yaklaşımda düşük masraf ile erişilebilen alanlar üzerinden sorgulamanın esnek bir biçimde alınması sağlanır. Bu işlemi yapmak için Chicken Swarm Optimization (CSO) algoritması kullanılır. Bu algoritma, Veri Tahsis Problemi (Data Allocation Problem) (DAP)’ni uygun ve minimal iletişim masrafını seçebilecek bir optimal probleme dönüştürür. Sonrasında, CSO algoritması her bir veri parçası için alanı en uygun biçimde seçer. Bunu yaparken gereksiz yük oluşturmaz ve veri güzergah sapmasına neden olmaz. Bu sayede dağıtılmış veri tabanı tasarımı genel olarak iyileşir ve sonrasında kaliteli kopyalama gerçekleşir.

Üçüncü yaklaşımda ise optimal kopya seçimi ve yerleştirme konusu ele alınır. İlk olarak, uygun veri tabanlarına ait anlık (snapshot) kopya ile birleştirme (merge) kopyalama süreçleri gösterilir. MGSO yaklaşımı, ağ içerisine yerleştirilecek kopyaların konumu ve adedini seçmek için kullanılır. Bu yaklaşım, kopyalamanın dinamik pencere mekanizması için read-write taleplerinin rastgele desenlerini kullanırken aynı zamanda MGSO kullanarak kopyalama problemini ve çok-hedefli optimizasyon problemini de modeller.

Önerilen tekniklerin değerlendirmesi Hadoop küme ortamında gerçekleştirilmiştir ve bunu yaparken “master-slave” adanmış makineler kullanılmıştır. Değerlendirme işlemleri üç ana kaynaktan büyük bir veri seti üzerinden gerçekleştirilmiştir. Bu kaynaklar Twitter, Facebook ve YouTube olup içlerinde farklı boyutlarda metin, ses ve video türünde veriler bulunmaktadır. Değerlendirme ve karşılaştırma sonuçları göstermektedir ki, bu araştırma tezinde tavsiye edilen teknikler karşılaştırma yapılan bölme, tahsis ve kopyalama tekniklerinden daha iyi sonuç vermektedir. Bu nedenle, bu çalışmanın veri bölme, veri tahsisi ve veri kopyalama sorunlarını çözerek DDB tasarımını çok güçlendirdiği söylenebilir.