AN EXPERIMENT ON DISTANCE METRICS USED FOR ROAD MATCHING IN DATA INTEGRATION


Creative Commons License

Hacar M., Gökgöz T.

SIGMA JOURNAL OF ENGINEERING AND NATURAL SCIENCES-SIGMA MUHENDISLIK VE FEN BILIMLERI DERGISI, cilt.34, ss.527-542, 2016 (Hakemli Dergi) identifier

Özet

Karar alıcılar ve araştırmacılar analiz etmek, birleştirmek ya da yeni verisetleri oluşturmak için farklı kaynaklardan gelen verisetlerine ihtiyaç duyarlar. Aynı varlık; projeksiyon, ölçek, doğruluk, amaç ve zaman gibi üretim farklılıkları nedeniyle, farklı verisetlerinde farklı geometri, topoloji ve özniteliklerle temsil ediliyor olabilir. Nesnelerin geometri, topoloji ve öznitelikleri, verisetlerini birleştirirken ve entegre ederken sıklıkla kullanılırlar. Mekansal verisetlerini eşlemek veri entegrasyonunun en önemli aşamalarından biridir. Verisetlerini eşlemek için geometrik, topolojik ve öznitelik benzerlikleri içeren çeşitli parametreleri kullanan çok sayıda algoritma geliştirilmiştir. Bunlar genel olarak farklı verisetlerinin nesneleri arasındaki benzerlikleri bulur ve analiz etmek, birleştirmek, güncellemek, veri transferi yapmak için ilgili nesneler arasında ilişkiler kurar. Geometri, topoloji ve özniteliklerdeki farklılıklar eşleme işlemlerini zorlaştırmaktadır. Araştırma problemi, kabul edilebilir eşleme sonuçlarını elde etmek için benzerlik parametrelerinin kritik seçimidir. Makalenin kapsamı uzunluk ölçüleri ile sınırlandırılmıştır. Bu çalışmada, yol eşlemelerinde sıklıkla kullanılan, noktadan noktaya ve noktadan çizgiye ölçülen uygun mesafe ölçülerini belirlemek amaçlanmıştır. Farklı veritabanlarındaki iki yol veriseti bir açık kaynak yazılımın eklentisi ile bu ölçüler kullanılarak otomatik eşlenmiştir. Her bir eşleme işleminin başarısını belirlemek için otomatik eşleme sonuçları manuel eşleme sonuçları ile karşılaştırılmıştır. Sonuç olarak, yol eşlemeleri için bu ölçülerin hiç birinin tek başına yeterli olamayacağı görülmüştür. Ancak, ağırlık merkezleri arasındaki mesafe ve Hausdorff mesafeleri daha iyi sonuçlar vermiştir.

Decision makers and researchers need datasets from different sources to analyze, combine, or create new spatial datasets. The same entity may be represented with different geometries, topologies, and attributes in different datasets due to differences in production, such as projection, scale, accuracy, purpose, and date. The geometries, topologies, and attributes of objects are often used when combining and integrating the datasets from different sources. Matching spatial datasets is one of the most important phases of data integration. Many algorithms have been developed to match datasets using several parameters inspired by geometric, topological, and attribute similarities. They generally find the similarities between objects in different datasets and create relations between each object in order to analyze, combine, update, and transfer data. The differences in geometries, topologies, and attributes make the matching process difficult. The research problem is the critical selection of similarity parameters to ensure the satisfactory matching results. The scope of this paper was limited with distance metrics. In this study, it was aimed to determine the suitable distance metrics measured from point to point and from point to line, which are widely used as parameters in road matching. Two road datasets in different databases were automatically matched using these metrics by employing a plugin of an open desktop software. Automatic matching results were compared to manual matching results to determine the success of each matching process. Consequently, it was shown that none of these metrics for road matching was adequate on its own. However, the distance between centroids of roads and Hausdorff distances were more satisfactory.