Yapısal olmayan türkçe verilerin bağlı veri kaynaklarıyla etiketlenmesi


Öğrenci: ENES BULUT

Danışman: Rıza Cenk Erdur

Bu tezde yapısal olmayan Türkçe özgeçmişler ve LinkedIn profesyonel sosyal ağ sitesinden sağlanan yarı yapısal Türkçe veriler bağlı veri kaynaklarıyla etiketlenerek anlamsallaştırılmıştır. Verilerin etiketlenmesinde kullanılan Türkçe doğal dil işleme aracının geliştirilmesinde kullanılabilecek kütüphaneler incelenmiş ve bu kütüphanelerden Zemberek kütüphanesi kullanılmıştır. Etiketlenmiş verilerin ve çalışma kapsamında kullanılan diğer verilerin saklanmasında kullanılabilecek veri depolama altyapıları incelenmiştir. Verilerin saklanacağı en etkin veri depolama altyapısını belirlemek için anlamsal verilerin saklandığı üçlü depolama altyapıları ile NoSQL veritabanları incelenmiştir. Çalışmada melez veri altyapısını destekleyen Polyglot Persistence yaklaşımı benimsenmiştir.