Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2024
Tezin Dili: Türkçe
Öğrenci: Gamze Altunsaçan
Asıl Danışman (Eş Danışmanlı Tezler İçin): Birol Aslanyürek
Eş Danışman: Emrah Aydın
Özet:
Günümüzde hastalıkların teşhis edilmesi, yeni tedaviler bulunması veya sağlık
çalışanlarına destek olunması amacıyla çok fazla sayıda yapay zekâ temelli yöntem
geliştirilmiştir. Büyük miktardaki sağlık verilerinin işlenmesi sonucu sağlık
alanındaki ciddi ilerlemelere rağmen gelinen seviyenin sadece başlangıç olduğu
söylenebilir.
Bir hasta, bir sağlık kurumuna başvurduğunda hastanın şikâyeti, hikayesi, test
sonuçları, aldığı tanı, kullanılan ilaçlar, geçirdiği operasyonlar gibi birçok bilgi
elektronik kayıt sistemlerinde tutulur. Bu bilgilerin bir kısmı yapılandırılmış
haldedir ve kolayca makine öğrenmesi yöntemlerinde öznitelik olarak
kullanılabilir. Semptomları da içeren klinik metinler ise yapılandırılmamış halde
tutulmakta ve bu nedenle doğrudan makine öğrenmesi yaklaşımında kullanmaya
uygun değillerdir. Hastalıkların tanısının konmasında semptomların çok büyük
etkisi vardır. Bu nedenle metin içinden semptom çıkarımı yapılarak metin
verilerinin yapılandırılmış hale dönüştürülmesi, makine öğrenmesi yaklaşımlarıyla
hastalıkların tespit edilmesi ve tanı süreçlerinin iyileştirilmesi açısından önemli bir
rol oynayacaktır. Bu kapsamda, bu tezin amacı çocuk hastalara ait Türkçe klinik
metinlerden semptom çıkarımıdır.
Yapılandırılmamış klinik metin verilerinden semptom çıkarımı için çeşitli doğal dil
işleme teknikleri kullanılmıştır. Metin verileri toplandıktan sonra öncelikle
anonimleştirilmiştir. Anonimleştirme işleminin ardından çocuk hastalıkları
uzmanlarının desteğiyle veri seti üzerinden semptomlar etiketlenmiştir ve ardından
temizleme, dönüştürme ve normalizasyon gibi ön-işlemler yapılmıştır.
Temizlenmiş verileri makine öğrenmesi yöntemlerinde öznitelik olarak kullanmak
amacıyla çeşitli vektörleştirme teknikleri aracılığıyla metinler sayısal hale
dönüştürülmüştür. Son olarak karar ağaçları, destek vektör makineleri, lojistik
regresyon, yapay sinir ağları ve rastgele orman yöntemi gibi toplu ağaç
sınıflandırıcılarıyla semptomların varlığı-yokluğu ve varsa semptomun ne olduğu
tahmin edilmiştir. Özellikle karar ağacı ve toplu ağaç sınıflandırıcılarının oldukça
başarılı makine öğrenmesi modelleri geliştirdiği gözlemlenmiştir.