Veriler her zaman analize hazır halde değildir. Gazetecilerin verilerde oluşabilecek hataları, dağınıklıkları anlamaları ve düzeltmeleri gerekmektedir. Veriyi temizlemek demek, verinin neden dağınık olduğunu tespit edebilmek anlamına gelir. Günümüz dünyasında çoğu veriler otomatik olarak toplansa bile, elle girilen verilerde ya da verilerin aktarımında birtakım sorunlar oluşabilmektedir. Veriler dağınık olmasa bile onları düzenlemek gerekebilir, ya da çok fazla veri seti ile çalışılıyor ise bunların birleştirilerek yapılandırılması önemli olabilir.
Örneğin temizlemek istediğiniz veri setinde eksik değerler, yazım hataları, gizemli değerler, kısaltmalar, gömülü değerler, kelime aktarımı, çift kayıtlar, çelişen kayıtlar, yanlış referanslar, yasa dışı değerler, benzersiz ihlaller, referans bütünlüğü ihlali gibi sorunlarla karşılaşıldığında, bilgilerin doğruluğu farklı kaynaklarla karşılaştırılmalı ve ardından analiz yapılmalıdır.
Veri setinde eksik bir bilgiyi doğrulatamıyor ve gerçek kaynağına ulaşamıyorsanız, ancak diğer taraftan elinizden gelen her türlü çalışmayı yaptığınıza inanıyorsanız, analizinizi ulaşamadığınız bilgi üzerinden devam ettirmelisiniz. Değerlerin normalin dışında eksik olduğunu, eklenmediğini ya da paylaşılmadığını düşünüyorsanız, eksik değerler üzerinden nasıl bir yol izlenebileceğini bir veri bilimci ya da bir istatistikçi ile mutlaka konuşmalısınız. Tabii ki bu temizleme sürecini yaparken gazeteciler dikkatli olmalı ve veri kaybı yaşamamaya dikkat etmelidir. Bu süreç verilerin doğruluğu kadar önemlidir. Veri gazetecileri tarafından kullanılan yaygın veri temizleme araçları ve nasıl kullanıldıklarını aşağıda aşama aşama görebilirsiniz.
1.1) Google E-tablo ile Dağınık Veri Temizleme
Boşlukları kaldırma, üst ve alt fonksiyon, yazım düzeni, bul ve değiştir, metni sütuna böl gibi çeşitli işlemlerin uygulanmasını sağlıyor. Bu işlemleri nasıl yapacağınıza dair aşağıdaki slaytları inceleyebilirsiniz.
1.2) Open Refine ile Dağınık Veri Temizleme
Aşağıdaki slaytlarda düzenli veri, dağınık veri ve veriyi dağınık yapan unsurlara ilişkin bilgi edinebilirsiniz. Ayrıca verinin neden temizlendiği ve bunun etik şekilde nasıl yapılabileceğinin yanı sıra Open Refine programının nasıl kullanıldığını da bu slaytlarda görebileceksiniz.
1.3) Workbench Data ile Dağınık Veri Temizleme
Workbenchdata’ya url yükleme, boş satırları ve boş sütunları çıkarma, tarih ve zamana dönüştürme, sayıya dönüştürmek, sütun değerlerini standartlaştırma, tablo biçimini değiştirme, metin temizleme gibi işlemlerin nasıl yapılacağı konusunda aşağıdaki slaytları inceleyebilirsiniz.
1.4) Google E-tablo ile Veri Düzenleme / Birleştirme
Vlookup (düşeyara) fonksiyonu ile veri birleştirme ya da “dikey arama”, bir aralığın ilk sütununu tarayarak bir anahtar arar ve bulunan satırda belirtilen hücrenin değerini döndürür.
Kullanılan veri seti: https://bit.ly/3ld48uc
1.5) Tableau Public ile Veri Birleştirme
Inner, left, right, full outer fonksiyonlarıyla verileri Tableau Public aracını kullanarak birleştirebilirsiniz. Tableau Public bir veri analitik ve görselleştirme aracı olmakla birlikte verileri birleştirmek için de kullanılabilir. Aşağıda Tableau Public’de verilerin nasıl birleştirilebileceğini görebilirsiniz.
Test
Bu derste Google e-tablo, Openrefine, Workbench Data, Tableau Public ilse veri temizleme, veri birleştirmeyi öğrendiniz. Bu modülü daha verimli kılmak için buraya tıklayarak bu bölüme dair kısa bir test çözebilirsiniz.