Bu derste veri gazetecilerinin neden veri toplarken veri biyografisi kullanmaları gerektiğini, temel veri kavramlarının veriyi anlamada neden önemli olduğunu, üstverinin veriyi yorumlamada ve doğrulamada etkisini görecek, veri doğrulama süreçlerini ve yaygın dosya tiplerini öğreneceksiniz.
Belirli bir konu veya sorun hakkında veri topluyorsanız öncelikli olarak hangi verilerin mevcut olduğunu, hangilerinin mevcut olmadığını belirlemek için veri biyografisi taslağını kullanarak ya da veri ile çalışma akışı tablosunu takip ederek başlayabilirsiniz. Böylece nereden başlamanız gerektiğine dair yöntem oluşturursunuz; bu da siz gazetecilere zaman kazandırır. Yapılan araştırmalar ve incelenen veri gazeteciliği projeleri haberlerde toplamda %40.8 nicel veri kullanıldığını, kalanında ise diğer veri türlerinin kullanıldığını gösteriyor. Bu bir açıdan bize her tür veri ile çalışma becerimizi geliştirmemiz gerektiğini söylüyor.
Yukarıda yer alan grafik, toplamaya başladığınız veri ile ilgili nasıl bir yol izlemeniz gerektiğine yönelik yardımcı oluyor:
-
Topladığınız veri ile ilgili fikri olan bir uzmana ulaşınız.
-
Ulaştıysanız en güncel veriye nereden ulaşacağınızı sorunuz.
-
Veriye çevrim içi ulaşıyorsanız ama istediğiniz şekilde mevcut değilse, o zaman kazıma araçları ile veri kazıyınız, diyor.
1.1) Temel Veri Türlerini ve Kavramlarını Anlamak
Veri, bilginin yapılandırılıp, kayıt altına alınıp, kolay analiz edilebilmesi için bir araya getirilmesidir. Veri genellikle araştırma, gözlem, deney, sayım, ölçüm yoluyla elde edilir. Yaş, isim, telefon numarası, bir toplama işleminin sonucu ya da sınıfın yaş ortalaması birer veridir. Ham veri etkin şekilde bilgi üretme ve analiz için önemli bir hammadde olarak görülebilir.
Örneğin, anketler aracılığı ile oluşturulan veriler (seçim verileri), bir oylama yapıldığında (seçim sonuçları verileri), bir kayıt yapıldığında (doğum kayıtları verisi), bir şey satın alındığında (çevrim içi satış kayıtları vb.) gibi. Veri ayrıca cep telefonları, İnternet, uydu (GPS verisi gibi) ve birçok farklı teknolojiler tarafından da oluşturulabiliyor. Gündelik hayatımızda veriyi sıklıkla tablolarda düzenlenmiş buluruz. Tek bir tablonun içeriği veri seti olarak ifade edilir.
Veri setini analiz ederek ondan yeni bilgi ya da görsel çalışmalar üretmek karar alma, politika üretme süreci için önemlidir. Ancak veri gazeteciliği tanımında da yer aldığı gibi veri gazetecileri sadece nümerik verilerle çalışmıyor; Nitel veriler (Qualitative data), Nicel veriler (Quantitative data), Kategorik veriler (Categorical data) ile de çalışıyor.
-
Nitel veriler (Qualitative data) birimlere dayalı ölçümlerle değil, sayımlarla değerleri belirtilebilen, belli bir yapısal veya kurumsal özelliği taşımakla (veya taşımak ile) simgelenen verilerdir. Cinsiyet, saç rengi vb. nitel özellikleri, yani bir deneğin niteliklerini belirten verilerdir. Eğitim durumu, ev sahibi olup olmama, vs. gibi nitel veriler iki gruba ayrılır:
– Sınıflanabilen Nitel Veri: Birbirinden bağımsız isim bildiren, kod ve numara ile gösterilebilen, sınıflara ayrılan verilerdir. Taşıtlar: kara, hava ve deniz taşıtları.
– Sıralanabilen Nitel Veri: Belirli bir miktar belirtmeyen, bir sıra ya da dereceye göre elde edilen verilerdir. Öğrencilerin başarı durumu: pekiyi, iyi, orta.
-
Nicel veriler (Quantitative data) birimlerin ölçüm ve tartım sonucu değerleri saptanan sayısal özelliklerini belirten, aralıklı ölçekli veya orantılı ölçekli değişkenlerdir. Bir deneğin sayılabilir, ölçülebilir özelliğini veren verilerdir (örneğin golf toplarının sayısı, ölçüsü, fiyatı, bir testteki skor vs.). Sürekli nicel veri ve kesikli nicel veri olmak üzere iki türe ayrılır:
– Sürekli nicel veri: Ondalıklı değerler alabilen nicel verilerdir: Boy uzunluğu, kilo, vb.
– Kesikli nicel veri: Sayılarak elde edilen ve tam sayılı değerlerdir: Nüfus, öğrenci sayısı, hane halkı sayısı…
-
Kategorik veriler (Categorical data ) tanımladığınız veriyi bir kategoriye koyar: Bizim örneğimizde kullanılmış olma durumu kategoriktir (yeni, kullanılmış, kırık, arızalı vb.).
1.2) E-tablo ile Veri Doğrulama Yöntemleri
Toplanan verilerin girişini yaparken verilerin doğru girilmesini sağlamak önemlidir. Ancak hem haber merkezleri için hem de gazeteciler için maliyetlidir. Veri doğrulama süreci girilen verilerin doğru olduğundan emin olamaz, sadece rasyonel, mantıklı ve kabul edilebilir olduğunu kontrol etmek için yapılmaktadır. Doğrulama, orijinal kaynak belgedeki ya da veritabanındaki verilerin sisteme girdiğiniz verilerle tamamen aynı olup olmadığını kontrol etmek anlamına gelmektedir. Özellikle veri topluyorsanız ya da sık sık kazıdığınız veritabanları varsa buna dikkat etmeniz gerekmektedir.
Veri Doğrulama (Data Verification):
-
Farklı veri türlerinin veri taşıma işleminden sonra doğruluk ve tutarsızlıklar açısından kontrol edilmesidir. Doğrulama, orijinal kaynak belgedeki verilerin sisteme girdiğiniz verilerle tamamen aynı olup olmadığını kontrol etmek anlamına gelir.
-
Verilerin mümkün olduğunca az hata içerdiğinden emin olmak için doğrulama yapılabilir.
-
Veriler bir kaynaktan diğerine aktarıldığında tam olarak aktarılıp aktarılmadığını belirlemeye yardımcı olur.
-
Çoğunlukta bu süreçte veri kalitesinde sorun oluşur.
-
Çok zaman alır.
-
Maliyetlidir.
Peki gazeteciler veri doğrulama yöntemlerini bilmeli midir? Veri gazetecileri verileri doğrulayarak çalışmak zorunda değildir (mümkün de olmayabilir), bilmek zorunda da değildir ancak propublica, 538, bianet, sfr örneklerinde olduğu gibi veri toplarsanız/oluşturursanız mutlaka yöntemleri bilmeniz gerekir. Bu işi yapabilecek araçları bilmek, biraz anlamak önemlidir.
Veri girişi yaparken sıklıkla karşılaşılan birkaç standart hata var: Bunlardan en yaygın olanları transkripsiyon (kayıt) hataları ve transpozisyon (aktarma) hatalarıdır.
Kayıt Hataları: Veriler sisteme manuel olarak her girildiğinde, hata yapma olasılığı da artar yani insan kaynaklı hatalar meydana gelir (Seçim örnekleri, sandık başında çalışanlar vb.). Bu hatalar kişinin ne yazdığını veya ne söylendiğini yanlış anlaması, acele etmesi ve detaylara yeterince dikkat etmemesi gibi unsurları kapsar.
Aktarma Hataları: Rakamların veya harflerin sırası karıştırıldığında meydana gelir. Örneğin, 78’in 87 diye yazılması gibi.
Veri Doğrulama Yöntemleri
Çift giriş – Bu, verilerin iki kez girilmesi ve iki girişin karşılaştırılması anlamına gelir.
Verilerin düzeltilmesi – Bu işlem, başka bir kişinin orijinal belgeye göre veri girişini kontrol etmesini gerektirir. Hem sıkıcı hem de pahalıdır.
Orjinal dökumandan verilerin kontrol edilmesi yerine ekrandan bu kontrolün yapılması – Bu, kayıt ve aktarma hatalarının tanımlanmasına yardımcı olur. Ayrıca çift giriş tekniğine kıyasla zaman kazandırır. Göz yorgunluğu da yaratır.
Verinin kopyasının basılması ve orjinal döküman ile karşılaştırılması – Bu en basit doğrulama yöntemidir çünkü her iki kopyayı yan yana koyabilir ve her ikisini de hatalar için tarayabilirsiniz. Bununla birlikte, kontrol edilmesi gereken büyük miktarda veri olması durumu zorlaştırabilir. Ayrıca, çok hızlı bir şekilde taranırsa hatalar göz ardı edilebilir.
Destek almak – Zaman alır ancak ekip olarak yapılır ise hataları yakalama imkânı artar. Verilerin girişini /kaydını siz yaptıysanız kontrolünü başkasının yapmasını sağlamalısınız.
Ancak eğer gazeteci düzenli olarak bir veri girişi yapıyor ve veri editörleriyle ortak çalışıyorsa, e-tablonun veri doğrulama fonksiyonunu kullanarak yanlış veri girişini engelleyebilir ve uyarı da sağlayabilir. Örnek uygulama üzerinden gitmek gerekir ise: Örneğin “En İyi 100 Türk Filmi” verisini e-tabloya aktardınız ve yapım yılını seçerek 1963 ile en yüksek değer 2030 aralığını belirlediniz. Veri girişleri bu aralık dışına çıktığında giriş reddi uyarısı alacak ve geçersiz kayıt olduğu belirtilecektir. Otomatik kayıt araçları kullanılarak da yapılabilir bu işlemler. E-tabloda işlemin altı aşama üzerinden nasıl yapıldığını görebilirsiniz:
Google e-tablo dışında Trint, Happy, Scribe, Otter gibi yazılımlar da otomatik kayıt için kullanabilir.
1.3) Veri Setlerini Doğrulamanın 5 Yolu
Veri gazetecileri verileri sık kullanırlar. Kullanım sürecinde ise veri setlerinin doğruluğu önem taşır. Hızlı şekilde veri setinin doğrulanmasını şöyle yapabilirsiniz:
-
Diğer tüm kaynaklar gibi veri setlerine de aynı şekilde yaklaşın. Hiçbir kaynağa körü körüne güvenilmemelidir. Röportaj yaptığınız bir kişinin verdiği bilgileri ve ifade ettiklerini nasıl doğruluyorsanız, aynı şeyi veri setleri için de yapmalısınız. Verinin nasıl ve kim / hangi kurumlar tarafından oluşturulduğunu doğrulamalısınız.
-
Üst veriyi okuyun. Veri setiyle çalışmadan önce, genelde insanların pek okumadığı, o ince, gizli, küçük bölümleri okuyun. Üst veri ve metodolojiler, eğer varsa, eksik veya tahmini verilere yönelik bilgileri belirtebilir. Bazı tahminler hatalı varsayımlara dayanabiliyor.
-
Veri toplama işlemini yeniden yapılandırın. Metodolojiyi okuduktan sonra, belirli göstergenin sosyal ve politik bağlamı ışığında veri toplama sürecinin güvenilirliğini değerlendirin. Ülke çapında veri setleri için, verileri tek bir organizasyonun toplamış olup olmadığını veya farklı ofislerin bilgi paylaşıp paylaşmadığını kontrol edin.
-
Elektronik tabloları test edin. En düşük ve en yüksek girişleri inceleyin, mantıklı mı şüpheli mi geliyor diye kontrol edin. Neyin eksik olduğunu değerlendirin: Boş olmaması gereken boş satırlar var mı? Yalnızca örnek verileri görüyorsanız, neyin dışarıda bırakıldığı ve neden net olduğu açık mı? Tek tek girişleri rastgele doğrulayın: Bir veya iki kayıt seçin ve veri grubunun dışındaki bir arama yoluyla bunları ayrıca doğrulayın.
-
Güncel araçları kullanarak kendinizi koruma altına alın. Doğrulama yapanlar kullanıcı dostu olmayan araçları kullanabiliyorlar. Örneğin CSV / Excel dosyaları yerine PDF olarak yüklenen e-tablolar veya bir seferde sadece bir sorgu ile veritabanlarına yüklenen veriler. Bu durum bazen hatalar doğurabiliyor. Bu sebeple Import.io veya Dataminer gibi Chrome’un veri kazıma araçlarını kullanmayı öğrenin.
1.4) Yaygın Dosya Tipleri
xls, shp, kml, csv, geojson, xml, rdf, html, ppt, doc,tiff, pdf, gif, txt, png, jpg gibi dosya tipleri veriyi transfer etmede önemli bir rol üstleniyor. Yapılandırılmış verilerle çalışmak bu nedenle önemlidir. 1. derste sızıntılardan bahsedilmiş, milyonlarca verinin yapısının veriyle etkili ve hızlı çalışmada önemli bir rol üstlendiğini öğrenmiştiniz.
Bazı örnek açık format dosya tipleri:
Kapalı bir dosya tipi olan PDF ile yapılmış olan haber örneği ve açıklaması:
Test
Bu modülde veri gazetecilerinin veri toplarken neden veri biyografisi kullanmaları gerektiğini, temel veri kavramlarının veriyi anlamada neden önemli olduğunu, üstverinin veriyi yorumlamada ve doğrulamada etkisini, veri doğrulama süreçlerini, veri seti doğrulamanın beş yolunu ve yaygın dosya tiplerini öğrendiniz. Bu modülü daha verimli kılmak için 10 sorudan oluşan testi buraya tıklayarak çözebilirsiniz.