Veri kazıma, internet sitelerinde yer alan bilgileri elde etmek için kullanılan bir yoldur. Açık veri bölümünde de yer verildiği üzere, kamu ve özel kuruluşlar verilerini daha fazla ulaşılabilir hale getirdiklerinden dolayı, veri kazıma kod bilen gazeteciler için de giderek önemli bir araç haline geliyor. Veri kazıma araçlarıyla, diğer bir ifadeyle “bot”larla, çok büyük miktarlardaki veriyi toplayarak haber yapmak mümkün. Gazetecilerin veri kazıma işlemini yaparken dikkat etmesi gereken etik kurallar, herhangi bir gazetecilik pratiğinden farklı değildir. Kaynağınıza atıfta bulunmanız, kazıma işlemi yaparken anonim olmamanız, verileri ne için kullanacağınıza ve neyi kazıyıp neyi kazımayacağınıza karar vermeniz sizi etik bir veri kazıyıcısı yapacaktır. Ancak bunun tersini düşünenler de var. Veri çeken ve kazıyan bazı gazeteciler ise aksine “Herhangi bir kuruluş verilerini kendi internet sitesinde yayımlıyorsa, bu verilerin herkes tarafından erişilip kullanılabileceği anlamına gelir,” görüşündeler.
Gazeteciler, gazeteci olduklarını belirterek mesleklerini icra eder ve bilgiyi belirli gazetecilik yöntemlerini kullanarak toplarlar: röportaj, kaynak taraması, dosya taraması, belli kişilerle iletişime geçilmesi, açık verileri birleştirme, veri setleri oluşturma vb. gibi farklı yollara başvurarak haberlerini hazırlarlar.
Veri gazetecilerinin çoğunluğu, haber yapmak için kullandıkları verileri Github hesaplarında erişime açarlar. Şeffaf olmayı destekleyen bu tavır gazetecilerin haberlerinin gerçek verilere dayandığını kanıtlıyor, ayrıca insanların isterlerse doğruluğunu kontrol etmesine de olanak tanıyor.
Peki, verileri kazıyan bir gazeteci kullandığı kodları açmalı mıdır? Nihayetinde veri kazıyıcının komutunda yapılan tek bir hata, elde edilen tüm verilerin analizini tamamen çarpıtmaya çok açık hale getirebilir. Bu tür durumlarda, “kodlar veriler gibi halka tamamen açılmalı mıdır” sorusu önem kazanır. Gazeteciler açısından bu bir sorun, ancak açık kaynak yazılımlar için kodların görünür olması bir zorunluluk. Temel amaç, diğer insanların yazılımı geliştirmelerine izin vermek. Bunun yanı sıra, açık kaynaklar kullanıcılara yazılımın ne işe yaradığına dair hem bilgi hem de güven sağlar. Sonuç olarak veri gazetecileri için kullandıkları kodları açık hale getirmeleri ya da gizlemeleri kolay bir seçim değildir. Öte yandan kazımak demek veriye ihtiyacımız olduğu anlamına gelir, yani veriye erişimde sorun yaşadığımızı ve veriyi doğrulamamız gerektiğini gösterir. Dolayısıyla doğru bilgiyi kazımaya gereksinim var demektir.
Peki, gazeteciler çok fazla kod bilgisine ihtiyaç duymadan hangi araçlarla veri çekebilirler? Veri gazetecileri tarafından kullanılan yaygın veri kazıma araçları ile bunu öğrenebilirsiniz.
1.1) Data Miner ile HTML Sayfa Kazıma
Data Miner, Google Chrome eklentisidir. İnternet sitelerinden veri kazır ve kazınan verinin CSV dosyası ya da Excel, e-tabloya aktarılmasını sağlar. Elli bini aşkın ücretsiz ön sorgu yapabilirsiniz. Eklentiyi ayrıca 15 binden fazla popüler site için kullanabilirsiniz. Data miner bot değildir ve botlar site tarafından bloklanır; kendi tarayıcınızı tıklar gibi davranır, çalışır. Aşağıdaki slaytlarda Data Miner eklentisi ile web’den nasıl veri alındığı açıklanmaktadır.
1.2) Google E-tablo ile İnternetten Veri Kazıma
Veri temizleme, veri analizi ve veri görselleştirmede önemli bir araç olan Google e-tablo ile web’den veri çekebilirsiniz. Web tabanlı çalışır ve tüm tarayıcılarla uyumludur; HTML, RSS, Data gibi verileri import fonksiyonu ile e-tablonuza aktarıp analiz edebilirsiniz. Aşağıdaki slaytlarda Google E-tablo ile internetten nasıl veri elde edildiğine yer verilmektedir.
1.3) Tableau Public ile PDF’ten Veri Kazıma
Tableau Public bir veri analitik ve görselleştirme aracıdır, ancak dosyalardan veri kazımak için de kullanılabilir. Aşağıdaki slaytlarda Tableau Public ile PDF dosyasını CSV’ye nasıl hızlı bir şekilde dönüştürebileceğiniz açıklanmaktadır. Yapılandırılacak verilerin sayfaları belirlenerek bile kazıma yapılabilir.
1.4) Tabula ile PDF’ten Veri Kazıma
PDF dosyalarındaki verileri kazımanıza yardımcı olur. Kullanımı son derece kolaydır. Verilerinizi CSV, JSON gibi birçok formatta indirmenizi sağlar. Adobe Acrobat’tan farklı olarak, gazeteciler için geliştirilmiş açık kaynaklı ve ücretsiz bir araçtır. Aşağıdaki slaytlarda Tabula ile PDF dosyasını CSV, TSV vb. dosya tipine nasıl dönüştürebileceğinize verilmektedir. Yapılandırılacak verilerin sayfaları belirlenerek sayfalar kazınabilir.
1.5) Workbench Data ile İnternetten Veri Kazıma
Workbench Data aracı ile veri gazeteciliğinin tüm aşamalarında çalışabilirsiniz. Bu örnek kapsamında hem internet sitelerinden hem de belirlediğiniz bir Twitter hesabından veri çekip analiz edebilir, ham olarak indirebilir ya da görselleştirebilirsiniz. Workbench Data ile Twitter’dan nasıl veri kazıyabileceğinizi aşağıdaki slaytlarda adım adım görebilirsiniz.
Test
Bu derste Data Miner ile HTML sayfalardan, Workbench Data ile Twitter’dan ve Google e-tablo fonksiyonunu kullanarak internetten veri kazımayı; Tableau Public ve Tabula araçlarıyla da PDF dosyalarını yapılandırılmış veriye nasıl dönüştüreceğinizi öğrendiniz. Bu modülü daha verimli kılmak için buraya tıklayıp kısa testimizi çözebilirsiniz.