Kelime bulutlarını seviyorum. Pasta grafikler, inen çıkan çizgiler veya sıra sıra çubuklarla karşılaştırınca pek çok artısı var. İlk başta, yapması kolay. Çoğu kelime bulutu uygulamasında (Wordle, mesela) bulut halinde özetlemek istediğiniz tam metni yapıştırıyorsunuz, kelimeleri kullanım sıklığına göre kendisi dizip en çok kullanılanları en büyük, en az geçenleri küçücük gösteriyor.

Artık cep telefonunuzda bile kelime bulutu yapabilirsiniz (WordSalad vd.). Hatta bir haber sitesini, bir Twitter adresini, veya bir Google arama sonucunu doğrudan kelime bulutuna çeviren uygulamalar bile var (Tagxedo gibi).
Elbette, kelime bulutları her veri görselleştirmesine uygun değil. Örneğin, Türkiye’de 2016 yılında gerçekleşen ölümlü-yaralanmalı kazalara karışan araçların cinsine göre dağılımı tablosunu (pdf, sf.4) kelime bulutuna çevirmenin okuyucuya pek faydası olmayacaktır. Hatta, yollardaki araç cinsinin kazaya karışan araç cinsiyle doğru orantısı yüzünden yanıltıcı dahi olacaktır.

Veri görselleştirmesi, veriyi özetlemenin bir yoluysa; kelime bulutlarının en iyi kullanımı, uzun metinleri özetlemek olmalı. Hem bulutlar bunu yaparken, içeriği de içinde taşıyor. Diğer grafik türlerine kıyasla, geometrik şekilleri kelime anlamlarına çevirmeye gerek kalmıyor.
7 Haziran 2015 seçimleri öncesinde tam da böyle bir kullanım aklıma gelmişti. Sıradan bir vatandaşın okumadığı, çoğu zaman da okunmayacak kadar uzun yazılan seçim bildirilerini kelime bulutlarıyla özetlemeyi düşündüm. Bu siyasi kutuplaşmada olur ya, bir okuyucu, bir seçmen daha bilinçlenirdi.
Bu proje için önce, en çok oy alması beklenen dört siyasi partinin web sitelerinden seçim bildirilerini indirdim, pdf (Adobe) formatında paylaşılan bildirileri, biçimlendirme ve görsellerden arındırmak için düz yazıya (txt) çevirdim.
- AKP, 7 Haziran 2015 seçim bildirisi (66 bin 593 kelime. pdf, txt)
- CHP, 7 Haziran 2015 seçim bildirisi (37 bin 977 kelime. pdf, txt)
- HDP, 7 Haziran 2015 seçim bildirisi (7 bin 833 kelime. pdf, txt)
- MHP, 7 Haziran 2015 seçim bildirisi (45 bin 321 kelime. pdf, txt)
Buradan itibaren bu dört metin herhangi bir uygulamayla kelime bulutlarına dönüştürülebilir; ancak ben veriyi daha güzel sunmak adına, kelime bulutlarını parti logolarının şekil ve renklerinde oluşturan Wordart‘ı tercih ettim [o zamanki adıyla tagul].
Wordart’ta ücretsiz bir hesap açtıktan sonra, buluta dönüşecek metni “Import words” menüsünden yükleyebilirsiniz. Uygulama otomatik olarak kelimeleri kullanım sıklığına göre dizecektir. Ama elinizde Türkçe bir metin varsa, bağlaçları ayıklamak veya çekim eki olan kelimeleri kök halinde derlemek lazım.
Buluta şekil ve renklerini verecek olan görseli ise “Shapes” menüsünden “Add image” diyerek yükleyebilirsiniz.
Bunu her parti için yaptığınızda, karşınıza şöyle bulutlar çıkıyor. Her birini “Download and Share” bölümünden bilgisayarınıza indirebilirsiniz.
AKP
CHP
HDP
MHP
Wordart’ta kelime bulutları oluştururken, kelimelerin sadece yazı tipine veya rengine değil, dağılım açılarına da karar verebiliyorsunuz. Çeşitli seçenekleri denedikten sonra, bazı logolarda şeklin doğal akışına göre (bkz. CHP’nin okları) bazı logolarda ise kontrast oluşturacak şekilde doğal akışa dik açılarla (bkz. MHP’nin hilalleri) kelimeleri dizmenin estetik açıdan daha güzel olduğuna karar verdim. AKP’nin ampülü bir logo içinse yapılacak pek bir şey yoktu, onu rastgele bıraktım.
Bu kelime bulutları sadece güzel görünmüyorlar, aynı zamanda bilgi yüklüler. Twitter’da bu görselleri paylaştıktan 14 dakika sonra, bir kullanıcı HDP hariç diğer üç partinin seçim bildirgelerinde “Yeni” kelimesinin sık kullanıldığını keşfetti. Elbette her bulut, o partinin öne çıkardığı kavramları anlatıyor, ama dördü yan yana gelince seçmenlerin karşılaştırma şansı artıyor. 157 bin kelimeyi tek başımıza okusak bile, bu tür karşılaştırmaları kolayca yapamazdık.
Elbette proje bu bulutları oluşturmaktan ibaret değil. Bu araştırmayı temel alan bir yazı 6 Mayıs 2015’te Jiyan’da yayınlanmıştı. Bulutlarda yer bulan kelimeler kadar, yer verilmeyen kavramları da karşılaştırmıştık.
Peki bu bulutlar nasıl kayboldu? “4 yanlış”ın ilki nerede?
Bağımsız bir yayın kuruluşu olan Jiyan’ın tarihi baskılarla dolu. Defalarca gözaltına alınan ve yargılanan yazarları oldu. Ekim 2015’ten itibaren birkaç kez sitesi sansürlendi. OHAL döneminde, 30 Eylül 2016’da ise yayın hayatına son verdi. Artık yazımın internet adresinde yeller esiyor. Yayınlanan halinin bir kopyası, Internet Archive sunucularında var, fakat yüksek boyutlu görseller kaydedilmemiş. Internet Archive’a Türkiye’den erişimin engellendiğini de ekleyince, artık bu yazının okuyucuya ulaşması imkansıza yakın. Eğer görselleri Twitter’da paylaşmamış veya bilgisayarımda saklamamış olsaydım, bugün bu bulutlardan da hiçbir iz kalmazdı.
Özetle, emek ve zaman isteyen bir iş ortaya koyduğunuzda, bunun kalıcı olmasını istiyorsunuz. Ancak şartlar buna her zaman izin vermeyebilir. Aklınızda olsun.
Bonus: Benzer bir kelime bulutunu, Nisan 2016’da, Turkcell’in Ensar Vakfı skandalı üzerine Twitter’da sansürlettiği kelimelerle de oluşturmuştum.
Bunu yapabilmek için, Turkcell avukatlarının açtığı bir davadaki kararın pdf halindeki dosyasına ulaştım.
Çoğu mahkeme kararı, dijital olarak pdf’e çevrilmiş olmuyor, basılı halleri bir tarayıcı ile pdf’leştiriliyor. Bu durumda, OCR (optical character recognition; yazı karakteri tanıma) teknolojisi kullanmak gerekiyor. Bu teknoloji Adobe Acrobat yazılımda ve bazı çevrimiçi sitelerde sunuluyor.
Şansıma, bu kararda OCR hazırdı, böylece, sansürlenmesi istenen tweet’lerin linklerini kolayca listeledim. Daha sonra, anonim bir yazılımcının desteği ile, bu listedeki tweet’lerin metinlerini çekip bir veri setine, oradan da yazı dosyasına dönüştürdük. Sonrasını biliyorsunuz.