Jurnalism cu cifre

Primul numar al ziarului Guardian a fost publicat la Manchester
in data de 5 mai 1821. Conform uzantelor din acele vremuri, stirile
ocupau ultima pagina, iar printre acestea se afla un tabel care
prezenta intr-o maniera usor de inteles costurile suportate de
scolile din zona. Nu stiu daca acesta este primul exemplu de
prezentare a faptelor intr-o maniera numerica, dar este cert ca nu
era un obicei raspandit in epoca si, cu siguranta, dificultatile in
culegerea si procesarea datelor primare (caci despre asta este de
fapt vorba) erau majore. In schimb, suportul pe care puteau sa-l
ofere unui material publicat era semnificativ.

Astazi, jurnalismul nici nu poate fi conceput fara computere si
internet. Incepand cu redactarea articolelor sau punerea in pagina
si terminand cu documentarea si chiar culegerea unor informatii
valoroase din surse mai mult sau mai putin oficiale. In acest
context a aparut o noua specie, numita “data journalism”, care se
ocupa cam cu ceea ce primul numar din Guardian a realizat la
inceputul secolului XIX, dar la cu totul alta scara. E vorba, in
esenta, de culegerea si asamblarea datelor primare, prezentarea lor
in forme cat mai sugestive si, in final, interpretarea lor in
contextul unui articol sau mixarea diferitelor seturi de date
pentru a obtine noi rezultate. Pare simplu la prima vedere, insa
problemele cu care jurnalistul de date se confrunta sunt numeroase
si nu intotdeauna banale. Prima dintre ele este ca profesia lui se
afla la intersectia dintre jurnalism si informatica, asa ca va avea
nevoie de o dubla pregatire. De-abia de-aici incepe aventura.

Gasirea si culegerea datelor este o arta in sine. Exista, desigur,
numeroase surse publice de date, dar foarte adesea cele mai
relevante pentru un anume subiect sunt greu de gasit. Insa
presupunand ca le-am gasit, vom constata ca cel mai adesea sunt
disponibile in formate care nu se potrivesc cu instrumentele uzuale
de stocare si interogare. Ca exemplificare, sa presupunem ca ne
intereseaza datele de la ultimul recensamant al populatiei (2002),
pentru ca dimensiunea demografica este importanta in foarte multe
analize. Rezultatele sumare sunt prezentate ca tabele HTML, analiza
rezultatelor preliminare este un document in format Word intesat cu
tabele, in vreme ce rezultatele preliminare sunt livrate ca o
arhiva cuprinzand cateva zeci de fisiere PDF.

Jurnalistul de date va trebui probabil sa foloseasca cateva
programe specializate sau chiar sa scrie propriile programe pentru
a aduce datele intr-o forma unitara si apoi sa le transforme intr-o
structura utilizabila in analize si prezentari. Mai apare si
problema spinoasa a “curatarii” datelor, mai ales cand provin din
mai multe surse, fiindca se folosesc conventii si reprezentari
diferite si nu intotdeauna corecte – e suficient sa ne gandim la
nenumaratele moduri in care se scriu datele calendaristice.

Interogarea si analiza datelor odata culese va necesita pe de-o
parte abilitati informatice, deoarece va fi implicata probabil o
baza de date, dar chiar si in cazul unui spreadsheet lucrurile pot
fi complicate si probabil sa ceara ceva programare. Analiza este la
randul ei pretentioasa si va pune in joc cunostinte de statistica,
precum si abilitati de utilizare a unor instrumente specializate
capabile sa realizeze “felieri” (slicing), rezumate si detalieri
(drill-up/down) si altele asemenea.

Chiar daca nu se ajunge pana la “minerit” (data mining) pentru
descoperirea unor tipare, jurnalistului de date ii trebuie si un
anume fler, un simt care sa-l ajute sa sesizeze discrepantele sau
sa evidentieze evolutiile si tendintele. Chiar daca forma grafica a
prezentarii datelor este treaba designerului, tot jurnalistul de
date trebuie sa decida tipurile de grafice, modul de tabelare si
nivelul de detaliere, aspectele care trebuie evidentiate si asa mai
departe. Lucrurile nu se termina insa odata cu publicarea. Datele
trebuie intretinute, imbogatite, contextualizate si, nu in ultimul
rand, partajate cu publicul si confratii de breasla, astfel incat
sa permita celor interesati abordari noi sau combinatii de date din
diverse surse (mashups).

The Guardian este astazi unul dintre reperele jurnalismului de
date. O intreaga sectiune a site-ului cotidianului se cheama
DataStore, iar datele culese pe diverse tematici sunt puse la
dispozitia publicului in diverse forme. Din fericire pentru
englezi, majoritatea informatiilor publice de la ei sunt cu
adevarat publice si accesibile. Din nefericire pentru noi, mai avem
mult pana acolo.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *