Vivir en la Matrix

Comunicación, medios y tecnología

Teoría y otras yerbas

Periodismo de Datos

Si bien muchos en la actualidad lo toman como una especialidad, el denominado “Periodismo de Datos” es solo una variante de la labor periodística. La mayor diferencia radica en que este tipo de periodismo es que apoya todas sus afirmaciones en datos estadísticos y variables extraídas de diferentes plataformas.

El desarrollo del Periodismo de Datos está emparentado con los cambios producidos en la forma de consumir las noticias. Con la masificación de Internet, el público joven ha ido aumentando el consumo progresivo de las noticias en la versión online. Esto ocurre por razones de costes, facilidad del acceso a la información e incluso posibilidad de interactuar con el contenido publicado.

El periodismo de datos es, entonces, una variante ideal para el Periodismo Transmedia, ya que permite la presentación de las historias en un formato novedoso. Las mismas surgen a partir del análisis de grandes volúmenes de datos cuyo procesamiento involucra a hackers,  programadores, periodistas y diseñadores.

Así como cambiaron las vías por las cuales los usuarios accedían a la información, también se modificaron los tipos de contenidos demandados por los mismos. Así, el periodismo de datos no es únicamente utilizado por periódicos generalistas, sino también por los deportivos y económicos. 

Además, esta nueva modalidad está preparada para triunfar especialmente en los nuevos entornos virtuales, dada su capacidad de lograr contar la historia únicamente con gráficos interactivos, sin la necesidad de texto.

¿Qué es el Periodismo de Datos?

Sandra Crucianelli, periodista especializada en la materia, define al Periodismo de Datos como una disciplina periodística que se nutre de otras. Menciona entre ellas a la investigación, acompañado por la profundidad y precisión, asistido por ordenadores y un componente analítico. Se trabaja con grandes volúmenes de datos, aprovechando la visualización interactiva e incorporando al programador al equipo.

Entonces, resumiendo esta primera parte, podemos decir con Crucianelli que: 

“El periodismo de datos es aquel que maneja un gran volumen de datos, utiliza algún tipo de visualización interactiva para poder encontrar noticias detrás de esos datos, aquel que pone en un contexto este gran volumen de información”. 

Sandra Crucianelli

Cuando había escasez de información, la mayor parte de nuestros esfuerzos estaban dedicados a buscarla. Ahora que la información es abundante, el desafío es su filtrado. En este aspecto, el Periodismo de Datos interviene para encontrar sentido y estructura en el flujo de datos y realizar una presentación para resaltar lo importante. 

En este punto, el Periodismo de Datos también favorece una estructura más horizontal en el manejo de la información: 

“Las nuevas plataformas de edición están dando a todos el poder de reunir y compartir datos digitalmente, convirtiéndolos en información. Mientras los periodistas y editores han sido los vectores tradicionales de la colecta y diseminación de información, el ambiente horizontal de información ahora hace que las noticias se conozcan primero online y no en las redacciones”.

Alex Howard, O’Reilly Media

Sin embargo, aquí la creciente importancia del periodismo de datos está en la capacidad de dar contexto y claridad en la enorme masa de datos. En la era de la información, se necesita más que nunca a los periodistas para analizar y sintetizar los datos. Otro aspecto interesante de este movimiento es que no se necesitan nuevos datos para tener una primicia.

El Periodismo de Datos no es objetivo

Pese a sus pretensiones de ser una disciplina de base científica, esta especialidad no escapa a las generalidades de la ley en cuanto al estado de sospecha al que sometemos a todo aquel que enarbole las banderas de la objetividad. Como todo en el periodismo la interpretación que se haga de esos datos puede variar dependiendo de qué queramos mirar en ellos. 

Veamos un ejemplo concreto: en el caso del video puede ver cómo una estadística penal (la cantidad de homicidios en ocasión de robo cometidos por jóvenes entre 16 y 18 años) se interpreta de forma totalmente diferente. Ese dato tiene en este ejemplo una valoración negativa y otra valoración positiva, o neutra. ¿Cómo ocurre esto? Se trata de perspectiva.


Lo novedoso del Periodismo de Datos es que transparenta estas situaciones poniendo a disposición todas las bases de datos que se tomaron en cuenta para realizar la estadística. De este modo, quien las lea puede sacar sus propias conclusiones, aunque sean diferentes a las del autor de la nota.

Hay equipo: cómo trabajar en Periodismo de Datos

Como ya se mencionó, el Periodismo de Datos tiene como particularidad que trabaja con un gran volumen de datos: no se trata solamente de elaborar estadísticas del delito en base a los informes oficiales, si no de obtener un gran número de datos “crudos” (siguiendo el ejemplo podría ser el listado de denuncias de las comisarías) y procesarlos. Muchas veces esto requiere de una tarea casi titánica de transcripción, puesto que muchos organismos entregan los datos en papel. Esto ocurre porque quieren obstaculizar la tarea del periodista, o simplemente porque están desactualizados en materia tecnológica. 

Imaginarán entonces que un redacción dedicada al Periodismo de Datos no es una de esas como las que estamos acostumbrados a ver en las series. En estos casos, la integran hackers (de los buenos), periodistas, programadores y diseñadores gráficos.

Así funciona una redacción dedicada al Periodismo de Datos.

Los hackers se encargan de bucear en las profundidades de la web para obtener datos. Los programadores se ocupan de preparar softwares especiales para poder procesar y visualizar esos datos. Los periodistas ponderan la información obtenida, la ponen en contexto y arman una historia. Finalmente, los diseñadores piensan en la presentación del trabajo.

La situación anteriormente descripta hace que la mayoría de los equipos de Periodismo de Datos con los que cuentan los medios de comunicación sean muy numerosos. En Argentina, sobresalen dos ejemplos: La Nación Data y Chequeado que busca “chequear con datos reales” las afirmaciones y promesas de los políticos.

Muchas veces los volúmenes de información son tan grandes, que ni el medio más importante podría solventar un trabajo de ese tipo. En estos casos aparecen los denominados “hackatones”. Se trata de jornadas de uno o dos días en las que voluntarios se ofrecen para “abrir datos” durante determinada cantidad de horas, contribuyendo a la creación de grandes bases de datos.

El camino de los Datos

Últimamente tenemos a nuestro alrededor un gran volumen de datos, pero muchas veces los desaprovechamos por no saber cómo procesarlos. ¿Qué hacemos con ellos?

En primer lugar debemos dilucidar cómo y dónde encontrarnos con los datos. Justamente ese gran volumen de información hace posible que nosotros debamos recurrir a determinadas herramientas digitales para poder buscarla y procesarla. Una buena parte de la misma se encuentra alojada en bases de datos pero también en formatos que pueden ser abiertos o cerrados. La misión del Periodismo de Datos es conseguir esos datos en formatos abiertos o “abrirlos” por nuestros medios para poder analizarlos en nuestras computadoras.

En la jerga del Periodismo de Datos, los datos “cerrados” son aquellos que obtenemos en un formato que no podemos procesar informáticamente. Para hacerlo, debemos primero “abrirlos”, es decir, transformarlos en un formato que nos permita trabajarlo, como el Excel.

Para este fin han aparecido innumerables soportes electrónicos que facilitan la tarea del “data entry” (el encargado de “tipear” los datos), como conversores de formatos. Como mencionamos, es muy común que algunas organismos entreguen la información en papel o en PDF, lo que dificulta la posibilidad de procesar la información. En ese caso, la página Zamzar.com permite convertir cualquier tipo de formato. Muchas personas se han abocado a crear softwares libres para este tipo de tareas, como el Tabula.


Cómo buscar datos

En Periodismo de Datos, la captura de información es el primer eslabón de una sucesión de pasos que incluyen el procesamiento, la contextualización y visualización. No solamente es suficiente “ver” datos a través de una pantalla, sino tener la capacidad para capturarlos.

Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es una de ellas y probablemente la más utilizada. Sin embargo, hay una importante cantidad de información que no puede ser recuperada por los mecanismos comunes de búsqueda. El espacio de la red donde se alojan esos contenidos es conocido como “deep web”. Allí se incluye información que no es indexada por los motores de búsqueda como Google, Bing, etc. Por el contrario, en la web superficial es donde podemos encontrar los resultados más comunes que devuelven los buscadores.

En la web profunda podremos encontrar documentos que no han sido almacenados bajo estructura HTML, como archivos para abrir o descargar en diferentes formatos: PDF, Excel, o Power Point. Pero para esto se requiere paciencia y un elemento clave: sistematicidad.

La búsqueda no es sencilla, hay que conocer muy bien el tema para no caer en sitios “espinozos”: los prestadores de internet detectan cuando una PC se conecta a estos sitios y puede realizar una denuncia, por lo que hay que saber bien dónde entrar y dónde no.

La deep web tiene varios estadíos, algunos muy peligrosos. Fuente: El Heraldo.


No tan complicado

Lo más sencillo para nosotros, de todos modos, es utilizar la “web superficial”: allí encontraremos un montón de datos que ni siquiera sospechamos que existían. Para ello hay que utilizar la opción avanzada de los motores de búsqueda, puesto que el rastreo común suele mostrarnos simplemente los resultados más superficiales.

En las búsquedas avanzadas podemos predefinir un rastreo a partir de una sola extensión (.gov) un único formato (Excel, PDF, Word, etc.) y con palabras clave para afinar aún más nuestro corpus. Si producto de esa búsqueda obtenemos más de 100 resultados, probablemente no hayamos hecho bien las cosas.

Muchas veces, de esta forma nos topamos con documentos o series estadísticas que, por caso, una empresa o un organismo público alojan en la web pero no indexan en sus páginas. O lo ubican en una zona difícil de rastrear por una búsqueda “común” de Google o navegando por el sitio oficial. De esta forma, por caso, podríamos obtener un Excel con un listado de obras públicas, costos y empresas que las realizaron colgado por el ministerio de Infraestructura bonaerense, que tal vez el organismo subió a la web pero no indexó en su página para que no sea visible.


Otras alternativas para abrir datos

Obviamente, esta no es la única manera de obtener datos. Hay otros procesos mucho más refinados, como el método conocido como “scraper” que nos permite, a partir de un sistema totalmente automatizado, realizar búsquedas en toda la web. Los programas más populares son pagos y consisten en un software que se descarga a la PC y desde allí se realizan las búsquedas. Es más complejo pero también más preciso. Un ejemplo de los métodos “pagos” es Helium Scraper. 

También es muy recomendable bucear por otras páginas web que cuentan con series estadísticas. De a poco, y conforme avance el movimiento Open Data, organismos públicos comienzan a publicar sus propias series estadísticas en formatos reutilizables para que cada quien pueda hacer lo que desee con ellas. Si bien no se trata de información “jugada” o sensible (por lo general son datos “inofensivos” para los gobiernos) es un punto de partida. En este punto se destacan el Portal de Datos Argentina y el portal de Datos Abiertos de la provincia de Buenos Aires.

También comenzaron a desarrollarse plataformas colaborativas en las que cualquier persona puede subir los datos que abre, para compartirlos con la comunidad y darles a otros la posibilidad de analizarlos. Lamentablemente, la mayoría de ellos está en inglés y las series estadísticas se refieren a países angloparlantes. Ejemplos de ello son las web Data Catalogs, Data Hub, Scraper Wiki, y Buzdata.

Además de estos espacios, últimamente han aparecido masivas filtraciones de datos, como Wikileaks o los Panamá Papers, que también han tenido atrás a organizaciones que se han abocado a buscar, filtrar y darle sentido a los datos encontrados. Sus resultados son públicos y todo el mundo puede acceder a ellos.

“Abrir” los datos

Como ya mencionamos, una vez que obtenemos la información estamos ante el desafío de “abrirla” para poder trabajarla. También advertimos que los grandes equipos de Periodismo de Datos cuentan con un programador que “crea” programas adecuados a las necesidades de cada nota. Si bien esto sería lo ideal, hay herramientas y softwares online y gratuitos que pueden sernos de mucha utilidad.

Por lo general, el formato más cómodo para procesar grandes cantidades de datos es el Excel, que nos permite realizar operaciones matemáticas, cuentas estadísticas, ordenar datos por filtros, etc. Llamativamente, pocos periodistas conocen su potencial, y quien sepa usarlo tiene ya una ventaja sobre el resto.

Ahora bien, para llegar a ese punto hay que “abrir” los datos. El ejemplo más sencillo de la extracción de datos es el de obtener el contenido de una tabla alojada en un PDF, cuando lo que se requiere para procesar los datos es disponerlos en una hoja de cálculo de Excel. Para lograr ese objetivo, existen recursos sofisticados y softwares de descarga pagos, pero también hay una larga lista de herramientas online sin costo.

A veces copiar y pegar funciona, pero otras veces no, ya que el formato no es compatible o el PDF es un escaneo y hay que recurrir a conversores como Zamzar.com, que es gratuito y no requiere suscripción. También hay varios lectores OCR (los que leen los códigos), para el caso de las imágenes.

También aparece en nuestro horizonte de posibilidades el Table Capture, una extensión de Google Chrome que permite copiar tablas que aparecen en la web sin perder su formato de origen.

Set de datos

Una vez descargados, hay que armar lo que se conoce como “set de datos”, una colección de elementos de datos agrupados, que permiten su fácil registro. Dentro de los mismos, los datos se encuentran organizados en variables, por lo general medidas a lo largo del tiempo y en soportes descargables. Es muy importante que estos se publiquen en formatos abiertos, que a su vez sean reutilizables. Es decir, que se puedan modificar con nueva información.

La forma más sencilla de gestionar set de datos es usando Google Drive, que permite alojar todo tipo de documentos.

Las formas más comunes de gestionar y alojar sets de datos son a través de planillas de Excel o mediante un formato denominado CSV, igualmente abierto y reutilizable, en el que las columnas están separadas por comas.

Pese a los años que tiene, el Excel (o cualquier otro similar) sigue siendo el programa más elegido a la hora de trabajar con los datos. Sucintamente, con él podemos ordenar datos por variables, filtrarlos, disponerlos alfabéticamente, realizar cuentas y también gráficos. 

Si queremos realizar un trabajo más exhaustivo, podemos echar mano de Open Refine, un proyecto iniciado por Google que luego pasó a ser de código abierto, que nos permite fusionar tablas. ¿Qué significa esto? Que podemos combinar más de un set de datos a partir de un elemento en común, que nos sirva como “enlace” para poner en común las diferentes variables.

Visualización

En este eslabón del trabajo con los datos, también hay un especialista en la redacción: los diseñadores gráficos. Ya no alcanza simplemente con una infografía vistosa que contenga de forma sintética todos los datos. En la actualidad se apuesta a gráficos interactivos capaces de condensar una gran cantidad de información. 

Es tal la importancia que tienen los gráficos hoy en día, que en muchas ocasiones la “nota” periodística es nada más y nada menos que ese gráfico.

Pero sin llegar a esos extremos, hay formas “caseras” de preparar visualizaciones. La primera de ellas la proporciona el ya viejo y querido Excel: entre sus funciones se pueden preparar gráficos estadísticos, pero no se puede esperar gran cosa de ellos. Si lo que buscamos es algo avanzado, no lo encontraremos aquí.

No obstante, como todo en el mundo del Periodismo de Datos, hay muchos softwares y páginas webs que nos ayudan a hacer esto automáticamente. El primero y más completo (y complejo también) es Tableau Public, un software libre desarrollado en Estados Unidos que permite realizar gráficos interactivos para luego insertarlos en una web o en redes sociales.

¿Cómo se usa Tableau?


El atractivo de Tableau es que permite subir bases de datos muy pesadas y las procesa en minutos. Luego de ello, permite trabajar con ellas en un entorno muy sencillo, para crear diferentes visualizaciones a partir de las variables que se hayan cargado. Se puede además crear historias y hasta armar cuadros más complejos con más de un gráfico. Lo mejor de todo es que es totalmente interactivo: el lector puede deslizar el mouse sobre las imágenes para ampliar información, e incluso puede filtrar él mismo los resultados para modificar los gráficos y generar así sus propias comparaciones y estadísticas.

Otras alternativas

A la saga de Tableau aparecen páginas web que permiten la realización de gráficos e infografías interactivas de forma automática. Aquí algunos ejemplos:

Infogr.am: es una herramienta ‘freemium’ que ofrece acceso a una gran variedad de gráficos y mapas y también dispone de la función de subir fotos y vídeos para crear una infografía moderna.

Easel.ly: ofrece una biblioteca de elementos como flechas, formas y líneas de conexión, y se puede personalizar el texto con rango de fuentes, colores, estilos y tamaños. La herramienta también te permite subir sus gráficos y la posición con un solo toque.

Piktochart: es una herramienta de infografías que permite pasar de datos aburridos a infografías amigables con solo unos clicks. Al igual que el resto es una herramienta ‘freemium’, en la que te ofrece tres plantillas básicas gratis, pero si activas la versión ‘pro’ por 29 dólares al mes puedes tener acceso a una enorme cantidad de recursos.

Venngage: es una gran herramienta para la creación y publicación de infografías porque es muy simple y fácil de usar. Se puede elegir entre las plantillas, temas y cientos de cartas e iconos, así como cargar imágenes y fondos propios, o personalizar un tema.

Existen otras aplicaciones para crear otro tipo de gráficos:

CartoDB: Es gratuito y permite crear mapas interactivos con mucha información, referencias y división por capas. De lo mejor que existe en materia de mapeo.

Google Fusion: Similar a CartoDB, tiene la ventaja de crear los mapas sobre el Google Maps, la app más famosa en materia cartográfica.

TimelineJS: es una herramienta gratuita de código abierto que permite a los usuarios construir líneas de tiempo interactivas y visuales. Se puede agregar contenido de forma fácil en una hoja de cálculo de Google y después importarlo a TimelineJS.

Así se vería:

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *