Angélica Momi Peralta Ramos es licenciada en Sistemas, tiene un Máster en Administración de Empresas y un posgrado en Administración de proyectos. Tiene a su cargo desde 2006 el área de investigación y training en nuevos formatos para comunicación digital como plataformas de periodismo móvil, social y multimedia. Participó desde ese lugar en la transformación de La Nación hacia multimedia y actualmente su área da soporte introducir nuevos formatos y conduce LA NACION DATA.
¿Qué es y cómo trabaja La Nación Data?
LA NACIÓN DATA es una iniciativa para facilitar el periodismo de datos en La Nación, y también para colaborar con la apertura de datos en la Argentina. Trabajamos con una visión que supera la frontera de nuestro edificio: creemos que a través del uso de los datos se pueden cambiar las cosas. Especialmente si la lógica es que se abran y acerquen los datos a la gente, que se fomente la participación ciudadana, y no solo para el uso por parte del periodismo. Hoy el periodismo de datos permite contar y mostrar historias que surgen de bases. Por un lado tenemos el uso de bases de datos para storytelling o visualización; y por otra parte para investigación. Esas son las dos grandes ramas. En La Nación empezamos en 2011, y fuimos creciendo tanto en equipo como en el desarrollo del proyecto. Actualmente somos seis personas, que nos ocupamos de diferentes funciones.
¿Cuáles son las funciones dentro de un equipo de datos?
Tenemos un equipo que cumple varias funciones. Ricardo Brom se ocupa de automatizar la construcción de bases de datos para investigación periodística y la actualización de las mismas; Cristian Bertelegni desarrolla aplicaciones front end como plataformas de datos o visualizaciones reutilizables junto con el equipo de infografía interactiva (que son nuestros mejores socios en la redacción); Gabriela Bouret es nuestra data-miner y se enfoca en el análisis y estructuración de los datos para detectar historias junto con los periodistas y facilitar de esta manera las visualizaciones; Romina Colman se especializa en pedidos de información pública y producción de datos a través de proyectos de colaboración; Gabriela Miño se ocupa de producción y documentación de datos y agregar valor a las notas mediante series; y Florencia Coelho de investigación de formatos, difusión y articulación con la comunidad de ONG, hacktivismo y conocimiento abierto en Argentina, que es enorme.
Una de las funciones que tenemos es producir bases de datos o “data lista”, agregar datos para ilustrar historias de todos los días. Esto puede ser una serie de datos como el IPC, el valor de la soja u otros que se actualizan automáticamente. Ayudamos a que los periodistas los incorporaren en sus notas. Se trata de generar un cambio en la mentalidad de los periodistas, para que vean que esos datos son un valor agregado, no solo en contexto sino en servicio al usuario que puede interactuar con ellos. Se incorporan y se abren esos datos en cada nota. La producción de datos también genera proyectos de colaboración, como por ejemplo el de Declaraciones Juradas abiertas, que tiene más de 40.000 registros de unas 2.000 declaraciones de funcionarios de los tres poderes. Esto se hizo se hizo en colaboración con tres organizaciones que se dedican a temas de transparencia, Poder Ciudadano, Directorio Legislativo y ACIJ.
Para ese proyecto, por ejemplo, el equipo de La Nación tuvo que ingresar los datos manualmente, lo que hicimos en cinco chequeatones, como llamamos a las jornadas donde nos pasamos todo el día trabajando para sistematizar la información y chequearla. Ahora lo estamos actualizando, y se va a relanzar en breve.
¿También hacen pedidos de información al estado?
Claro, es parte del trabajo de producción del equipo. Hacemos pedidos de acceso a la información, usando los mecanismos previstos en el decreto 1172 a nivel nacional, o la ley 104 en la Ciudad, o las leyes o disposiciones que hay en algunas provincias. Eso significa no solo hacer el pedido, sino también escanearlo, subirlo, presentarlo como evidencia en las notas que van surgiendo. En eso está Romina Colman. Después, otra persona se ocupa del análisis de bases de datos, que es Gabriela Bouret, y que se enfoca en trabajar los datos con los periodistas.
Primero para entenderlos y ver qué surge, y también para detectar oportunidades dentro de cada data set, como por ejemplo la base de la Ciudad de Buenos Aires con la línea 147, u otras bases de datos como la que construimos con los últimos 10 años de obra pública vial. Son diferentes bases de datos que están facilitadas tal vez, pero que falta normalizar, o como decimos en la jerga “limpiar”. Y Gabriela es además el nexo con el área de visualización de datos, que hace las visualizaciones interactivas, con estos datos como insumo. Ella prepara los datos para las dos cosas. Para analizar y para visualizar. Otro miembro del equipo es Ricardo Brom, ingeniero electrónico, especialista en extracción, transformación desde cualquier formato no estructurado de los contenidos y armado de las bases, así como documentación en formato digital de investigaciones periodísticas.
Eso nos permite además cruzar información para generar nuevo conocimiento desde los datos. Como cuando investigamos los datos del Boletín Oficial para estructurar datos y cruzarlos con las declaraciones juradas de los funcionarios públicos.
¿Hay interacción entre la redacción y el equipo de La Nación Data?
Sí, es un ida y vuelta permanente. La manera que tenemos de trabajar con la redacción es proyectos de contenidos, que surgen de ambos lados, y a través de los datos a diario que agregamos o detectamos en sus notas. Por un lado, en la redacción los periodistas identifican bases de datos relevantes, como fue en el caso de subsidios, que trabajamos con Diego Cabot. Hace 4 o 5 años, Cabot halló bases de datos de subsidios a las empresas de transporte en formato de planilla PDF, con miles y miles de datos, y pensó que ahí había algo. Entonces nosotros tomamos los datos, armamos la base, la procesamos y luego nos juntamos con el periodista para analizarla. En ese caso se hizo una aplicación, que permite abrir los datos y mantenerlos actualizados. De hecho cada tres o cuatro meses actualizamos la base en lanacion.com. Lo mismo con los datos de Pauta Oficial, Subsidios al Incaa y licencias del AFSCA, con José Crettaz.
Otro tipo de proyectos es el de los gastos del Senado de la Nación, que un periodista de la redacción nos señaló, a partir de una serie de bases en PDF. A Ricardo se le ocurrió la forma de bajar todo y sistematizarlo y luego tanto Ivan Ruiz, Maia Jastreblansky y Laura Serra publicaron notas. Siempre trabajamos por proyecto y con toda la redacción, es decir que cruzamos todas las fronteras. No pensamos en digital o no digital, pensamos en personas y contenidos y la mejor manera de contar las historias.
¿Cómo diferencian los tipos de proyectos?
Tenemos tres tipos de proyectos, de largo, mediano y corto plazo, como mencioné antes en el caso de la data diaria, que es agregar un valor más pequeño, pero que da contexto a notas que utilizan frecuentemente la misma base de datos. Por ejemplo, en el caso de los datos de pymes, salen notas frecuentemente, entonces hablamos con los periodistas que se ocupan de ese tema, y tratamos de nutrir sus notas con información concreta, que proviene de la serie que vamos construyendo.
También hay proyectos de largo plazo, como la plataforma que desarrollamos que se llama Voz Data, donde tratamos de desarrollar la base una vez y tratar de utilizarlo frecuentemente. Esa es una filosofía que tenemos, porque tardamos mucho tiempo en armar cada data set.
Los de mediano plazo son proyectos que pueden demorar entre uno y cuatro meses. Son casos en los cuales no nos cuesta tanto construir las bases de datos, porque las obtenemos de diversas fuentes y lo que tenemos que hacer es unir la información. Son proyectos como el de la pauta oficial, donde tuvimos que unir tres bases diferentes para lograr la serie que luego publicamos.
¿Qué son las aplicaciones de noticias?
Hay bases de datos que son madre para muchas historias, como el censo, que lo usamos para cruzar con el resto de los temas. Una de las aplicaciones que hicimos al principio fue sobre el Censo 2010, donde tuvimos que bajar variable por variable, normalizarlas y después bajarlas a una aplicación con mapas con diferentes variables del censo, tomando los datos oficiales del INDEC. Eso nos permite después cruzar los datos para calcular con el presupuesto o con cualquier otra variable.
Tenemos otra aplicación que nos sirve para visualizar el presupuesto nacional, sancionado y ejecutado en los últimos tres años. Eso nos permite analizar las diferencias, y de esos datos de presupuesto surgen historias, o se puede dar contexto a diferentes notas. Después tenemos otra para la información sobre los legisladores, que se llama Congresoscopio. Nos permite visualizar información sobre los legisladores, la sanción de leyes, los proyectos, los votos de cada integrante de ese poder, todo lo que pasa en ambas cámaras. A través de esta aplicación ayudamos a que la gente se acerque a esta información. Nos ayuda a perfilar a cada diputado o senador, el presentismo, los proyectos que proponen y sus declaraciones juradas.
Los subsidios al transporte de colectivos que mencioné antes fue una oportunidad que surgió como uno de los primeros casos que era difícil de construir base de datos. Nos propusimos demostrar que se podía, y nos metimos a fondo con el tema. Es un tema que crece y que podemos ir actualizándolo. Las declaraciones juradas fue otra oportunidad de tener un contenido exclusivo, pero que después lo abrimos para que se use en otras investigaciones. Una vez creado lo abrimos y lo hacemos accesible a todo el mundo.
¿Cuándo difunden las bases de datos abren la posibilidad de que otros medios o periodistas descubran información útil para sus comunidades o localidades…inclusive del exterior?
Claro. Hoy el concepto que se privilegia es el del conocimiento abierto, que abarque no solo a los medios de prensa o periodistas, sino también que incluya la participación ciudadana. En el fondo lo que queremos hacer con toda la información es mostrar evidencia, y no queremos quedarnos con la primicia, sino que queremos que circule. Si lo difundimos y luego la información le sirve a nuestros competidores, mejor. Eso es reconocer que no podemos descubrirlo todo. Abrimos los datos, no se puede analizar todo. Nadie tiene los recursos ni el tiempo para hacerlo. Entonces abrimos los datos para que otros periodistas puedan relevar la información.
Si todos hiciéramos un poquito de esto, lograríamos un conocimiento mucho mayor de todos los temas.
¿Ese fue el ejemplo de lo que sucedió con las facturas truchas de Bahía Blanca?
Sí. El área de Datos de Clarín lo abrió y se pudo trabajar desde diferentes lugares del país. Eso te puede dar una concientización. Cuando se abren los datos, se usen los datos oficiales, o las bases que aporta La Nación o Clarín, el objetivo está logrado. Los ciudadanos pueden producir cambios usando información pública. No sirve de nada que esa información quede en un cajón o en la carpeta de una computadora.
¿En qué sentido beneficiaría al conocimiento abierto y el hacktivismo que se apruebe una ley de Acceso a la Información Pública y el estado argentino tenga una política de transparencia activa?
Si finalmente como parece se sanciona la ley de Acceso a la Información Pública nos va a beneficiar mucho, porque nuestra energía ya no va a estar en construir las bases de datos, sino en agregarle valor a esos datos oficiales con muchísima más velocidad, aplicando tecnología. Estos años la energía estuvo puesto en conseguir los datos, escanearlos, procesarlos, para después utilizarlos. Con una ley podríamos hacer mucho más que eso. En el caso de la pauta oficial, por ejemplo, lo último que nos dieron fueron dos carpetas enormes, impresas, y tuvimos que trabajar pasando esa información a bases. Si accediéramos a ese material ya procesado, podríamos poner mucha más energía en el análisis y las historias que surjan. Ganaríamos en eficiencia, además de reducir costos y tiempos.
Eso desde lo práctico. Pero también habría muchos más ojos ciudadanos, expertos o no, mirando esa información. Se podría organizar el monitoreo de esa información de una manera mucho más amplia; el control ciudadano sería mucho mayor.
¿De qué manera podrían los medios más chicos acercarse al periodismo de datos sin una estructura como tiene La Nación? ¿Cuáles son los consejos que puede darles?
En este momento todos podemos aprender, y además las herramientas son gratuitas y son cada vez más accesibles y fáciles de usar. El 60 o 70% de periodismo de datos es soluciona con planillas de cálculo que están en Google Spreadsheet o Microsoft Office. Ni siquiera tiene que ser Excel. Para poder abrir datos esos programas sirven, también para poder analizarlos, y también para generar la base para las visualizaciones, que se hacen con otra herramienta interactiva y gratuita como Tableau Public.
No hay que ser un programador, no hace falta. Cada uno con sus datos puede llegar a completar una cadena cuyo eslabón es el dato o los datos que esa persona tiene. El dato o la serie de datos. Siempre con cuidado y con el criterio de que sean datos públicos, publicables y autorizados o validados.
La recomendación principal es hacerse tiempo para aprender. Aprender, mirar, ver otros casos, y siempre pensar que esto es un esfuerzo extra pero que va redituar en cosas positivas para el medio. Es increíble ver qué pasa cuando abrimos los datos, y le damos a otros periodistas o ciudadanos la posibilidad de agregar capas de valor y análisis, de cruzamiento, etc. Reitero lo que dije antes: uno no tiene que saber todo. Esta es una visión de largo plazo. Creo que tenemos el potencial de que todo esto crezca. Es un cambio de mentalidad muy grande. Pero es increíble cómo vuelve mucho más de lo que uno da cuando sucede.
¿Puede dar un ejemplo?
Uno de los ejemplos es lo que hicimos con Voz Data, que es un una plataforma de colaboración para construir bases de datos basados en documentos no estructurados. Esto es estructurar información no estructurada gracias a la colaboración ciudadana.
Lo hicimos con esta aplicación con los gastos del Senado, donde abrimos los datos para que los ciudadanos desde su casa puedan analizar la información de cada gasto y luego validarla. Son grandes volúmenes de información analizados por miles de ciudadanos interesados en el tema, que aplican su tiempo para revisar su facturas, costos, proveedores, y así los validamos. En ese caso la validación de los registros dependió de tres personas diferentes.
En los telegramas de las PASO, que fue otro proyecto hicimos coincidir a dos por cada registro. En ese caso sistematizamos 16.000 telegramas, con 42.000 registros ciudadanos de todo el país. Y en la investigación detectamos un 42% de inconsistencias, según lo que la gente había observado y que nos fue recomendado por expertos de diferentes ONG.
¿Qué es el Data Fest?
Junto con la Facultad de Comunicación y la maestría de Data Mining de la Facultad de Ingeniería de la Universidad Austral, organizamos el Data Fest, donde el centro de la cuestión es conocer bases disponibles y herramientas y técnicas de análisis y visualización de bases de datos para periodismo, para sociedad civil, para resolver problemas usando estas bases y la tecnología disponible. Por ejemplo, monitorear el avance de una obra pública es posible usando tecnología cada vez más accesible, entonces con tecnología, imágenes y datos ¿por qué no nos ponemos a pensar juntos y solucionar este tema en una mesa con diferentes expertos?
Nosotros lo que tratamos de hacer es presentar bases de datos disponibles, que nosotros conocemos, o que están presentando cada vez más gobiernos locales o el gobierno nacional, incluso dependencias como el PAMI o el área de energía. Después mostramos las herramientas para analizar, cuáles son los datos, con qué los puedo analizar, y con qué los puedo visualizar. Sumamos también a distintos expertos en áreas del estado para que nos puedan explicar esos datos también. Por ejemplo el caso de energía, hay información publicada, pero no es tan fácil de entender. Entonces tratar de hacer que esos datos se acerquen por un lado al ciudadano, al periodismo, y con qué herramientas este ciudadano los puede trabajar. Dar esos primeros pasos en el Data Fest. Este año, a mediados de junio tendremos la cuarta edición.
Ahí además se da la posibilidad de conocer gente en la misma situación, con avidez por aprender y ofrecer conocimiento. Lo que más nos interesa es que los que producen esa información conozcan a los que necesitan esa información y se encuentren ahí. Que conozcan el sentido que ellos abran la información que manejan por un lado. Por otro lado fomentar el uso de información en estos formatos. Fomentamos que no haya barreras para acceder.
Creemos que si somos cada vez más los usuarios de información se activará la demanda de esa información. Si se usan, los data sets se mantienen activos, en uso. Es más difícil oscurecerlos, es más difícil que los corten. El IPC no se va a cortar, porque ese tipo de información es conocido, pero el subsidio a los transportes de colectivos nadie los mira, entonces si no lo difundimos y no usamos esa información, y decimos estos son los subsidios, están en tal lugar, úsenlos como datos abiertos, hay riesgo de que desaparezca esa información. Entonces activar el uso es activar la demanda y ayudar a que haya más usuarios es lo que queremos hacer en los Data Fest.