NOTA: Suelo firmar como Adhik Arrilucea, y así es como bauticé mi
cuenta de GitHub
.
- Preguntas cortas
El periodismo de datos moderno, del que bebemos actualmente, nace entre 2006 y 2008 gracias a una combinación de factores: abundancia de software de código abierto HTML5 y Open Data.
-
Abundancia de código abierto. También llamado software abierto; "software que podemos usar, escribir, modificar y redistribuir libremente", que los desarrolladores de programadores de código decidan publicar y compartir su trabajo sin reservarse sus derechos de autor exclusivos para sí, compartiéndolo para que forme parte del dominio público.
-
HTML5. La quinta versión del lenguaje básico de la World Wide Web (el ecosistema de páginas de Internet), lanzada en 2014. Es el estándar con el que están programadas las webs hoy día. Una de las más notables novedades respecto al HTML4 es darle cobertura a la reproducción de contenido multimedia. Así, ya no debe usar recursos de terceros (plug-ins) como el obsoleto
Flash Player
. -
Open Data. Filosofía y práctica que persigue que determinados tipos de datos estén disponibles, de forma libre para todo el mundo, sin restricciones de derechos de autor, de patentes o de otros mecanismos de control; tiene mucho que ver con el movimiento de código abierto antes mencionado. Se reclama transparencia a instituciones públicas, privadas, investigaciones científicas, etc.
Es un modelo de diseño de software, una red de comunicaciones, en la que las tareas se reparten entre los proveedores (servidores) y los demandantes (clientes), se crea un flujo de comunicación por el que los clientes realizan una petición y el servidor le ofrece una respuesta. . Podemos estar hablando de programas que se ejecutan en una sola computadora, aunque es más ventajoso en un sistema operativo multiusuario distribuido a través de una red de computadoras. Los servidores cuentan con una serie de recursos y aplicaciones que ponen a disposición de los clientes cada vez que son solicitados.
Excel es una aplicación para visualizar datos tabulados. El formato CSV
muestra los datos
separados por comas, por tanto, crea una especie de tabla con filas y columnas. Es decir:
ambos presentan los datos con los que se puede trabajar de la forma más sencilla posible,
facilitando su tratamiento.
Existen varios tipos de formatos, aunque los tres más habituales son:
● SV o valores separados por cualquier valor. Suelen estar nombrados con .csv
y son
los más sencillos, pero también los menos estandarizados. Los valores separados
por comas se visualizan como una tabla simple con filas y columnas. La mayoría de
los recursos disponibles en los catálogos de Datos Abiertos se encuentran en
formato CSV
. El portal de datos europeo dispone de más de 120 mil conjuntos de
datos en formato CSV
, siendo el formato que más abunda en este catálogo de Datos
Abiertos. Por su parte, el catálogo nacional datos.gob.es cuenta con casi 14 mil
datasets en formato CSV
, siendo igualmente el formato mayoritario.
● JSON o JavaScript Object Notation, notación de objetos JS. Son los ficheros que mejor funcionan con aplicaciones web. Permiten más complejidad que los SV pero también son más difíciles de leer. Los datos aparecen en forma de cadenas.
● XML o eXtensible Markup Language, lenguaje de marcas extensible. Es un lenguaje muy complejo que proporciona una plataforma para definir elementos, creando una plataforma con un formato y lenguaje personalizados. Los archivos XML se dividen en dos partes: prolog y body. La parte prolog consiste en metadatos administrativos, como declaración XML, instrucción de procesamiento opcional, declaración de tipo de documento y comentarios. La parte del body se compone de dos partes: estructural y de contenido (presente en los textos simples). Como ya hemos dicho, es el más difícil de leer y, por tanto, es muy complicado trabajar con él.
Los tres aspectos fundamentales en la tecnología de una página web son:
- El modelo de la WWW basado en el modelo cliente-servidor.
- Los protocolos web.
- Los navegadores web.
Antes de empezar a trazar la ruta hacia el fichero con el que deseas trabajar o realizar
cualquier cambio o comando, lo primero que debemos hacer siempre al iniciar la terminal es
usar el comando pwd
(print work directory, imprimir directorio de trabajo), para que la
terminal nos diga en qué parte del árbol de directorios nos encontramos, de qué directorio
partimos.
API significa interfaz de programación de acceso o Assist Programming Interface. Esto vendría a referirse a los códigos para comunicarse en la web. Un ejemplo de API es HTTP.
Jupyter es una organización sin ánimo de lucro creada para desarrollar software de código abierto, estándares abiertos y servicios para computación interactiva en docenas de lenguajes de programación. Creado a partir de IPython en 2014 por Fernando Pérez, Jupyter soporta entornos de ejecución en varias docenas de lenguajes de programación. El nombre del proyecto Jupyter es una referencia a los tres lenguajes de programación principales soportados, que son Julia, Python y R., También es un homenaje a los cuadernos de Galileo que registran el descubrimiento de los satélites de Júpiter. Jupyter ha desarrollado y respaldado los productos de computación interactiva Jupyter Notebook, JupyterHub y JupyterLab, la versión de próxima generación de Jupyter Notebook.
Philip Meyer fue uno de los primeros y principales periodistas de datos de mediados del siglo pasado. Comenzó su trabajo en The Miami Herald, donde comenzó a trabajar en lo que hoy entenderíamos como periodismo de datos a propósito de una investigación sobre el coste de los seguros escolares contra huracanes e incendios. Descubrió mediante el análisis e interpretación de los datos que el 65% de la financiación de campañas electorales procedía precisamente de empresas vinculadas a estos seguros escolares.
También desarrolló algunas aplicaciones informáticas para predecir los resultados electorales de Ohio. Así comienza a interesarse en la aplicabilidad de la informática y los métodos de investigación de las ciencias sociales para aplicarlos a sus investigaciones periodísticas. En los 60, investigó las revueltas de Detroit, siguiendo los métodos de encuesta expresados en una reconocida labor periodística.
Florence Nightingale fue una enfermera y estadística del siglo XIX, normalmente conocida por ser la creadorea del primer modelo teórico de la enfermería y fundar así la enfermería moderna. Sin embargo, parte de su trabajo en este campo nos permite relacionarla, mediante ese análisis estadístico y su asociación a causas y a historias, al periodismo de datos. Quizá su trabajo más relevante sean los diagramas sobre las causas de fallecimiento en la Guerra de Crimea. En él, representó (es decir, usó la visualización de datos) los muertos y heridos en la guerra y las probabilidades que tenían de salvarse según varios factores para saber cómo debían ser tratados o si merecía la pena emplear tiempo y recursos en ellos en tal estado o centrarse en pacientes que sí podrían salvarse. De este modo, usó datos, estableció causalidades o probabilidades y visualizó todos estos elementos creando una historia que bien podría inspirarnos en el periodismo de datos.
- Pregunta de desarrollo
Cuando hablamos de periodismo o visualización de datos, ¿a qué datos nos referimos? Razona la respuesta.
El periodismo de datos usa la visualización de datos tanto en la etapa de análisis como en la de la presentación de resultados. No se puede hablar de periodismo y visualización sin análisis, pero la visualización remite también al análisis de datos. Por tanto, cuando hablamos de visualización de datos, nos referimos también a la visualización del análisis de los datos.
Los datos manejados por el periodismo de datos y cuya visualización se pretende facilitar son registros electrónicos que han de ser tratados por ordenador, específicamente (pudiendo ser tanto datos estructurados como no). Respecto a la visualización, es una parte importante en esta labor periodística pero que debe asumir el análisis de los datos y su posterior presentación (es decir, visualización). Aplicamos técnicas estadísticas o programas informáticos que procesen ese gran volumen de registros con los que tratamos para ser capaces de sacar conclusiones o hipótesis sobre ellos, no sirve con poder visualizarlos sin tratar.