Datos Abiertos, ¿cuestión de volumen?

El valor de los datos publicados en una iniciativa de datos abiertos viene determinado por la siguiente ecuación:

Valor = (Cantidad x Calidad x Utilidad)

Estos tres factores determinan, en mi opinión (puede haber otros muchos criterios), el valor de la iniciativa. Son factores que multiplican el valor, no expresados como una suma. Esto es así porque es necesario que todos ellos sean tenidos en cuenta, y no que prestemos atención sólo a uno o dos de ellos.

La ecuación debe completarse con un último parámetro: El uso que se da a los datos puestos a disposición de los reutilizadores:

Valor= (Cantidad*Calidad*Utilidad)*Uso

Abrir los datos cuesta esfuerzo, y tener una iniciativa en la que no se reutilice su información supone desaprovecharlo.

Ejemplos de descarga de ficheros En este post me centraré en la cantidad. Al respecto, cualquier iniciativa de datos abiertos uno de los indicadores que se utilizan es el número de conjuntos de datos publicados. Sin lugar a dudas, es un dato interesante, pero no concluyente.

Creo importante destacar que, al hablar de cantidad, no debemos referirnos únicamente al número de datasets, ya que una misma información puede representarse en uno o múltiples datasets, y la variedad de la información también es importante.

Por ello, a la hora de hablar de cantidad de datos abiertos debemos valorar, al menos los que citaré a continuación. Y lo intentaré acompañar de un ejemplo ilustrativo:

  1. Tipos de información diferentes: Describen realidades distintas con estructuras de datos diferentes. Explotaciones ganaderas, superficies de cultivo o grupos de acción local son diferentes tipos de información. Permisos de pesca en 2007 y permisos de pesca en 2008 son el mismo tipo de información, aun cuando se presenten en diferentes datasets.
  2. Número de registros: Cuántos elementos describe el dataset (serían las filas si lo vemos como un Excel). No es lo mismo que publiquemos datos de calidad del aire desde el año 2017 que lo hagamos desde el año 1997. O que se publique la información de tráfico sólo de las autovías en lugar de ofrecer datos de todo tipo de carreteras.
  3. Detalle de la información: Con qué detalle está descrito cada registro (serían las columnas del Excel). Impacta también en la calidad del dataset. Si hablamos de calidad del aire podemos hablar de cinco tipos de contaminantes para cada muestra, o de veinte tipos.

Según el documento The National Information Infrastructure (NII): Why, What and How, “Datasets should always be made available for bulk download, even in cases where APIs are developed.”, es decir, siempre debe permitirse la descarga de toda la Información en bloque, aun cuando haya un API disponible.

Bajo nuestro punto de vista, siempre que los ficheros sean manejables (no excedan cientos de MBytes) optamos por ofrecer la descarga de toda la información en un único fichero. Por ejemplo, las Superficies de cultivos municipales es un fichero en CSV que actualmente ocupa 16,2 MB, y ofrece 188.748 registros de información sobre cuántas hectáreas de cultivo secano y regadío hay en cada municipio de Castilla y León desde el año 2010.

Podríamos ofrecer un dataset por cada provincia (9 en Castilla y León) y por cada año (actualmente hasta 2015) y así tendríamos 54 datasets en lugar de uno solo. No podemos afirmar que sea una mala decisión (los reutilizadores podrán juzgarlo mejor) pero sí puede servir como ejemplo para demostrar que no siempre mayor número de datasets es sinónimo de más información.

Antonio Ibáñez Pascual
Dirección General de Análisis y Planificación
Consejería de la Presidencia

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *