datos abiertos
30
Mar

Cómo aseguramos la fiabilidad de los datos abiertos

Los datos abiertos forman parte de la cultura open source. Como se comentó durante la presentación del libro gratuito Tendencias Open Source y Software Libre 2017, el open data genera riqueza, mejora la reputación y la toma de decisiones y fomenta la transparencia. Sin embargo, ¿estamos asegurando la fiabilidad de esos datos?

Los expertos en análisis de datos masivos o big data conocen bien la importancia de disponer de información fiable y pertinente para que esos análisis permitan tomar decisiones correctas. La recuperación de datos irrelevantes (fat data) o erróneos (bad data) hace que el proceso de análisis sea más lento y que los resultados sean menos precisos o, incluso, incorrectos, lo que puede conducir a la organización a tomar malas decisiones

Aunque la principal razón de las organizaciones para invertir en software de gestión documental continúa siendo automatizar procesos y reducir costes, este tipo de software también sirve para garantizar la fiabilidad de la información y generar conocimiento. En 2016 se publicó la nueva ISO 15489, según la cual la gestión documental garantiza que las evidencias que producen las organizaciones sobre su actividad sean fidedignas y estén bien gestionadas. Un documento bien gestionado se convierte así en un documento fidedigno, que la organización puede reutilizar como activo de negocio.

Los programas de gestión documental, también conocidos por sus siglas ECM (Enterprise Content Management), utilizan metadatos para asegurar la trazabilidad del documento a lo largo de su ciclo vital. Estos metadatos nos permiten añadir nuevos filtros de búsqueda y saber si los datos que vamos a analizar han sido manipulados en el camino, previniendo así la recuperación de fat data y bad data. Además, guardan información sobre el contenido del propio documento, por lo que los propios metadatos utilizados para la gestión documental pueden ser objeto de análisis.

Existen varios ECM open source en el mercado. Dos de ellos, Alfresco y Nuxeo, ya se están integrando con ecosistemas de análisis de datos masivos como Hadoop o Spark. Estos programas funcionan con bases de datos relacionales como MySQL o PostgreSQL y se puede optar por importar la base de datos a HDFS. Otra solución habitual consiste en utilizar una base de datos NoSQL (por ejemplo, MongoDB) como back-end del ECM.

Hay más posibilidades y, al final, la solución escogida dependerá de cada caso. La gran ventaja de los ECM libres y de código abierto con respecto a sus alternativas privativas es que resultan más fáciles de personalizar e integrar con otros sistemas. Esto los convierte  en el repositorio de contenidos ideal para organizaciones que analicen grandes volúmenes de datos y quieran asegurar la fiabilidad y pertinencia de estos datos.

Leave a Reply