blank
18
Feb

Gestión Documental, mucho más que “papeles”

Como inicio de esta colaboración periódica en el blog de OpenExpo, voy a hacer una mínima presentación del tema que trataré principalmente (aunque no en exclusiva): la gestión documental, y en un sentido amplio, ECM (Enterprise Content Management: Gestión de Contenidos Empresariales) .

Aunque la gestión documental suele quedar “olvidada” frente a otros temas aparentemente más “cool”, la verdad es que siempre ha sido puntera tecnológicamente (como mostraré en alguno de los artículos), es imprescindible para cualquier empresa o institución, ya que permite hacerla competitiva al optimizar los procesos y reducir costes y además puede ser un reto interesante.

Y “¿De qué va esto de la gestión documental?

Pues abarca todas las tecnologías, software, procesos y normas que afectan a los documentos.

Pero “¿Qué es exactamente un documento?”

Si pensamos automáticamente en “un papel”, nos quedamos “muy cortos”.

Tomando como referencia la definición de Documento en Wikipedia: ”Un documento es un testimonio material de un hecho o acto realizado en funciones por instituciones o personas físicas, jurídicas, públicas o privadas, registrado en una unidad de información en cualquier tipo de soporte (papel, cintas, discos magnéticos, fotografías, etc.) en lengua natural o convencional. Es el testimonio de una actividad humana fijada en un soporte, dando lugar a una fuente archivística, arqueológica, audiovisual, entre otras.

Por tanto un contrato (en papel, digitalizado o grabado en audio, como hacen las operadoras de telefonía) es un documento, un informe técnico es un documento, un manual de un producto que desarrollamos es un documento y una foto digital es un documento.

Como vemos, un primer problema de la gestión documental es que debe manejar y almacenar de forma eficiente múltiples formatos de ficheros, y el hacerlo correctamente tiene implicaciones tanto en la eficiencia y productividad de los usuarios como en aspectos legales.

Un documento no es solo un fichero, un documento requiere una identificación del tipo de documento (que no debe confundirse con el formato de fichero) que estamos manejando, para que pueda tratarse de distinta forma cada tipo de documento (Ej. Del DNI extraer la dirección, de una Nómina verificar el importe, un Documento Médico debe cumplir normas estrictas de la LOPD, etc.).

Ademas requiere unos metadatos o campos que lo complementen/describan (por ejemplo autor de una foto, lugar en que se tomó, fecha, etc) información que en ocasiones está dentro del documento (y puede extraerse de forma automática o por una persona) y en otras ocasiones debe asignarse según se recibe (por ejemplo cuenta bancaria para a la que se asocia el DNI de un titular o siniestro al que se asocia una foto de un coche accidentado). Sin esa información, no seremos capaces de encontrar o utilizar adecuadamente los documentos.

Para automatizar esta clasificación de documentos y la extracción de metadatos se crearon las tecnologías de OCR y, una vez convertido a texto, se utilizan sistemas de análisis muy avanzados basados en múltiples tecnologías (Machine Learning, NLP :Procesamiento del lenguaje natural, redes neuronales, Deep Learning,..), las cuales llevan usándose muchos años en el mundo del tratamiento documental, generalmente antes de empezarse a utilizarse de forma masiva en otros ámbitos.

Además, para mejorar la calidad de la imagen (en el caso de tratarse de documentos digitalizados desde papel) de forma que pueda tratarse de forma automática, se desarrollaron hace años diversos sistemas para optimizar automáticamente la imagen, girándola, ajustando brillo y contraste para que sean óptimos, eliminando puntos, perforaciones, bordes negros, etc.

Adicionalmente a los metadatos, un documento suele requerir un “contexto” donde “convivir” con sus documentos “hermanos” (un expediente de Dependencia, una Hipoteca, un proyecto de desarrollo, etc) que permita manejar todos los documentos de igual forma sin tener que buscarlos de forma separada o borrarlos uno a uno cuando han caducado. Además ese “contexto” será jerárquico, ya que puede ser distinto el expediente según el departamento de la institución o empresa que lo gestione.

Y por último es muy importante la seguridad, que debe controlar quien accede a cada documento o expediente y que funciones debe realizar, así como dar soporte a requerimientos legales como la LOPD-GDD española o el RGPD europeo.

Sin todo lo anterior, no podemos hablar de “un documento” y su gestión será incompleta y costosa para la institución o empresa que lo maneje.

A todo ello, debemos añadir los volúmenes manejados y su impacto en tecnologías y arquitectura a aplicar. En una aplicación que solo maneja datos, el volumen manejado es pequeño, pero en aplicaciones documentales, el ancho de banda consumido, el almacenamiento necesario y la memoria crecen mucho, lo que condiciona y dificulta las soluciones y los desarrollos.

Para hacerse una idea, si pensamos en una empresa como una operadora, que tenga 5 millones de clientes, simplemente para gestionar las facturas, para los cuales debe generar 1 factura mensual, hablamos de 60 millones de documentos al año, documentos que, por normas fiscales, deberá mantener unos 6 años, es decir debe mantener un repositorio documental con 360 millones de documentos (con sus tablas y complejidades de búsquedas asociadas) y, estimando solo 100Kb por documento, hablaríamos de 36 Terabytes que deben estar accesibles para consulta de esos 5 millones de usuarios. Y por supuesto, mensualmente, antes de almacenarlas hay que componer/generar esos 5 millones de documentos de facturas a partir de los datos contables y de las plantillas definidas. Esos volúmenes son uno de los motivos por los que las operadoras, en lugar de generar todas las facturas “a final de mes”, prefieren hacerlo repartidas entre todos los días (de acuerdo a la fecha de contratación) de forma que la infraestructura necesaria (para componer y almacenar) no haya que sobredimensionarla.

A todo lo anterior deben dar soporte las herramientas de gestión documental, y en particular, los productos que se utilizan para almacenar los documentos, los DMS (Document Management System o Gestores Documentales).

Hay muchos otros temas y tecnologías en el ámbito documental, como la firma electrónica, la gestión la reproducción (IRM, parecida al DRM) o la conservación a largo plazo (¿Quien puede abrir un fichero de Wordperfect o WordStar, los productos estrella en sus tiempos para editar documentos? Sin embargo los documentos de una hipoteca deben guardarse 30 años).

Finalmente es interesante recordar que, AÑOS ANTES (BRS se creo en 1977) de que empezaran a utilizarse los primeros buscadores a mediados de los 90, ya existían motores para indexar todas las palabras de colecciones de documentos (legales, científicos, médicos, bibliografía, ...) y generar distribuciones con cientos de miles de documentos almacenadas en CD-ROM y localizables por palabras y expresiones como cualquier buscador actual. Y eso con velocidades acceso de CD-ROM, en sistemas MS-DOS con 8 bits y con 640M de memoria, lo cual es un gran logro tecnológico.

Creo que como puede verse, el mundo de la gestión documental tiene muchos elementos de interés y de aplicación, y no tiene nada que ver con “burocracia” o “papeles viejos archivados en un sótano”.

Al igual que en las películas de Alfred Hitchcock, que utilizó lo que llamaba “Macguffin” (un artificio que guiaba sus películas, pero que realmente no era el centro de las mismas, siendo una especie de “excusa” argumental), he pensado utilizar como “Macguffin” de mis siguientes colaboraciones la posible implantación y automatización de la gestión documental en una empresa para hablar, no solo de productos de gestión documental sino de productos y tecnologías abiertas en general.

Respecto a mi, llevo trabajando en proyectos de desarrollo, especialmente en el ámbito de la gestión documental, desde hace más de 30 años, utilizando todo tipo de herramientas, lenguajes y tecnologías, tanto en funciones de desarrollo, como administración, arquitectura y consultoría documental (tantos años dan para mucho 🙂 ).

Actualmente trabajo como arquitecto de gestión documental para un importante grupo bancario, y, en en ámbito de software abierto, he diseñado y desarrollado como proyecto personal un gestor documental open source y gratuito que permite facilitar el manejo de documentación a empresas e instituciones de todo tipo: OpenProdoc. Por otra parte, tras colaborar durante tiempo con un blog especializado en documentación: Biblogtecarios, donde quien le interese puede encontrar información complementaria (PDF-A, Clasificación automática de documentos, Gestores documentales personales,..) a los que trataré aquí, tengo mi blog (https://pensamientocriticoti.blogspot.com/ ) donde analizo el mundo de las tecnologías de la información con una visión (muy) crítica y heterodoxa.

Espero que los temas que pueda tratar resulten de interés y clarificadores, y si levantan debate, mucho mejor, eso enriquece y abre la mente.

Más Artículos de Joaquín Hierro

Leave a Reply