Digitalización y Captura de documentos, conceptos esenciales en gestión documental

Adrián

Adrián Macias Alegre  colabora en Archinfo 2.0 con un post publicado en su propio blog http://www.dokumentalistas.com/, el post es sobre la era digital.  Su colaboración será publicando post ya publicados y alguno inédito.

By Adrián Macias on junio 26, 2013

En plena era digital, cada vez más empresas, conscientes de las posibilidades de las nuevas tecnologías para la gestión de documentos y contenidos, quieren tener accesible su documentación corporativa desde cualquier punto del planeta además de aprovechar al detalle la información que los documentos contienen. Conforme a esta nueva necesidad van cobrando importancia la prácticas de digitalización y dando un paso más las referentes a captura de documentos, cada una con un rol concreto en los procesos de gestión documental que implican en ambos casos el paso de documentación en papel a su equivalente en registros digitales.

La digitalización está cobrando cada vez más importancia en las empresas que están interesadas en convertir a documentos electrónicos muchos de los documentos que la organización tenía en formato papel, obteniendo con ello un considerable ahorro de costes derivados del ahorro de espacio físico para almacenamiento, una garantía de preservación de información clave por medios digitales y la posibilidad de acceder al contenido de los documentos desde diversos lugares geográficos y plataformas tecnológicas (ordenador, móvil, tablet, etc.). A nivel técnico y metodológico, digitalizar implica la conversión de documentos en papel a formatos digitales mediante el uso de escáneres y otros tipos de hardware. No obstante, el hecho de digitalizar documentos no va más allá en la práctica que el hecho de subirlos a un sistema de almacenamiento y dejarlos ahí sin que ello implique por defecto una organización inteligente que facilite su posterior localización.

Aunque la digitalización es el primer paso, si bien por sí sola no resulta de gran utilidad para las empresas que quieran implantar gestión documental en sus procesos de negocio ya que implicaría simplemente almacenar miles de documentos en una base de datos, y eso no es sostenible ya que esta práctica no garantiza su localización en el futuro con las posibilidades de recuperación de información disponibles por defecto en los entornos de propósito general. Un paso más que asegurara resultados óptimos en nuestros procesos de búsqueda y recuperación de documentos sería unir a la digitalización un sistema de gestión documental que permitiera monitorizar con inteligencia desde la creación de registros digitales a partir de la documentación originaria en papel, pasando por la clasificación de los documentos y la extracción concreta de datos y que además tuviera la capacidad de garantizafr la accesibilidad a la documentación en cualquier momento del futuro.

Al proceso por el cual los documentos son enviados al sistema ECM se le denomina captura documental. Si además se trata de captura inteligente, se podrán simplificar con ella muchos de los trabajos que el usuario tendría que realizar manualmente para ingresar documentos en un sistema como nombrar, añadir metadatos, guardar documentos en ubicaciones específicas o iniciar flujos de trabajo. La automatización de estas tareas por parte de los sistemas inteligentes de gestión documental implica por tanto una reducción de costes en tiempo y mano de obra.

En detalle, la captura de documentos implica en primer lugar que el sistema que la utiliza incluye entre sus funciones la capacidad de escanear documentos. Junto con ello, en muchas ocasiones está habilitada la posibilidad de realizar cargas masivas de documentos, lo cual suele abordarse de dos formas: bien, seleccionando varios documentos desde un disco local o mediante hot folder que implica conectar al sistema con una carpeta concreta para que éste la monitorice. Esto último significa que cada vez que el escáner incluya un documento en esta carpeta, el sistema tendrá la capacidad de procesarla sin necesidad de intervención humana. La captura permite escanear los documentos en forma de lotes y dejar que el sistema los separe individualmente por diversos métodos como laidentificación de códigos de barras (lo cual implica el proceso, muchas veces costoso en términos de tiempo para el usuario, de generar y colocar los códigos de barras manualmente en cada documento) o bien como en el caso de sistemas inteligentes como Athento mediante el procesamiento de la propia estructura de los documentos, identificando así la tipología de los mismos y decidiendo a partir de esos datos donde deben ir ubicados dentro del sistema.

El aprovechamiento de la estructura de los documentos para la identificación de su tipología y su correcta clasificación hace necesario que la captura inteligente incluyamecanismos de mejora y corrección de imagen cuya aplicación haga que los documentos escaneados tengan las características de calidad que permiten su correcto almacenamiento y procesamiento. Entre las funcionalidades que se pueden encontrar en un ECM para corregir los defectos derivados de la digitalización se encuentran:

  • Rotación: Permite reorientar el documento, aplicando grados de rotación al mismo. Puede ser aplicada de forma automática o manual.
  • Binarización: Aplica mejoras de contraste a las imágenes.
  • Umbral dinámico: Convierte imágenes en formato blanco y negro.
  • Bordes: Recortes de bordes blancos y negros no deseados de forma automática o manual.
  • Inversión: Ofrece la capacidad de girar la posición de los documentos como si se tratase de una imagen espejo.
  • Suavización: Se refiere a la reducción de defectos en el documento como elruido “sal y pimienta”, que son aquellos puntitos negros que aparecen en ocasiones tras escanear o digitalizar una imagen y que dificultan la posterior indexación del mismo.

La indexación del contenido de los documentos es otro capítulo que tenemos que abordar si lo que queremos es poder encontrar nuestros documentos en un sistema ECM con garantías de éxito desde cualquier ubicación que lo intentemos. La mayoría de los gestores documentales permiten que el título y la descripción del documento sean indexados, lo cual quiere decir que tanto título y descripción se introducen en una base de datos para que a través de consultas del contenido de estos campos los documentos en los que la “frase de búsqueda” utilizada coincide puedan ser encontrados. No obstante, mientras que normalmente la indexación del título es “full-text” no suele ocurrir así en el caso de la descripción, obligando, en el caso de utilizar este metadato como base de búsqueda, a ceñirse a la descripción completa del documento tal cual se introdujo (es decir, de forma literal). Otra cosa sería contar con un OCR que además de lo ya mencionado, permitiera indexar cada palabra del contenido de la documentación almacenada, logándose así un verdadero salti cualitativo al poder realizarse una búsqueda full-text en todo el documento.

Además de ello, el uso de software inteligente de captura documental permite que pueda ser entrenado para reconocer tipologías documentales, lo cual se consigue mediante la combinación de diversas tecnologías de tipo semántico, que posibilitan que el sistema pueda automatizar el almacenamiento de documentos e iniciar flujos de trabajo de revisión o aprobación:

  • Redes neuronales: Consiste en enseñar al sistema una muestra de documentos de determinada tipología, la cual compara con los documentos capturados y en función de ello arroja un porcentaje de similitud.
  • Histograma: El sistema analizará la estructura de color de una muestra documental y comparará en adelante dichas estructuras con las de cualquier documento escaneado, a partir de lo cual arrojará un porcentaje de similitud que ayudará a la identificación de sucesivos documentos.
  • Expresiones regulares: Se trata de usar el contenido de los documentos para identificar patrones repetitivos de palabras, expresiones, frases y cadena numéricas asociadas a determinados tipos documentales.

Las tecnologías anteriores facilitan la capacidad de extracción de datos concretos de determinados documentos. Para ello, previamente se entrena al sistema indicando la ubicación de los datos a extraer en documentos de muestra creándose así una matriz que en adelante será utilizada sin necesidad de intervención humana para futuras extracciones. Una vez obtenidos los datos estos se integrarán como metadatos, enriqueciendo sucesivamente el sistema. No obstante, la mayoría de los ERPs existentes en la actualidad contemplan la intervención del usuario para la validación de los datos extraídos o la definición de plantillas de extracción, además de que en muchas ocasiones los datos son codificados en códigos de barras que pueden ser incorporados manualmente a los documentos lo cual resulta costoso en términos de tiempo para las empresas que tienen que destinar específicamente recursos humanos de su plantilla para realizar tareas como escaneado de documentos individuales por separado, clasificación de documentos o extracción manual de datos. En cambio, la captura inteligente de documentos, como hemos podido comprobar, soluciona estos problemas mediante la automatización de procesos.

Quizá la pregunta que una empresa tendría que hacerse es el grado de automatización que quiere imprimir a la gestión de su documentación corporativa y ello puede hacerlo con tres niveles de especialización, como ya hemos visto, cada uno de los cuales implica mayor complejidad pero también mayores ventajas que garantizan mayor productividad y ahorro de recursos. Deberá decidir si solo le basta con la digitalización de documentos, si en un paso más allá quiere utilizar mecanismos de captura documental y si apostando por el beneficio de la automatización quiere que dicha captura sea una captura inteligente, la cual favorece, sin duda, el procesamiento y localización de documentos en un sistema sin intervención humana en un alto grado y ello reduce costes y aumenta los beneficios derivados de una rápida toma de decisiones sobre el 100% de la base informacional de la empresa.

Fuente: DoKumentalistas

Deja un comentario