#TFM de Sergio Vasco en #Sicubo “Extracción automática de datos de facturas” @masteresTicEpcc

El pasado jueves día 4 de octubre de 2012 presentó Sergio Vasco su TFM (Trabajo Fin de Máster) en el MI2 (Máster de Ingeniería Informática) de la UEx en Cáceres (@MasteresTicEpccUEx) y que se desarrolló en la empresa de base tecnológica (EBT) Sicubo SL.

 

El director del trabajo en Sicubo ha sido Carlos Pachón y en la UEx Pablo Gª Rguez (grupo de investigación GIM – Grupo de Ingeniería de Medios: gim.unex.es) y en el tribunal han estado Manuel Barrena, Marisa Durán y Andrés Caro. El título del mismo: “Extracción automática de datos de facturas”.

Contextualizando el TFM decir que en los últimos años la digitalización de la información (textos, imágenes, sonidos, etc. ) ha devenido un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes.

 

En este ámbito, poder automatizar la introducción de caracteres evitando la entrada por teclado para su posterior procesamiento, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.

 

El objetivo es digitalizar documentos estructurados o semiestructurados catalogando automáticamente los documentos con los metadatos obtenidos y archivándolos en formato digital para facilitar su posterior búsqueda. Además si el proceso de  digitalización se realiza de manera certificada permite que los documentos electrónicos aporten el mismo valor legal que los de papel.

 

 

Aplicando lo anterior al mundo empresarial nos encontramos con el problema de la contabilización automática, la digitalización de las facturas y la extracción automática de los datos contables.

 

Por todos los motivos anteriores el Trabajo de Fin de Máster ha consistido en un estudio de la problemática de la extracción de los datos de las facturas y de las posibles soluciones existentes y el desarrollo de un algoritmo que permita extraer automáticamente los datos necesarios para la realización de la contabilidad.

 

La problemática abarca diversos frentes como pueden ser la variedad de formatos y tipos de facturas hasta la calidad de los propios documentos. Las posibles soluciones se basan en los distintos tipos de reconocimiento óptico de caracteres (OCR full text u OCR zonal) para la extracción de datos y su posterior procesamiento.

 

El algoritmo desarrollado se basa en buscar los datos necesarios en todo el conjunto de la información textual de los documentos. Para obtener la información textual se ha utilizado el reconocimiento óptico de caracteres, para posteriormente realizar una búsqueda de datos que cumplan una serie de requisitos definidos en un documento de configuración y finalmente realizar una validación de los datos buscados.

Aunque la finalidad del trabajo es la extracción de datos contables relevantes, pensando en la escalabilidad de la solución, y para poder utilizarla en documentos similares como nóminas, recibos o justificantes bancarios, se ha desarrollado de forma que permita extraer datos de cualquier documento.

 

Se puede puede ver en Youtube una prueba de funcionamiento de la herramienta: http://www.youtube.com/watch?v=FMscLB1zmus

 

En la foto se puede ver a Sergio en primer plano trabajando en Sicubo, a la derecha Carlos Pachón y a la izquierda Roberto.

 

pablogarguez

@pablogarguez es actualmente Director General de Agenda Digital de la Consejería de Economía, Ciencia y Agenda Digital de la Junta de Extremadura, desde septiembre de 2019, siendo responsable básicamente de la Conectividad y la Transformación Digital en consonancia con la políticas de la Unión Europea. Fue Director de la Escuela Politécnica de Cáceres (School of Technology) de la Universidad de Extremadura durante 3 años (2017-2019), con titulaciones de grado, máster y doctorado en los campos de Ingeniería Civil, Edificación, Informática y Telecomunicaciones. Su trayectoria docente comienza en 1997 en la Universidad de Extremadura con su centrada en asignaturas de Programación en Ingeniería Informática y en el campo de las Bases de Datos y los Sistemas de Información. En el año 2000 defendió su tesis doctoral en la Universidad de Extremadura, que es la primera con mención de Tesis Europea de la Universidad, obteniendo el título de Doctor en Ingeniería Informática por la UEx. Su actividad investigadora se ha centrado en las áreas de Ciberseguridad, el BigData, el Internet de las Cosas (IoT), la Visión por Computador y el desarrollo de técnicas de Reconocimiento de Patrones y Análisis de Imagen. Fruto de esta labor de investigación, resaltar que es coautor de más de veinte artículos publicados en revistas internacionales indexadas en JCR, con un índice H de 12 en cuanto a las citas conseguidas por estos artículos. Actualmente tiene 3 sexenios de investigación a nivel nacional, y el último de ellos es un sexenio vivo (activo). También posee un sexenio de transferencia de los nuevos habilitados por el Ministerio (2019).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *