Investigación

Imagina

{tab=Descripción}

Introducción

IMAGINA: Síntesis io características de medio/alto nivel semántico y aplicación de métodos de indexación sobre distancias en los procesos de búsqueda de imágenes basadas en contenido.

(TIN2005-05939) Ministerio de Educación y Ciencia. 31/12/2005 - 31/12/2008

Este proyecto se enmarca en un área de investigación, de gran importancia en muchos dominios de aplicación, denominada Recuperación de Imágenes Basadas en el Contenido (CBIR). Un enfoque típico de los actuales sistemas CBIR consiste en someter a las imágenes a un proceso de extracción y selección de características que, convenientemente filtradas, constituyan un vector de características perceptuales que traten de paliar el vacío semántico de las imágenes. Sobre la base de datos formada por los vectores de características, y utilizando métodos de indexación apropiados, se llevan a cabo consultas de vecindad que localizan vectores de características próximos. La distancia utilizada deberá sintetizar el concepto semántico de semejanza entre imágenes, a partir de modelos de similitud apropiados. Teniendo en cuenta estas consideraciones, los objetivos que se plantean en este proyecto apuntan a mejorar los procesos de extracción y selección de características, así como mecanismos de indexación y búsquedas por similitud. Concretamente, se pretenden sintetizar características de medio-alto nivel semántico a partir de características físicas, así como diseñar algoritmos que faciliten la recuperación eficiente de imágenes por contenido, mediante el uso de índices multidimensionales.

Descripción

Uno de los factores determinantes en el interés por las técnicas CBIR ha sido el rápido incremento del tamaño de colecciones de imágenes digitales. Por una parte se ha incrementado el número, importancia y disponibilidad de las imágenes en todos los órdenes de la vida, por otra las imágenes juegan un papel crucial en diversos campos aplicación como la medicina, periodismo, tecnología de los alimentos, publicidad, diseño, educación, cine y tv, etc. Existe por tanto una necesidad de gestionar datos de imagen digital, puesto que la digitalización en sí no facilita la gestión, aunque posibilita derivar automáticamente información de las imágenes en sí mismas. Se precisa por ello una investigación colaborativa en diversas áreas, tales como la representación de datos, técnicas de extracción y selección de características, métodos de indexación, motores de búsqueda para la ejecución de consultas por contenido, interfaces de usuario, etc.

Los primeros desarrollos de métodos enmarcados en CBIR datan de finales de los 70, y se basan en anotaciones textuales de imágenes y uso de DBMS para su recuperación. Este enfoque se encontraba con dos graves problemas, por una parte la anotación manual de una voluminosa colección de imágenes resultaba una tarea muy costosa, por otra la existencia de la subjetividad en la percepción del contenido ponía de manifiesto el principal inconveniente que a día de hoy siguen teniendo los actuales sistemas, conocido como el vacío semántico . El siguiente paso en la evolución (en la que nos encontramos hoy) data de principios de 1990, y el elemento clave en este paso evolutivo estriba en la extracción automática de información visual implícita en la imagen en forma de características (color, textura, forma,...), y más recientemente en el avance de las técnicas de retroalimentación que entrenan al sistema a reportar respuestas cada vez más relevantes.

La recuperación de imágenes basadas en contenido utiliza contenidos visuales de una imagen, tales como el color, forma, textura o disposición espacial para representar y caracterizar la imagen. En el enfoque típico de los actuales sistemas CBIR , cada imagen de la base de datos se somete a un proceso de extracción de su contenido visual. Este contenido, convenientemente filtrado (selección de características), se representa mediante un conjunto de valores que describen el vector de características de la imagen. Los vectores de características de las imágenes de la base de datos constituyen la base de datos de características. Para recuperar imágenes, el usuario le proporciona al sistema una imagen ejemplo o un patrón determinado. El sistema entonces transforma esta imagen ejemplo o patrón en su representación interna como vector de características, el cual sirve de referencia para realizar la búsqueda dentro de la base de datos de características. Esta búsqueda consiste habitualmente en una consulta de vecindad, la cual localiza y recupera los objetos de la base de datos más similares a uno dado (la imagen ejemplo o patrón) con la ayuda de un esquema de indexación que acelere este proceso de búsqueda. Los sistemas CBIR más recientes incorporan mecanismos de retroalimentación sobre la relevancia del resultado (relevant feedback) cuyo objeto es usar la información a posteriori del usuario con el fin de afinar el proceso de búsqueda y generar resultados cada vez más significativos.

De acuerdo a esta descripción, podemos identificar tres áreas fundamentales (representadas en la figura) que convergen en la investigación dentro del campo de los sistemas de recuperación de imágenes por contenido, (1) la extracción y selección de características visuales, (2) los métodos de búsqueda por similitud y esquemas de indexación y (3) los mecanismos de retroalimentación de relevancia.

Enfoque CBIR

Enfoque actual de los sitemas CBIR

{tab-segundo=Extracción y selección de característicias}

Extracción y selección de características

Los procesos de extracción de características, enraizados esencialmente en técnicas de visión por computador, tienen como objetivo describir el contenido pictórico de la imagen para determinar si dos imágenes son parecidas en un contexto dado. Las técnicas básicas de extracción más ampliamente utilizadas en el procesado digital de imágenes se concentran en características de color, texturas y formas (o estructuras), así como en combinaciones de ellas. Estos procesos de extracción pueden estar orientados a un procesamiento global (de toda la imagen) o local (de un objeto o región dentro de la mismo), de modo que en ocasiones se precisa una labor previa de determinación o extracción de las estructuras o regiones de interés de la imagen (ROIs, Regions of Interest).

Dentro del extenso abanico de características extraíbles de la imagen, interesan aquellas que sean invariantes frente a rotaciones, traslaciones y escalados, para que sean independientes del punto de vista desde donde haya sido adquirida la imagen u objeto, y ésta siga manteniendo dentro de lo posible valores aproximados para las mismas, tanto para el caso global como local.

Uno de los aspectos relevantes del problema en esta fase 1 del proceso CBIR estriba en manejar adecuadamente el voluminoso número de características que suelen ser extraídas de las imágenes. En este sentido se hace necesario aplicar procesos computacionalmente costosos, basados en metodologías ya conocidas, y que se pueden clasificar en escalares (analizan la máxima sensibilidad individual), vectoriales (trata de probar las capacidades discriminatorias de todos los subconjuntos) y globales (como el caso del método más ampliamente utilizado, el Análisis de Componentes Principales), con objeto de seleccionar un subconjunto reducido y manejable de características que describa convenientemente la imagen. Así pues, un sistema que requiera muchas características no es rentable, y si lo será con pocas características que sean capaces de diferenciar un gran número de patrones, reduciendo así la dimensionalidad del espacio de representación y manteniendo una alta capacidad discriminatoria. Todos estos procesos dan lugar a la obtención del vector de características que define las peculiaridades de la imagen global o bien de algún objeto de interés particular de forma local.

El enfoque antes descrito sigue un planteamiento de procesado de la imagen a nivel básico, donde a partir de unas primitivas obtenemos características de búsqueda a nivel sintáctico, mediante técnicas de Reconocimiento de Patrones y Análisis de Imágenes. Sin embargo, el aminoramiento del vacío semántico definido en los apartados anteriores, tiene ramificaciones en esta parte del proceso CBIR y por tanto debe ser tratado en algunos aspectos en la fase de extracción y selección de características. Implantar tipos de búsqueda con mayor carga semántica requiere el estudio y la síntesis de nuevas características de mayor nivel (a partir de agrupaciones de características de nivel sintáctico) que reflejen, de la forma más adecuada posible, el índice de parecido entre las imágenes según lo que estemos buscando en las mismas. Para ello, es necesario valorar distintos modelos de similitud, en un principio métricos, cumpliendo determinadas propiedades matemáticas, pero analizando otros que se adapten mejor a las características perceptuales como pueden ser las de texturas, que traten de comparar sus formas, escalando las mismas y evaluando sus diferencias (Transformational Distances), mediante el cálculo de sus residuos.

{tab-segundo=Búsqueda por similitud y métodos de indexación}

Búsqueda por similitud y métodos de indexación

La fase 2 del proceso CBIR que refleja la figura, parte de una colección de vectores de características. Los vectores resultantes se pueden hacer corresponder con puntos en el espacio de datos multidimensional (Rd), convirtiendo nuestra base de datos en un conjunto de n puntos d-dimensionales. Este espacio de datos d-dimensional (Rd) dotado con una apropiada distancia dist resulta en un espacio métrico Md = (Rd, dist) que nos permite establecer una valoración sobre la proximidad entre dos puntos cualesquiera del espacio. Si la distancia definida en el espacio métrico captura el concepto de similitud semántica entre las imágenes que representan los puntos del espacio, un problema de decisión sobre parecido semántico entre imágenes puede convertirse en una actividad susceptible de ser resuelta mediante un algoritmo computacional. Esta fase 2 del proceso CBIR consiste precisamente en construir algoritmos eficientes de búsqueda por similitud en el espacio multidimensional, y no tanto en abordar el problema de diseñar medidas que capturen la similitud semántica entre imágenes, aliviando así el problema del vacío semántico.

Cuando el espacio multidimensional es voluminoso (la hipótesis usual de partida) el coste de computar la proximidad entre un punto dado y la colección de puntos almacenada se convierte en uno de los principales escollos para el rendimiento del sistema, de modo que se precisan mecanismos de indexación capaces de organizar de forma efectiva el espacio multidimensional y responder con eficiencia a consultas de vecindad. Abordar la fórmula para aliviar este cuello de botella es uno de los objetivos que nos marcamos en este proyecto. En este sentido, dos enfoques marcan las actuales tendencias para indexar las bases de datos de características: índices basados en características e índices basados en distancias. Mientras que los primeros establecen una partición organizada del espacio multidimensional Rd, y acceden a los datos en base a la localización espacial de los puntos, los segundos indexan las distancias entre los puntos del espacio y puntos seleccionados del espacio (elementos pivote) y utilizan la propiedad de desigualdad triangular para descartar zonas del espacio con puntos no relevantes a la consulta.

Conseguir mecanismos eficientes en la fase 2 del proceso, no sólo pasa por el diseño del método de indexación sino también por el diseño del algoritmo de búsqueda de vecinos, el cual debe integrar como elemento crítico la función de similitud. La síntesis de funciones de similitud que asignen significado a un conjunto de características sigue dos enfoques alternativos. Uno consiste en expresar la similitud entre dos vectores como la composición de una distancia definida sobre el espacio de características y una función positiva y monótonamente no creciente. En ocasiones la distancia es una simple distancia Euclídea, pero en muchos casos se trata de medidas más complejas. El otro enfoque toma una perspectiva esencialmente probabilística y consiste en expresar la similitud por medio de una función dependiente de la probabilidad de que dos imágenes pertenezcan al mismo grupo semántico.

Este breve apunte sobre las medidas de similitud pone de manifiesto la dificultad que puede albergar la correcta integración de la medida de similitud en el algoritmo de búsqueda construido sobre el método de indexación. Esta última tarea constituye una parte esencial en las actividades de investigación que nos proponemos abordar en el contexto de la fase 2 del proceso CBIR.

En resumen, la finalidad de este proyecto es investigar técnicas y mecanismos aplicables en las etapas 1 y 2 del proceso CBIR con el propósito de diseñar métodos y algoritmos originales que contribuyan al desarrollo de sistemas eficaces y eficientes de recuperación de imágenes por contenido.

{tab=Participantes}

Esta página contiene información de contacto sobre todos los miembros del proyecto. Desde aquí puede enviarles mensajes o visitar sus páginas principales personales.

Manuel Barrena García

Image

barrena (arroba) unex (punto) es
Doctor en Informática
Profesor Titular de Universidad
Área de Lenguajes y Sistemas Informáticos
Blog Académico

Leer más...

María Luisa Durán Martín-Merás

Image

mlduran (arroba) unex (punto) es
Doctora en Informática
Profesora Titular de Universidad
Área de Lenguajes y Sistemas Informáticos

Leer más...

Pablo García Rodríguez

pablogr (arroba) unex (punto) es
Doctor en Informática
Profesor Titular de Universidad
Área de Lenguajes y Sistemas Informáticos

Leer más...

Andrés Caro Lindo

Image

andresc (arroba) unex (punto) es
Doctor en Informática
Profesor Titular de Universidad
Área de Lenguajes y Sistemas Informáticos

Leer más...

 

{tab=Resultados}

Los resultados técnicos más relevantes de este proyecto se transfieren a la aplicación Qatris iManager desarrollada y comercializada por la empresa extremeña de base tecnológica SICUBO S.L.

Los resultados científicos más destacados del presente proyecto se pueden resumir en las siguientes publicaciones:


  • Félix R. Rodríguez, Manuel Barrena. "A fast and robust bulk-loading algorithm for indexing very large digital elevation datasets. I. Algorithm". Computers & Geosciences Journal 37 (7), 804–813, doi: 10.1016/j.cageo.2011.01.003. (Impact Factor JCR-2011 = 1,429; JCR-5 year = 1,714. Cathegories: Computer Science, Multi/Interdisciplinary Applications 45/99 2º quartil; Geosciences, Multidisciplinary 78/170 2º quartil).
  • Félix R. Rodríguez, Manuel Barrena. "A fast and robust bulk-loading algorithm for indexing very large digital elevation datasets. II. Experimental Results". Computers & Geosciences Journal 37 (7), 814–821, doi: 10.1016/j.cageo.2011.01.004.(Impact Factor JCR-2011 = 1,429; JCR-5 year = 1,714. Cathegories: Computer Science, Multi/Interdisciplinary Applications 45/99 2º quartil; Geosciences, Multidisciplinary 78/170 2º quartil).
  • Félix R. Rodríguez, Manuel Barrena. "Spatio-temporal indexing of the QuikScat wind data".  IEEE International GeoScience and Remote Sensing Symposium. Vol. II, pp. 503-506. ISBN: 978-1-4244-3394-0. Cape Town, South Africa. Jul., 2009. doi: 10.1109/IGARSS.2009.5418129.
  • Manuel Barrena, Elena Jurado, Pablo Márquez, Carlos Pachón. "A Flexible Framework to Ease Nearest Neighbor Search in Multidimensional Data Spaces".  Data & Knowledge Engineering, Volume 69, Issue 1, September 2009, Pages 116-136. (Impact Factor JCR-2009 = 1,745; JCR-5 year = 2.036. Cathegory: Computer Science, Information Systems, 38/116) doi:10.1016/j.datak.2009.09.001  Descarga
  • Félix R. Rodríguez , José J. Hernández, Manuel Barrena. "A tool to Query and Visualize the complete SRTM data set indexed by the Q-tree in an Open GIS" . IEEE International GeoScience and Remote Sensing Symposium. Vol. 3, pp. 1410-1413, ISBN: 978-1-4244-2807-6. Boston (Massachusetts), USA. Jul., 2008. doi: 10.1109/IGARSS.2008.4779625.
  • Inés Horrillo, Manuel Barrena. "Clasificación de imágenes en el sistema Qatris Imanager mediante regresión logística bayesiana". XIII Jornadas de Ingeniería del Software y Bases de Datos. Pages 51 – 62 Gijón, Octubre, 2008.  Descarga
  • Félix R. Rodríguez, Manuel Barrena, "Indexación de datos SRTM de elevación terrestre. Algoritmos de carga masiva en el árbol Q". XI Jornadas de Ingeniería del Software y Bases de Datos. ISBN 84-95999-99-4. pp. 57-66. Sitges (Barcelona), Spain. 2006.  Descarga

Atrás

Log in