TRECVID 2012. Un método «amigo» de recuperación de vídeo.

Ha llegado a su fin el workshop TRECVID 2012. Me voy con un estupendo sabor de boca, creo que en este foro están los grupos más sobresalientes del panorama internacional en el tema de recuperación y búsqueda de vídeo por contenido. Autoridades científicas de importantes centros de investigación públicos y privados, así como universidades a lo largo de todo el mundo se han dado cita en este peculiar encuentro. Universidades prestigiosas como Berkeley, Carnegie Mellon, Standford, Columbia, Dublin City, Osaka, Amsterdam, Twente entre otras, centros de investigación de renombre como IBM Research, INRIA, NIST (National Institute of Standard and Technology), Tokyo Institue of Technology, EURECOM, France Telecom Orage Labs Beijing, son algunos ejemplos de la importante presencia que atrae TRECVID. Me reafirmo en el acierto de haber estado presente en este workshop.

Aunque hemos asistido a presentaciones muy interesantes, en la que nos han descrito los métodos y enfoques utilizados para identificar e interpretar contenidos de naturaleza variada en las diversas colecciones de vídeo, voy a resaltar la intervención que hizo Juan Manuel Barrios en representación de la compañia ORAND y el grupo PRISMA de la Universidad de Chile. El enfoque utilizado en este caso para llevar a cabo la detección de objetos, lugares y personas (Instace Search Task) se distinguía de los demás por el hecho de evitar la pérdida de información que se produce en el proceso de construcción del diccionario visual (bag of visual words o BOVW), en el que los puntos de interés obtenidos por los diferentes descriptores se agrupan en clases que representan dichas palabras visuales. Ello provoca la necesidad de tratar con una cantidad mucho mayor de vectores de características de las que se utilizan si se sigue el enfoque de BOVW, con lo que para acelerar el proceso de hacer coincidir los vectores obtenidos de una consulta con los vectores extraídos y almacenados de la colección de imágenes, utiliza un esquema de indexación basado en espacios métricos.

Para cada vector extraido de la consulta (en este caso la imágen con la entidad que se desea localizar) se lleva a cabo una búsqueda de vecinos k-NN (en su caso utilizó k=50). Esta búsqueda de vecinos, en lugar de ser exacta es aproximada, utilizando para ello un índice métrico basado en pivotes (implementado por el Laboratorio de Bases de Datos de la Universidad de la Coruña, con el que colaboramos desde hace unos años). Para cada pivote p calculado (5 en su caso), se computan las distancias desde ellos al resto de los puntos de la base de datos (así como a la consulta) y posteriormente se aprovecha la desigualdad triangular para utilizar como aproximación de la distancia real entre el punto consulta q y el punto a verficar de la base de datos r, la diferencia (en valor absoluto) entre las distancias calculadas desde q a p y desde p a r. Considerando que para la tarea concreta siguiendo este esquema se requieren realizar 75.000 consultas en una colección de 166 millones de vectores de dimensión 192, el autor paralelizó el proceso utilizando un esquema sencillo de map-reduce con un total de 120 nodos. Los resultados que nos presentó mostraban un muy razonable índice de aciertos y su método se sitúa entre los top ten de los resultados enviados.

La mención de este trabajo particular, además de su indudable calidad, tiene una razón que entronca con el trabajo que hemos desarrollado en el seno del grupo. Durante varios meses en el grupo estuvimos trabajando con este mismo enfoque. Es decir trabajando directamente con los puntos de interés obtenidos a partir del descriptor, sin pasar por un proceso de construcción de BOVW. En nuestro caso, en lugar de utilizar un índice métrico indexamos los vectores de características a través de una estructura denominada VA-File, la cual también tuvimos que paralelizar para conseguir correr los experimentos en un tiempo razonable. Los resultados que obtuvimos en nuestro caso no fueron relevantes (la colección de vídeos era diferente y el objeto de nuestras consultas también) y ello nos hizo abandonar el enfoque con la sensación de no haber utilizado adecuadamente los descriptores locales con los que estuvimos trabajando. Le agradezco a Juan Antonio Barrios (que aparece en la foto), además de su amable disposición por compartir conmigo los detalles de su método, que me haya hecho ver que no conviene desechar tan rápido la posible utilidad de un trabajo de investigación realizado con interés y dedicación.

Aún me quedan cosas en la cartera, pero las dejo para otra entrada.

 

Acerca de barrena

Bienvenidos a este diario, semanario, mensuario o como quiera que se desee denominar a este espacio donde intento comunicar los hechos más relevantes de mi actividad académica.
Esta entrada fue publicada en Investigación y etiquetada . Guarda el enlace permanente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *