Gestión Avanzada de Datos. Curso de verano en la Universidad de Cantabria

Estoy a asistiendo a este curso de verano. En él se tratan diferentes tecnologías innovadoras relacionadas con la gestión de datos o si se quiere con las bases de datos. El curso se extiende por una semana y por tanto hay programado un número importante de ponencias. Durante esta semana iré comentando las que me han parecido más interesantes.

El primero de los cursos que me ha llamado positivamente la atención es uno titulado «NoSQL databases», impartido por el prof Alberto Abelló de la Universidad Politécnica de Cataluña. Independientemente de la temática, que nos puede interesar más o menos, es importante que el ponente sepa delimitar convenientemente qué puede transmitir a un determinado auditorio en una ponencia de horas. En este caso, el ponente lo midió perfectamente. Haciendo una ponencia llevadera y amena durante ese par de horas.

MapReduceEn concreto, nos habló del modelo de programación paralela MapReduce creada por Google para tratar colecciones de datos de gran volúmen que normalmente se escapan a la capacidad de manejo de los sistemas clásicos de gestión de bases de datos (Oracle, SQLServer, MySQL,…).

En realidad MapReduce es un framework relativamente básico cuya potencialidad consiste en expresar de manera sencilla  (ocultando detalles de paralelización, tolerancia a fallos, etc…) programas que pueden resolver problemas sofisticados basado en la intervención de muchos computadores.

La idea básica no es nueva: divide y vencerás. La entrada se divide en piezas o bloques que puedan ser ejecutados de forma simultánea en muchas máquinas a la vez (la parte «Map» del modelo). De modo transparente, el modelo realiza básicamente un proceso de ordenación y mezcla, para finalmente coleccionar los resultados y presentar la solución (la parte «Reduce» del modelo).

Un ejemplo clásico y sencillo de uso de MapReduce para ilustrar su funcionamiento es la generación de un índice invertido que muestre qué palabras y en qué número aparecen en una colección de textos. En esta presentación se explica con claridad cómo funciona MapReduce a través de este ejemplo sencillo.

La principal implementación del framework MapReduce se encuentra en el proyecto Hadoop. Ahí tienes toda la información necesaria para poder entender y utilizar en mayor profundidad el modelo MapReduce.

 

Acerca de barrena

Bienvenidos a este diario, semanario, mensuario o como quiera que se desee denominar a este espacio donde intento comunicar los hechos más relevantes de mi actividad académica.
Esta entrada fue publicada en General. Guarda el enlace permanente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *