YARN y MapReduce: Big Data para gente de Marketing (6)

Los Problemas de MapReduce Como hemos visto en el post anterior MapReduce se encarga de automatizar el procesado de los datos en paralelo a través de distintos nodos de un cluster gestionando las tareas necesarios para la realización del trabajo. También proporciona la capacidad de reconducir el proceso en el momento en que detecta que uno de los nodos falla . MapReduce fue concebido para una función muy concreta, indexar el contenido de cada página […]

Leer más

MapReduce y Hadoop: Big Data para gente de Marketing (5)

MapReduce es el modelo de programación utilizado en Hadoop que, básicamente, le hace la vida más fácil a los programadores a la hora de trabajar con grandes volúmenes de datos distribuidos a través de múltiples máquinas que va a trabajar en paralelo dentro de un mismo cluster . Si queremos aprovechar las capacidades de combinar los esfuerzos de varias máquinas en paralelo para realizar nuestra trabajo (job) lo primero que vamos a necesitar es expresar ese […]

Leer más