«Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización» 6
Ciencia: bases de datos en astronomía, genómica, datos medioambientales, etc. Humanidades y Ciencias Sociales: libros escaneados, documentos históricos, datos de interacciones sociales, etc. Negocios y Comercio: ventas corporativas, operaciones bursátiles, censos, tráfico aéreo, etc. Entretenimiento: imágenes internet, películas, ficheros mp3, etc. Medicina: resonancias magnéticas, tomografías, registros de pacientes, etc. BIG DATA 7
– 25k nodos Facebook Genera 15TB de datos nuevos al día 6k mensajes/seg, 50k mensajes instantáneos/seg Twitter Genera 1TB de datos nuevos al día Ebay, Linkedin, NYTimes, etc. BIG DATA 8
operacionales: Estrategia de información Análisis de datos Interpretación de los datos De la información que generamos 20% información estructurada BIG DATA 9
seguro y escalable Procesamiento distribuido de grandes volúmenes de datos HADOOP. ORÍGENES «The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.» 11
of board of directors of the Apache Software Foundation, 2010) Comenzó como funcionalidad de Nutch Basado en Google GFS (Google File System) HADOOP. ORÍGENES 12
fiable clústers multinodos. Implementa Map/Reduce y un sistema de archivos distribuido (HDFS). Basado en Java Tolerancia a fallos Divide y vencerás HADOOP. ORÍGENES 13
módulos: Hadoop Common: utilidades comunes que apoyan otros módulos Hadoop HDFS: sistema de ficheros de almacenamiento Hadoop YARN: marco para manejo de recursos de programación Hadoop MapReduce: sistema basado en YARN para procesamiento paralelo de datos HADOOP. ORÍGENES 15
analizar grandes sistemas distribuidos Apache Flume: sistema para obtención, agregación y movimiento de datos log a HDFS Hive: infraestructura de data-warehouse Apache HBase: base de datos distribuida no relacional EL ECOSISTEMA DE HADOOP 17
de datos Apache Sqoop: herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales Apache ZooKeeper: servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos EL ECOSISTEMA DE HADOOP 18
lenguaje data-flow de alto nivel para facilitar la programación MapReduce Jaql: lenguaje de consulta funcional y declarativo que facilita la explotación de información organizada en JSON EL ECOSISTEMA DE HADOOP 19
Tolerancia a fallos Schema on-read Accedera la información y procesarla independientemente de su tipo Enfoque distribuido Escala de forma lineal y transparente 22
10 a 100 veces más rápido MapReduce Permite manipular los datos en tiempo real Alta tolerancia a fallos Facilidad de uso Multiplataforma OTROS FRAMEWORKS BIG DATA 26
del Pack completo de Hadoop Administración centralizada de los servicios del sistema a través de una interfaz fácil de usar Gestión de la configuración en tiempo real OTROS FRAMEWORKS BIG DATA 27
está ejecutando Validación integral y control de errores Automatiza la expansión de los servicios a nuevos nodos en línea Cloudera Management propietario OTROS FRAMEWORKS BIG DATA 28
ofrece una plataforma de computación Infraestructura flexible Escalabilidad simple y automática Seguridad mediante certificaciones y auditorías reconocidas en el sector OTROS FRAMEWORKS BIG DATA 29
Ambari para gestión y administración del clúster No incluye software propietario en su distribución La distribución HDP2.0 puede descargarse desde su página web, libre de coste OTROS FRAMEWORKS BIG DATA 31
Data: A Revolution That Will Transform How We Live, Work, and Think editorial Hardcover Libro Hadoop For Dummies editorial Paperback Página Proyecto Hadoop Página de Chuckwa Página de Apache Flume Referencias y enlaces de interés
Página de Apache Mahout Página de Apache Sqoop Página de Apache ZooKeeper Página de Apache Lucene Página de Apache Pig Referencias y enlaces de interés