sábado, 12 de diciembre de 2015

Big Data. Introducción y características



En los próximos artículos vamos a dar algunas pinceladas describiendo una de las últimas tendencias de las tecnologías de la información: Big Data.
También daremos alguna visión acerca de su evaluación como producto desde el punto de vista de QA y su uso como herramienta para estas metodologías.


Big Data:Conceptos y presentación.


Si tenemos que definir Big Data en base a alguna de las muchas descripciones que hay publicadas podríamos decir cosas como que “herramienta de recolección masiva de datos “, “el futuro de las analíticas de empresa” , “el descendiente listo de Business Inteligence”…
Pero para ser concisos , hemos elegido esta:


Proceso de recolección de datos en grandes cantidades y su tratamiento para encontrar patrones y correlaciones.


En cuanto a las características del mismo hay también varias ideas que podríamos definir como mnemotécnicas:


“Las 5V”

  •   Volumen: Captar toda la info, de manera completa y no sesgada, evitando duplicidad y redundancia
  •   Velocidad:Herramientas ágiles y con poco tiempo de respuesta
  •   Variedad:Datos de múltiples fuentes heterogeneas se uniformizan y centralizan.
  •   Veracidad:Que sea verdadera, de calidad y disponible,eliminando fallos
  •   Valor: Aporta competitividad y da servicio rentabilizando la información
“Las 5 R”
  •   ROI:Retorno de Inversión considerar el dato como un activo.
  •  Reliable:Fiabilidad en los datos para generar acciones fiables.
  •  Realistics: Que sea verdadera y ajustada a la realidad.
  • Realtime: Información en tiempo real.
  •  Relevant: Definir qué es relevante y útil.
 

Metodologías


Como principal metodología hay que destacar I.C.A.V. ,que por supuesto son unas siglas que coinciden con Identificación, Consolidación, Análisis y Visualización.

En concreto la identificación del área y sus necesidades de datos, la consolidación  como tratamiento, limpieza y filtrado de datos , el análisis emitiendo predicciones con la información consolidada y la visualización que muestra los resultados del análisis.

La implantación de Big Data en la empresa requiere de cambios en la relación entre los departamentos de tecnología de la información y el resto de la compañía, puesto que nuestro objetivo es disponer de toda la información que se genera en la empresa, tanto la histórica como la que viene desde todas las posibles fuentes de información por las que los datos entran en la empresa. Esto incluye a los datos automatizados y determinar cómo mecanizar aquellos que no lo estén.

Big data a dia de hoy se enfoca principalmente a


  • Marketing, con la realización de campañas por distintos segmentos de clientes
  •  Nuevos productos: Estableciendo qué nuevas necesidades se pueden satisfacer
  •  Aumento de clientes
  •  Expansión de mercados

 

Para realizar estas tareas se ha establecido como estándar en el mercado una herramienta específica y utilidades asociadas. De esto trataremos en el siguiente punto.


Apache Hadoop. Qué es y cómo funciona.




Como ya hemos dicho, la realización de las tareas que componen el Big Data en todas sus vertientes se ha de llevar a cabo mediante herramientas específicas por los elevados volúmenes de datos y procesamiento asociado que requiere. En el mercado actual una herramienta específica sobresale por encima del resto , imponiéndose como el estándar a seguir : Hadoop.

Haddop es un sistema de código abierto que almacena, procesa y analiza grandes volúmenes de datos. No solo determina el software sino que da proporciona las guías de una infraestructura hardware donde se pueda aprovechar hardware commoditie, es decir , normalizado en el mercado  de manera que por procesamiento paralelo alcance grandes valores de cálculo.
La arquitectura de Hadoop se base en nodos maestros y servidores .  En un cluster de Hadoop al nodo maestro se le conoce como namenode y  a los nodos servidores como datanodes.

El nodo maestro contiene el datos asociado a sus datanodes y mantiene el estatus de los datanodes. Los datanodes almacenan la información procesada.

Flujo información y tareas Hadoop