Hadoop - Grandes Datos Generales



"El 90% de los datos de todo el planeta se gener en los ltimos aos".

Debido a la aparicin de nuevas tecnologas, dispositivos y medios de comunicacin como los sitios de redes sociales, la cantidad de datos producida por la humanidad est creciendo rpidamente cada ao. La cantidad de datos producidos por nosotros desde el principio de los tiempos hasta 2003 fue de 5 millones de gigabytes. Si se acumulan los datos en forma de discos que se pueden llenar todo un campo de ftbol. La misma cantidad se cre en cada dos das en el ao 2011, y en cada diez minutos en el ao 2013. Esta tasa es an est creciendo enormemente. A pesar de que todos la informacin que producen es significativo y puede ser til cuando se procesan, se descuida.

Qu es grande los datos?

Grandes Datos es una coleccin de conjuntos de datos de gran tamao que no pueden ser procesados mediante tcnicas informticas tradicionales. No es una tcnica o una herramienta, sino que implica muchas reas de negocios y tecnologa.

Lo que viene en los grandes datos?

Grandes los datos implica los datos producidos por los diferentes dispositivos y aplicaciones. A continuacin, se presentan algunos de los campos que estn bajo el paraguas de Grandes Datos.

  • Los datos de las cajas negras : es un componente de helicpteros, aviones, y los aviones, etc. que capta las voces de la tripulacin de vuelo, las grabaciones de los micrfonos y auriculares, y la informacin sobre el rendimiento de la aeronave.

  • Los Medios de Comunicacin Social : medios de comunicacin social como Facebook y Twitter informacin y las opiniones de millones de personas en todo el mundo.

  • Bolsa de Valores de datos: la bolsa de valores de datos contiene informacin acerca de la 'comprar' y 'vender' las decisiones que se tomen en una proporcin de las diferentes empresas hechas por los clientes.

  • Datos de la Red Elctrica: La red de suministro de electricidad datos contiene informacin consumida por un nodo en particular con respecto a una estacin base.

  • Datos de transporte : Transporte incluye un modelo de datos, la capacidad, la distancia y la disponibilidad de un vehculo.

  • Motor de bsqueda de datos: los motores de bsqueda recuperar gran cantidad de datos de diferentes bases de datos.

Big Data

Por lo tanto, Grande tiene un enorme volumen de datos, alta velocidad, extensible y variedad de datos. Los datos en el mismo ser de tres tipos.

  • Datos estructurados: datos relacionales.

  • Semi estructurada de datos : datos XML.

  • Datos no estructurados: Word, PDF, Texto, registros medios.

Beneficios de los Grandes Datos

  • Con la informacin que se conserva en la red social como Facebook, las agencias de publicidad estn aprendiendo acerca de la respuesta de sus campaas, promociones y otros medios publicitarios.

  • Mediante el uso de la informacin de los medios de comunicacin social como las preferencias y percepcin producto de sus consumidores, las compaas de productos y organizaciones minoristas estn planeando su produccin.

  • Mediante los datos relativos a la historia mdica previa de los pacientes, los hospitales estn proporcionando un mejor y rpido servicio.

Las tecnologas de datos grandes

Las tecnologas de datos grandes son importantes a la hora de proporcionar anlisis ms preciso, lo que puede conducir a ms concreto toma de decisiones, consecuencia de una mayor eficiencia operativa, reducir los costes y la reduccin de los riesgos para el negocio.

Para aprovechar el poder de las grandes datos, necesitan una infraestructura que puede manejar y procesar grandes volmenes de datos estructurados y no estructurados en tiempo real y puede proteger la privacidad de los datos y la seguridad.

Existen distintas tecnologas en el mercado de diferentes proveedores, como Amazon, IBM, Microsoft, etc. , para manejar grandes datos. Mientras se mira a las tecnologas que maneje grandes datos, se examinan las siguientes dos clases de tecnologa:

Grandes Datos Operacionales

Estos incluyen sistemas como MongoDB que proporcionan las capacidades operacionales en tiempo real y las cargas de trabajo interactivas en las que los datos son principalmente capturan y almacenan.

NoSQL grandes sistemas de datos estn diseados para aprovechar las ventajas de las nuevas arquitecturas cloud computing que han surgido en los ltimos diez aos para permitir que los clculos masivos que se ejecute barata y eficiente. Esto hace que grandes cargas de trabajo de datos operacionales mucho ms fcil de administrar, ms barata y ms rpida de aplicar.

NoSQL Algunos sistemas pueden proporcionar informacin sobre los patrones y las tendencias basadas en datos en tiempo real con el mnimo de cdigo y sin la necesidad de que los datos cientficos e infraestructura adicional.

Grandes Datos Analticos

Estos incluyen sistemas como Massively Parallel Processing (MPP) sistemas de bases de datos y MapReduce que proporcionan capacidades de anlisis para anlisis retrospectivo y complejo que puede tocar la mayor parte o la totalidad de los datos.

MapReduce proporciona un nuevo mtodo de anlisis de los datos que es complementaria a las funciones proporcionadas por SQL, y un sistema basado en MapReduce que pueden ser ampliados en servidores individuales como en miles de alta y baja mquinas.

Estas dos clases de tecnologa son complementarios y con frecuencia juntos.

Operativos frente a sistemas analticos

Funcionamiento Analtica
Latencia 1 ms - 100 ms 1 min - 100 min
Simultaneidad 1000 - 100,000 1 - 10
Patrn de Acceso Escribe y Lee Lee
Consultas Selectivo Selectivo
Datos Alcance Funcionamiento Retrospectiva
Usuario Final El Cliente Los datos cientficos
Tecnologa NoSQL MapReduce, MPP Database

Datos grandes retos

Los principales problemas relacionados con las grandes datos son los siguientes:

  • Captura de datos
  • Curadura
  • Almacenamiento
  • Buscar
  • Compartir
  • Transferencia
  • Anlisis
  • Presentacin

Para cumplir con los retos mencionados, las organizaciones suelen tener la ayuda de los servidores empresariales.

Advertisements