Hadoop - Grandes Datos Generales



"El 90% de los datos de todo el planeta se generó en los últimos años".

Debido a la aparición de nuevas tecnologías, dispositivos y medios de comunicación como los sitios de redes sociales, la cantidad de datos producida por la humanidad está creciendo rápidamente cada año. La cantidad de datos producidos por nosotros desde el principio de los tiempos hasta 2003 fue de 5 millones de gigabytes. Si se acumulan los datos en forma de discos que se pueden llenar todo un campo de fútbol. La misma cantidad se creó en cada dos días en el año 2011, y en cada diez minutos en el año 2013. Esta tasa es aún está creciendo enormemente. A pesar de que todos la información que producen es significativo y puede ser útil cuando se procesan, se descuida.

¿Qué es grande los datos?

Grandes Datos es una colección de conjuntos de datos de gran tamaño que no pueden ser procesados mediante técnicas informáticas tradicionales. No es una técnica o una herramienta, sino que implica muchas áreas de negocios y tecnología.

Lo que viene en los grandes datos?

Grandes los datos implica los datos producidos por los diferentes dispositivos y aplicaciones. A continuación, se presentan algunos de los campos que están bajo el paraguas de Grandes Datos.

  • Los datos de las cajas negras : es un componente de helicópteros, aviones, y los aviones, etc. que capta las voces de la tripulación de vuelo, las grabaciones de los micrófonos y auriculares, y la información sobre el rendimiento de la aeronave.

  • Los Medios de Comunicación Social : medios de comunicación social como Facebook y Twitter información y las opiniones de millones de personas en todo el mundo.

  • Bolsa de Valores de datos: la bolsa de valores de datos contiene información acerca de la 'comprar' y 'vender' las decisiones que se tomen en una proporción de las diferentes empresas hechas por los clientes.

  • Datos de la Red Eléctrica: La red de suministro de electricidad datos contiene información consumida por un nodo en particular con respecto a una estación base.

  • Datos de transporte : Transporte incluye un modelo de datos, la capacidad, la distancia y la disponibilidad de un vehículo.

  • Motor de búsqueda de datos: los motores de búsqueda recuperar gran cantidad de datos de diferentes bases de datos.

Big Data

Por lo tanto, Grande tiene un enorme volumen de datos, alta velocidad, extensible y variedad de datos. Los datos en el mismo será de tres tipos.

  • Datos estructurados: datos relacionales.

  • Semi estructurada de datos : datos XML.

  • Datos no estructurados: Word, PDF, Texto, registros medios.

Beneficios de los Grandes Datos

  • Con la información que se conserva en la red social como Facebook, las agencias de publicidad están aprendiendo acerca de la respuesta de sus campañas, promociones y otros medios publicitarios.

  • Mediante el uso de la información de los medios de comunicación social como las preferencias y percepción producto de sus consumidores, las compañías de productos y organizaciones minoristas están planeando su producción.

  • Mediante los datos relativos a la historia médica previa de los pacientes, los hospitales están proporcionando un mejor y rápido servicio.

Las tecnologías de datos grandes

Las tecnologías de datos grandes son importantes a la hora de proporcionar análisis más preciso, lo que puede conducir a más concreto toma de decisiones, consecuencia de una mayor eficiencia operativa, reducir los costes y la reducción de los riesgos para el negocio.

Para aprovechar el poder de las grandes datos, necesitan una infraestructura que puede manejar y procesar grandes volúmenes de datos estructurados y no estructurados en tiempo real y puede proteger la privacidad de los datos y la seguridad.

Existen distintas tecnologías en el mercado de diferentes proveedores, como Amazon, IBM, Microsoft, etc. , para manejar grandes datos. Mientras se mira a las tecnologías que maneje grandes datos, se examinan las siguientes dos clases de tecnología:

Grandes Datos Operacionales

Estos incluyen sistemas como MongoDB que proporcionan las capacidades operacionales en tiempo real y las cargas de trabajo interactivas en las que los datos son principalmente capturan y almacenan.

NoSQL grandes sistemas de datos están diseñados para aprovechar las ventajas de las nuevas arquitecturas cloud computing que han surgido en los últimos diez años para permitir que los cálculos masivos que se ejecute barata y eficiente. Esto hace que grandes cargas de trabajo de datos operacionales mucho más fácil de administrar, más barata y más rápida de aplicar.

NoSQL Algunos sistemas pueden proporcionar información sobre los patrones y las tendencias basadas en datos en tiempo real con el mínimo de código y sin la necesidad de que los datos científicos e infraestructura adicional.

Grandes Datos Analíticos

Estos incluyen sistemas como Massively Parallel Processing (MPP) sistemas de bases de datos y MapReduce que proporcionan capacidades de análisis para análisis retrospectivo y complejo que puede tocar la mayor parte o la totalidad de los datos.

MapReduce proporciona un nuevo método de análisis de los datos que es complementaria a las funciones proporcionadas por SQL, y un sistema basado en MapReduce que pueden ser ampliados en servidores individuales como en miles de alta y baja máquinas.

Estas dos clases de tecnología son complementarios y con frecuencia juntos.

Operativos frente a sistemas analíticos

Funcionamiento Analítica
Latencia 1 ms - 100 ms 1 min - 100 min
Simultaneidad 1000 - 100,000 1 - 10
Patrón de Acceso Escribe y Lee Lee
Consultas Selectivo Selectivo
Datos Alcance Funcionamiento Retrospectiva
Usuario Final El Cliente Los datos científicos
Tecnología NoSQL MapReduce, MPP Database

Datos grandes retos

Los principales problemas relacionados con las grandes datos son los siguientes:

  • Captura de datos
  • Curaduría
  • Almacenamiento
  • Buscar
  • Compartir
  • Transferencia
  • Análisis
  • Presentación

Para cumplir con los retos mencionados, las organizaciones suelen tener la ayuda de los servidores empresariales.

Advertisements