Hadoop HDFS - Visão Geral



Hadoop File System foi desenvolvido usando sistema de arquivos distribuído design. É executado em hardware de consumo. Ao contrário de outros sistemas distribuídos, HDFS é altamente tolerante a falhas, proporciona uma e projetado com hardware de baixo custo.

HDFS armazena grande quantidade de dados e permite um acesso mais fácil. Para armazenar dados tão grandes, os arquivos são armazenados em várias máquinas. Esses arquivos são armazenados de forma redundante para resgatar o sistema de possíveis perdas de dados em caso de falha. HDFS também faz com que os aplicativos disponíveis para processamento paralelo.

Recursos do HDFS

  • É adequado para o armazenamento e processamento distribuído.
  • Hadoop fornece uma interface de comando para interagir com HDFS.
  • O construído em servidores da datanode namenode e ajuda os usuários a verificar facilmente o status do cluster.
  • Streaming acesso aos dados do sistema de arquivos.
  • HDFS fornece as permissões de arquivo e de autenticação.

Arquitetura HDFS

Abaixo está a arquitetura de um Hadoop File System.

HDFS Arquitetura

HDFS segue a arquitetura mestre-escravo e possui os seguintes elementos.

Namenode

O namenode é a commodity hardware que contém o sistema operacional GNU/Linux e o namenode software. Trata-se de um software que pode ser executado em hardware de consumo. O sistema tendo o namenode age como o master server e ele não as seguintes tarefas:

  • Gerencia o sistema de arquivos o namespace.
  • Regula acesso do cliente aos arquivos.
  • Ele também executa as operações de sistema de arquivos, tais como renomear, fechando e abrindo os arquivos e diretórios.

Datanode

O datanode é uma commodity hardware com o sistema operacional GNU/Linux e datanode software. Para cada nó (Commodity hardware/Sistema) em um cluster, haverá um datanode. Esses nós gerenciar o armazenamento de dados do seu sistema.

  • Datanodes realizar leitura-gravação das operações sobre os sistemas de arquivos, conforme solicitação do cliente.
  • Eles também executar operações como criação, exclusão, e replicação de acordo com as instruções do namenode.

Bloquear

Em geral, os dados do usuário são armazenados nos arquivos da HDFS. O arquivo em um sistema de arquivo será dividido em um ou mais segmentos e/ou dados armazenados em cada um nós. Esses arquivos são chamados segmentos como blocos. Em outras palavras, o montante mínimo de dados que HDFS pode ler ou escrever é chamado de bloco. O tamanho de bloco padrão é de 64MB, mas pode ser aumentada conforme a necessidade de mudança na configuração HDFS.

Objetivos da HDFS

  • Detecção e recuperação de falhas: Desde HDFS inclui um grande número de hardware de consumo, a falha de componentes é freqüente. Portanto HDFS devem dispor de mecanismos que permitam rápida e detecção automática de falhas e recuperação.

  • Grandes datasets : HDFS deveria ter centenas de nós por cluster para gerenciar as aplicações de grandes conjuntos de dados.

  • Hardware em dados: UMA tarefa solicitada pode ser feito de forma eficiente, quando o cálculo realiza-se perto dos dados. Especialmente nos casos em que grandes conjuntos de dados são envolvidos, ela reduz o tráfego de rede e aumenta a produtividade.

Advertisements