Conhecendo o Hadoop

O que é o Hadoop?

Haddop é uma solução open-source, ou seja...gratuita! Muito utilizada para processamento de dados de elevado volume e variedade, por meio de computação em grande escala, desenvolvido pela Apache Software Foundation.
Podemos notar e relacionar a utilização de processamento de dados massivos, com a chegada do Hadoop no universo corporativo.

O Hadoop é sem dúvida uma, senão a melhor alternativa para processar e agrupar grandes volumes de dados estruturados, semi-estruturados e não-estruturados.
A implementação permite obter um meio relativamente acessível de extração de informações e efetuar previsões a partir da compreensão dos dados da sua organização, ao invés de obter informações apenas de bancos de dados transacionais ou DWs (data warehouses).

Porém quando os conjuntos de dados analisados são gerados em alta velocidade, necessitamos de utilizar soluções mais customizadas, como o MapReduce.

Como funciona?

O Hadoop utiliza clusters para armazenar os dados, através de nodes que oferecem alta capacidade de computação quando combinados em distribuição paralela.

Dessa forma o Hadoop permite uma redução drástica nos custos envolvidos no armazenamento de Big Data,

O Hadoop possui basicamente 2 componente:

Framework de processamento distribuído: Com a utilização do MapReduce como framework de processamento distribuído, onde as tarefas de processamento são distribuídas através de cluesters e nodes para que largos volumes de dados possam ser processados de forma eficaz e muito rápida.
File system distribuído: O Hadoop utiliza o Hadoop Distributed File System (HDFS) como um sistema distribuído de arquivos.

A carga de aplicações que executam sobre o Hadoop é dividida ente nodes do Hadoop Cluster e o output é armazenado no HDFS.
Um Hadoop Cluster pode ser composto de milhares de nodes. De forma a conseguir manter o custo de processamento de I/O (input/output) baixo, os processo Hadoop MapReduce são realizados bem próximos dos dados quanto possível.
Ou seja, os processo de redução de dados são posicionados próximos aos processos de mapeamento, permitindo o compartilhamento de recursos computacionais em processamento de Big Data.

Outra grande vantagens e qualidade do Hadoop, é o fato dele suportar sistema de organização hierárquica, ou seja os nodes são classificados como masters e slaves. O serviço master, comumente chamado de JobTracker, é o responsável por controlar diversos serviços slaves. Por sua vez os serviços slaves, comumente chamados de TaskTrackers são distribuídos um para cada node.
Dessa forma o JobTracker detém o controle dos TaskTrackers e delega as funções de tarefas do MapReduce para eles.
Depois do lançamento da 2ª versão do Hadoop, um gerenciador de recurso denominado de YARN foi adicionado para ser utilizado como sistema integrado que realiza funções de agendamento, além de gerenciamento de recursos.

O Hadoop processa dados em batch, por consequência não deve ser utilizado para processar dados em tempo real de bancos de dados transacionais. Porém o Hadoop pode resolver muitos outros tipos de problemas relacionados a Big Data.

Não tem como não falar de Hadoop, quando se fala do fenômeno de Big Data, é sem duvida uma alternativa, eficaz e de fácil utilização.

Referências : Apache Hadoop : https://hadoop.apache.org/

Pesquisar este blog

InCube - Data Science