Apache Hadoop 3.3.0 vem com melhorias para plataformas ARM e muito mais

Depois de um ano e meio de desenvolvimento, a Apache Software Foundation lançou o lançamento da nova versão do Apache Hadoop 3.3.0, versão em que ele adicionou melhorias para plataformas ARM, suporte para agendamento de lançamentos de contêineres e outras coisas.

Apache Hadoop se posiciona como uma plataforma gratuita para organizar o processamento distribuído de grandes quantidades de dados usando o paradigma mapear / reduzir, no qual uma tarefa é dividida em muitos pedaços menores isolados, cada um dos quais pode ser executado em um nó de cluster separado.

Armazenamento baseado em Hadoop ele pode abranger milhares de nós e conter exabytes de dados.

Sobre o Apache Hadoop

Hadoop inclui uma implementação do sistema de arquivos distribuídos Hadoop (HDFS), que fornece redundância de dados automaticamente e é otimizado para aplicativos MapReduce.

Uma funcionalidade chave é que, para um agendamento de trabalho eficaz, cada sistema de arquivos deve saber e fornecer sua localização, o nome do rack (mais precisamente, do switch) onde está o nó de trabalho.

Os aplicativos Hadoop podem usar essas informações para executar o trabalho no nó onde os dados estão e, na falta disso, no mesmo rack / switch, reduzindo assim o tráfego da rede.

Para simplificar o acesso aos dados no armazenamento Hadoop, Banco de dados HBase e linguagem Pig semelhante a SQL foram desenvolvidos, que é um tipo SQL para MapReduce, cujas consultas podem ser paralelizadas e processadas por várias plataformas Hadoop.

O projeto é avaliado como totalmente estável e pronto para operação industrial. O Hadoop é usado ativamente em grandes projetos industriais, fornecendo recursos semelhantes à plataforma Google Bigtable / GFS / MapReduce, enquanto o Google oficialmente delegou Hadoop e outros projetos Apache têm o direito de usar tecnologias cobertas por patentes relacionadas ao método MapReduce.

O Hadoop ocupa o primeiro lugar entre os repositórios Apache em termos de número de alterações feitas e a quinta maior base de código (aproximadamente 4 milhões de linhas de código).

O que há de novo no Apache Hadoop 3.3?

Esta nova versão do Hadoop é posicionada como a primeira versão que tem el suporte para plataformas baseadas em ARM, Com o qual os interessados ​​em implementar esta plataforma poderão encontrar o binário para ARM já disponível.

Outra das principais mudanças que se apresentam nesta nova versão é o implementação da nova versão do formato Protobuf (Buffers de protocolo) usados ​​para serializar dados estruturados foi atualizado para a versão 3.7.1 devido ao fim do ciclo de vida do branch protobuf-2.5.0.

Além disso, também os recursos do conector S3A já foram expandidos que agora o tem adicionado suporte para autenticação usando tokens, suporte aprimorado para cache de resposta com um código 404, desempenho S3guard superior e confiabilidade operacional aprimorada.

Também Serviço de resolução DNS adicionado para o cliente determinar os servidores via DNS por nomes de host, o que permite dispensar a lista de todos os hosts na configuração.

Assim como o suporte para agendamento de lançamentos de contêiner por meio de um gerenciador de recursos centralizado (ResourceManager), inclusive com a possibilidade de distribuir containers levando em consideração a carga de cada nó.

Das outras mudanças que se destacam desta nova versão:

  • Os problemas com o ajuste automático foram resolvidos no sistema de arquivos ABFS.
  • Adicionado suporte nativo para o sistema de arquivos Tencent Cloud COS para acessar o armazenamento de objetos COS.
  • Suporte completo para Java 11 foi adicionado.
  • Estabilizou a implementação de HDFS RBF (Router Based Federation). Os controles de segurança foram adicionados ao roteador HDFS.
  • Foi adicionado o diretório de aplicativos YARN da pesquisa (outro negociador de recursos).

Por fim, se quiser saber mais sobre o assunto, você pode verificar os detalhes da nova versão em a postagem original.

Para aqueles que estão interessados ​​em obter a nova versão, eles podem baixar os binários preparados no link a seguir.