Após um ano e meio de desenvolvimento, a Apache Software Foundation liberar , uma plataforma gratuita para organizar o processamento distribuído de grandes volumes de dados usando o paradigma , em que a tarefa é dividida em muitos fragmentos separados menores, cada um dos quais pode ser iniciado em um nó de cluster separado. O armazenamento baseado em Hadoop pode abranger milhares de nós e conter exabytes de dados.
O Hadoop inclui uma implementação do Hadoop Distributed Filesystem (HDFS), que fornece backup de dados automaticamente e é otimizado para aplicativos MapReduce. Para simplificar o acesso aos dados no armazenamento Hadoop, foram desenvolvidos o banco de dados HBase e a linguagem SQL Pig, que é uma espécie de SQL para MapReduce, cujas consultas podem ser paralelizadas e processadas por diversas plataformas Hadoop. O projeto é avaliado como totalmente estável e pronto para operação industrial. O Hadoop é usado ativamente em grandes projetos industriais, fornecendo recursos semelhantes aos da plataforma Google Bigtable/GFS/MapReduce, enquanto o Google oficialmente O Hadoop e outros projetos Apache têm o direito de usar tecnologias cobertas por patentes relacionadas ao método MapReduce.
O Hadoop ocupa o primeiro lugar entre os repositórios Apache em termos de número de alterações feitas e o quinto em termos de tamanho da base de código (cerca de 4 milhões de linhas de código). As principais implementações do Hadoop incluem Netflix (mais de 500 bilhões de eventos por dia são armazenados), Twitter (um cluster de 10 mil nós armazena mais de um zetabyte de dados em tempo real e processa mais de 5 bilhões de sessões por dia), Facebook (um cluster de 4 mil nós armazena mais de 300 petabytes e aumenta diariamente em 4 PB por dia).
O principal no Apache Hadoop 3.3:
- Adicionado suporte para plataformas baseadas na arquitetura ARM.
- Implementação do formato (Buffers de protocolo), usados para serializar dados estruturados, foram atualizados para a versão 3.7.1 devido ao fim do ciclo de vida da ramificação protobuf-2.5.0.
- Os recursos do conector S3A foram expandidos: foi adicionado suporte para autenticação usando tokens (), suporte aprimorado para respostas de cache com código 404, maior desempenho do S3guard e maior confiabilidade operacional.
- Problemas com ajuste automático foram resolvidos no sistema de arquivos ABFS.
- Adicionado suporte nativo ao sistema de arquivos Tencent Cloud COS para acessar o armazenamento de objetos COS.
- Adicionado suporte completo para Java 11.
- A implementação do HDFS RBF (Router-based Federation) foi estabilizada. Controles de segurança foram adicionados ao roteador HDFS.
- Adicionado o serviço de resolução DNS para o cliente determinar servidores via DNS por nomes de host, permitindo que você faça isso sem listar todos os hosts nas configurações.
- Adicionado suporte para agendamento de lançamento através de um gestor de recursos centralizado (ResourceManager), incluindo a possibilidade de distribuir contentores tendo em conta a carga de cada nó.
- Adicionado diretório de aplicativo pesquisável YARN (Yet Another Resource Negotiator).
Fonte: opennet.ru
