Lanzamento da plataforma de procesamento de datos distribuído Apache Hadoop 3.3

Despois de ano e medio de desenvolvemento, a Apache Software Foundation publicado liberación Apache Hadoop 3.3.0, unha plataforma gratuíta para organizar o procesamento distribuído de grandes volumes de datos mediante o paradigma mapa/reducir, no que a tarefa divídese en moitos fragmentos separados máis pequenos, cada un dos cales se pode lanzar nun nodo de clúster separado. O almacenamento baseado en Hadoop pode abarcar miles de nós e conter exabytes de datos.

Hadoop inclúe unha implementación do Hadoop Distributed Filesystem (HDFS), que ofrece automaticamente copia de seguridade de datos e está optimizado para aplicacións MapReduce. Para simplificar o acceso aos datos no almacenamento de Hadoop, desenvolvéronse a base de datos HBase e a linguaxe de tipo SQL Pig, que é unha especie de SQL para MapReduce, cuxas consultas poden ser paralelizadas e procesadas por varias plataformas Hadoop. O proxecto avalíase como completamente estable e listo para a operación industrial. Hadoop úsase activamente en grandes proxectos industriais, proporcionando capacidades similares á plataforma Google Bigtable/GFS/MapReduce, mentres que Google ten oficialmente delegado Hadoop e outros proxectos de Apache teñen dereito a utilizar tecnoloxías cubertas por patentes relacionadas co método MapReduce.

Hadoop ocupa o primeiro lugar entre os repositorios de Apache en canto ao número de cambios realizados e o quinto en canto ao tamaño da base de código (uns 4 millóns de liñas de código). As principais implementacións de Hadoop inclúen Netflix (almacenanse máis de 500 millóns de eventos ao día), Twitter (un clúster de 10 mil nodos almacena máis dun zettabyte de datos en tempo real e procesa máis de 5 millóns de sesións ao día), Facebook (un clúster). de 4 mil nodos almacena máis de 300 petabytes e aumenta diariamente en 4 PB por día).

O principal cambios en Apache Hadoop 3.3:

  • Engadido soporte para plataformas baseadas na arquitectura ARM.
  • Implantación do formato Protobuf (Buffers de protocolo), usados ​​para serializar datos estruturados, actualizáronse para a versión 3.7.1 debido ao final do ciclo de vida da rama protobuf-2.5.0.
  • Ampliáronse as capacidades do conector S3A: engadiuse soporte para a autenticación mediante tokens (Ficha de delegación), soporte mellorado para as respostas de almacenamento na caché co código 404, aumento do rendemento de S3guard e maior fiabilidade operativa.
  • Resolvéronse os problemas coa sintonización automática no sistema de ficheiros ABFS.
  • Engadiuse compatibilidade nativa para o sistema de ficheiros COS de Tencent Cloud para acceder ao almacenamento de obxectos COS.
  • Engadido soporte completo para Java 11.
  • Estabilizouse a implementación de HDFS RBF (Federación baseada en routers). Engadíronse controis de seguridade ao router HDFS.
  • Engadiuse o servizo de resolución de DNS para que o cliente determine os servidores mediante DNS por nomes de host, o que lle permite prescindir de enumerar todos os hosts na configuración.
  • Engadido soporte para a programación do lanzamento recipientes oportunistas a través dun xestor de recursos centralizado (ResourceManager), incluíndo a posibilidade de distribuír contedores tendo en conta a carga de cada nodo.
  • Engadiuse o directorio de aplicacións de busca YARN (Yet Another Resource Negotiator).

Fonte: opennet.ru

Engadir un comentario