Lanzamiento de la plataforma para procesamiento distribuido de datos Apache Hadoop 3.3

Después de un año y medio de desarrollo, la Apache Software Foundation опубликовала relizar Apache Hadoop 3.3.0, una plataforma gratuita para organizar el procesamiento distribuido de grandes volúmenes de datos utilizando el paradigma Mapa reducido, en el que la tarea se divide en muchos fragmentos separados más pequeños, cada uno de los cuales se puede iniciar en un nodo del clúster independiente. El almacenamiento basado en Hadoop puede abarcar miles de nodos y contener exabytes de datos.

Hadoop incluye una implementación del sistema de archivos distribuido Hadoop (HDFS), que proporciona automáticamente copias de seguridad de datos y está optimizado para aplicaciones MapReduce. Para simplificar el acceso a los datos en el almacenamiento de Hadoop, se han desarrollado la base de datos HBase y el lenguaje Pig similar a SQL, que es una especie de SQL para MapReduce, cuyas consultas pueden ser paralelizadas y procesadas por varias plataformas Hadoop. El proyecto se considera completamente estable y listo para su operación industrial. Hadoop se utiliza activamente en grandes proyectos industriales y proporciona capacidades similares a las de la plataforma Google Bigtable/GFS/MapReduce, mientras que Google ha anunciado oficialmente delegado Hadoop y otros proyectos de Apache tienen derecho a utilizar tecnologías cubiertas por patentes relacionadas con el método MapReduce.

Hadoop ocupa el primer lugar entre los repositorios de Apache en términos de número de cambios realizados y el quinto en términos de tamaño de base de código (alrededor de 4 millones de líneas de código). Las principales implementaciones de Hadoop incluyen Netflix (se almacenan más de 500 mil millones de eventos por día), Twitter (un grupo de 10 mil nodos almacena más de un zettabyte de datos en tiempo real y procesa más de 5 mil millones de sesiones por día), Facebook (un grupo de 4 mil nodos almacena más de 300 petabytes y aumenta diariamente en 4 PB por día).

El principal cambios en Apache Hadoop 3.3:

  • Se agregó soporte para plataformas basadas en arquitectura ARM.
  • Implementación del formato. Protobuf (Buffers de protocolo), utilizado para serializar datos estructurados, se actualizó a la versión 3.7.1 debido al final del ciclo de vida de la rama protobuf-2.5.0.
  • Se han ampliado las capacidades del conector S3A: se ha agregado soporte para la autenticación mediante tokens (Token de delegación), soporte mejorado para el almacenamiento en caché de respuestas con código 404, mayor rendimiento de S3guard y mayor confiabilidad operativa.
  • Se han resuelto los problemas con el ajuste automático en el sistema de archivos ABFS.
  • Se agregó soporte nativo para el sistema de archivos COS de Tencent Cloud para acceder al almacenamiento de objetos COS.
  • Se agregó soporte completo para Java 11.
  • Se ha estabilizado la implementación de HDFS RBF (federación basada en enrutadores). Se han agregado controles de seguridad al enrutador HDFS.
  • Se agregó el servicio de resolución de DNS para que el cliente determine los servidores a través de DNS por nombres de host, lo que le permite prescindir de enumerar todos los hosts en la configuración.
  • Se agregó soporte de programación de lanzamiento contenedores oportunistas a través de un administrador de recursos centralizado (ResourceManager), incluyendo la capacidad de distribuir contenedores teniendo en cuenta la carga de cada nodo.
  • Se agregó el directorio de aplicaciones YARN (Yet Another Resource Negotiator) con capacidad de búsqueda.

Fuente: opennet.ru

Añadir un comentario