Llançament de la plataforma per al processament de dades distribuïdes Apache Hadoop 3.3

Després d'un any i mig de desenvolupament, l'Apache Software Foundation publicat alliberament Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы mapa/reduir, en què la tasca es divideix en molts fragments separats més petits, cadascun dels quals es pot llançar en un node de clúster independent. L'emmagatzematge basat en Hadoop pot abastar milers de nodes i contenir exabytes de dades.

Hadoop inclou una implementació del sistema de fitxers distribuït Hadoop (HDFS), que proporciona automàticament una còpia de seguretat de dades i està optimitzat per a les aplicacions MapReduce. Per simplificar l'accés a les dades a l'emmagatzematge Hadoop, s'han desenvolupat la base de dades HBase i el llenguatge semblant a SQL Pig, que és una mena de SQL per a MapReduce, les consultes del qual poden ser paral·lelitzades i processades per diverses plataformes Hadoop. El projecte es valora com a completament estable i llest per a l'explotació industrial. Hadoop s'utilitza activament en grans projectes industrials, proporcionant capacitats similars a la plataforma Google Bigtable/GFS/MapReduce, mentre que Google ha oficialment delegat Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop ocupa el primer lloc entre els repositoris Apache pel que fa al nombre de canvis realitzats i el cinquè pel que fa a la mida de la base de codi (uns 4 milions de línies de codi). Les principals implementacions d'Hadoop inclouen Netflix (s'emmagatzemen més de 500 mil milions d'esdeveniments al dia), Twitter (un clúster de 10 mil nodes emmagatzema més d'un zettabyte de dades en temps real i processa més de 5 mil milions de sessions al dia), Facebook (un clúster). de 4 mil nodes emmagatzemen més de 300 petabytes i augmenta diàriament en 4 PB al dia).

El principal canvis a Apache Hadoop 3.3:

  • S'ha afegit suport per a plataformes basades en l'arquitectura ARM.
  • Implementació del format Protobuf (Protocol buffers), используемого для сериализации структурированных данных, обновлена до выпуска 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
  • Расширены возможности коннектора S3A: добавлена поддержка аутентификации при помощи токенов (Fitxa de delegació), улучшена поддержка кэширования ответов с кодом 404, увеличена производительность S3guard, повышена надёжность работы.
  • Els problemes amb l'ajust automàtic s'han resolt al sistema de fitxers ABFS.
  • Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к объектному хранилищу COS.
  • S'ha afegit suport complet per a Java 11.
  • Стабилизирована реализация HDFS RBF (Router-based Federation). В HDFS Router добавлены средства управления безопасностью.
  • Добавлен сервис DNS Resolution для определения клиентом серверов через DNS по именам узлов, позволяющий обойтись без перечисления всех хостов в настройках.
  • S'ha afegit suport per a la programació del llançament contenidors oportunistes через централизованный менеджер ресурсов (ResourceManager), в том числе с возможностью распределения контейнеров с учётом нагрузки каждого узла.
  • S'ha afegit el directori d'aplicacions de cerca YARN (Yet Another Resource Negotiator).

Font: opennet.ru

Afegeix comentari