Wydanie platformy do rozproszonego przetwarzania danych Apache Hadoop 3.3

Po półtora roku rozwoju powstała Apache Software Foundation опубликовала wydanie Apache Hadoop 3.3.0, bezpłatna platforma do organizacji rozproszonego przetwarzania dużych ilości danych z wykorzystaniem paradygmatu mapować/zmniejszać, w którym zadanie podzielone jest na wiele mniejszych odrębnych fragmentów, z których każdy można uruchomić na osobnym węźle klastra. Magazyn oparty na platformie Hadoop może obejmować tysiące węzłów i zawierać eksabajty danych.

Hadoop zawiera implementację rozproszonego systemu plików Hadoop (HDFS), który automatycznie tworzy kopie zapasowe danych i jest zoptymalizowany pod kątem aplikacji MapReduce. Aby uprościć dostęp do danych w magazynie Hadoop, opracowano bazę danych HBase oraz język podobny do SQL Pig, będący swego rodzaju SQL dla MapReduce, którego zapytania mogą być zrównoleglane i przetwarzane przez kilka platform Hadoop. Projekt ocenia się jako całkowicie stabilny i gotowy do przemysłowej eksploatacji. Hadoop jest aktywnie wykorzystywany w dużych projektach przemysłowych, zapewniając możliwości podobne do platformy Google Bigtable/GFS/MapReduce, natomiast Google oficjalnie delegowany Hadoop i inne projekty Apache mają prawo wykorzystywać technologie objęte patentami związanymi z metodą MapReduce.

Hadoop zajmuje pierwsze miejsce wśród repozytoriów Apache pod względem liczby dokonanych zmian i piąte pod względem wielkości bazy kodu (około 4 miliony linii kodu). Do najważniejszych wdrożeń Hadoopa zalicza się Netflix (przechowywanych jest ponad 500 miliardów zdarzeń dziennie), Twitter (klaster składający się z 10 tysięcy węzłów przechowuje w czasie rzeczywistym ponad zettabajt danych i przetwarza ponad 5 miliardów sesji dziennie), Facebook (klaster węzłów przechowuje ponad 4 petabajtów i codziennie rośnie o 300 PB dziennie).

Głównym zmiany w Apache Hadoop 3.3:

  • Dodano obsługę platform opartych na architekturze ARM.
  • Implementacja formatu Protobufa (Bufory protokołów), używane do serializacji danych strukturalnych, zostały zaktualizowane do wersji 3.7.1 ze względu na koniec cyklu życia gałęzi protobuf-2.5.0.
  • Rozszerzono możliwości konektora S3A: dodano obsługę uwierzytelniania za pomocą tokenów (Token delegacji), ulepszona obsługa odpowiedzi w pamięci podręcznej za pomocą kodu 404, zwiększona wydajność S3guard i zwiększona niezawodność działania.
  • Problemy z automatycznym strojeniem zostały rozwiązane w systemie plików ABFS.
  • Dodano natywną obsługę systemu plików COS Tencent Cloud w celu uzyskania dostępu do pamięci obiektowej COS.
  • Dodano pełną obsługę Java 11.
  • Ustabilizowano wdrażanie HDFS RBF (Federacja oparta na routerach). Do routera HDFS dodano kontrolę bezpieczeństwa.
  • Dodano usługę rozpoznawania DNS dla klienta w celu określenia serwerów poprzez DNS według nazw hostów, dzięki czemu można obejść się bez wymieniania wszystkich hostów w ustawieniach.
  • Dodano obsługę planowania uruchamiania pojemniki oportunistyczne poprzez scentralizowany menedżer zasobów (ResourceManager), obejmujący możliwość dystrybucji kontenerów z uwzględnieniem obciążenia każdego węzła.
  • Dodano katalog aplikacji YARN (Yet Another Resource Negotiator) z możliwością przeszukiwania.

Źródło: opennet.ru

Dodaj komentarz