Release van het platform voor gedistribueerde gegevensverwerking Apache Hadoop 3.3

Na anderhalf jaar ontwikkeling, de Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, een gratis platform voor het organiseren van gedistribueerde verwerking van grote hoeveelheden gegevens met behulp van het paradigma kaart/verkleinen, waarin de taak is opgedeeld in veel kleinere afzonderlijke fragmenten, die elk op een afzonderlijk clusterknooppunt kunnen worden gelanceerd. Op Hadoop gebaseerde opslag kan duizenden knooppunten omvatten en exabytes aan gegevens bevatten.

Hadoop bevat een implementatie van het Hadoop Distributed Filesystem (HDFS), dat automatisch gegevensback-up biedt en is geoptimaliseerd voor MapReduce-applicaties. Om de toegang tot gegevens in Hadoop-opslag te vereenvoudigen, zijn de HBase-database en de SQL-achtige taal Pig ontwikkeld, een soort SQL voor MapReduce, waarvan de queries door verschillende Hadoop-platforms kunnen worden geparallelliseerd en verwerkt. Het project wordt beoordeeld als volledig stabiel en klaar voor industriële exploitatie. Hadoop wordt actief gebruikt in grote industriële projecten en biedt mogelijkheden die vergelijkbaar zijn met het Google Bigtable/GFS/MapReduce-platform, terwijl Google officieel gedelegeerd Hadoop en andere Apache-projecten hebben het recht om technologieën te gebruiken die vallen onder patenten met betrekking tot de MapReduce-methode.

Hadoop staat op de eerste plaats onder de Apache-repository's wat betreft het aantal aangebrachte wijzigingen en op de vijfde plaats wat betreft codebasegrootte (ongeveer 4 miljoen regels code). Grote Hadoop-implementaties zijn onder meer Netflix (er worden meer dan 500 miljard evenementen per dag opgeslagen), Twitter (een cluster van 10 knooppunten slaat meer dan een zettabyte aan gegevens in realtime op en verwerkt meer dan 5 miljard sessies per dag), Facebook (een cluster van 4 knooppunten slaat ruim 300 petabytes op en neemt dagelijks toe met 4 PB per dag).

De belangrijkste veranderingen in Apache Hadoop 3.3:

  • Ondersteuning toegevoegd voor platforms gebaseerd op ARM-architectuur.
  • Implementatie van het formaat Protobuf (Protocolbuffers), gebruikt voor het serialiseren van gestructureerde gegevens, is bijgewerkt naar versie 3.7.1 vanwege het einde van de levenscyclus van de protobuf-2.5.0-tak.
  • De mogelijkheden van de S3A-connector zijn uitgebreid: ondersteuning voor authenticatie met behulp van tokens is toegevoegd (Delegatietoken), verbeterde ondersteuning voor caching-reacties met code 404, verbeterde S3guard-prestaties en verhoogde operationele betrouwbaarheid.
  • Problemen met automatisch afstemmen zijn opgelost in het ABFS-bestandssysteem.
  • Native ondersteuning toegevoegd voor het Tencent Cloud COS-bestandssysteem voor toegang tot COS-objectopslag.
  • Volledige ondersteuning voor Java 11 toegevoegd.
  • De implementatie van HDFS RBF (Router-based Federation) is gestabiliseerd. Er zijn beveiligingscontroles toegevoegd aan HDFS Router.
  • De DNS Resolution-service toegevoegd waarmee de client servers via DNS kan bepalen op basis van hostnamen, zodat u niet alle hosts in de instellingen hoeft op te nemen.
  • Ondersteuning voor lanceringsplanning toegevoegd opportunistische containers via een gecentraliseerde resourcemanager (ResourceManager), inclusief de mogelijkheid om containers te distribueren, rekening houdend met de belasting van elk knooppunt.
  • Doorzoekbare YARN-toepassingsmap (Yet Another Resource Negotiator) toegevoegd.

Bron: opennet.ru

Voeg een reactie