Release av plattformen för distribuerad databehandling Apache Hadoop 3.3

Efter ett och ett halvt år av utveckling, Apache Software Foundation опубликовала släpp Apache Hadoop 3.3.0, en gratis plattform för att organisera distribuerad bearbetning av stora datamängder med hjälp av paradigmet kartlägga/minska, där uppgiften är uppdelad i många mindre separata fragment, som vart och ett kan startas på en separat klusternod. Hadoop-baserad lagring kan sträcka sig över tusentals noder och innehålla exabyte data.

Hadoop inkluderar en implementering av Hadoop Distributed Filesystem (HDFS), som automatiskt tillhandahåller datasäkerhetskopiering och är optimerad för MapReduce-applikationer. För att förenkla åtkomst till data i Hadoop-lagring har HBase-databasen och det SQL-liknande språket Pig utvecklats, som är en slags SQL för MapReduce, vars frågor kan parallelliseras och bearbetas av flera Hadoop-plattformar. Projektet bedöms som helt stabilt och redo för industriell drift. Hadoop används aktivt i stora industriella projekt och tillhandahåller möjligheter som liknar Google Bigtable/GFS/MapReduce-plattformen, medan Google officiellt har delegerad Hadoop och andra Apache-projekt har rätt att använda teknologier som omfattas av patent relaterade till MapReduce-metoden.

Hadoop rankas först bland Apache-repositories när det gäller antalet gjorda ändringar och femte när det gäller kodbasstorlek (cirka 4 miljoner rader kod). Stora Hadoop-implementeringar inkluderar Netflix (mer än 500 miljarder händelser per dag lagras), Twitter (ett kluster med 10 tusen noder lagrar mer än en zettabyte data i realtid och bearbetar mer än 5 miljarder sessioner per dag), Facebook (ett kluster av 4 tusen noder lagrar mer än 300 petabyte och ökar dagligen med 4 PB per dag).

Den huvudsakliga förändringar i Apache Hadoop 3.3:

  • Tillagt stöd för plattformar baserade på ARM-arkitektur.
  • Implementering av formatet Protobuf (Protokollbuffertar), som används för att serialisera strukturerad data, har uppdaterats till release 3.7.1 på grund av slutet av livscykeln för protobuf-2.5.0-grenen.
  • Möjligheterna för S3A-kontakten har utökats: stöd för autentisering med tokens har lagts till (Delegationstoken), förbättrat stöd för cachning av svar med kod 404, ökad S3guard-prestanda och ökad driftsäkerhet.
  • Problem med automatisk inställning har lösts i ABFS-filsystemet.
  • Lade till inbyggt stöd för Tencent Cloud COS-filsystem för åtkomst till COS-objektlagring.
  • Lade till fullt stöd för Java 11.
  • Implementeringen av HDFS RBF (routerbaserad federation) har stabiliserats. Säkerhetskontroller har lagts till i HDFS Router.
  • Lade till DNS Resolution-tjänsten för klienten att bestämma servrar via DNS efter värdnamn, så att du kan göra utan att lista alla värdar i inställningarna.
  • Lade till stöd för lanseringsplanering opportunistiska containrar genom en centraliserad resurshanterare (ResourceManager), inklusive möjligheten att distribuera behållare med hänsyn till belastningen för varje nod.
  • Lade till sökbar YARN (Yet Another Resource Negotiator) applikationskatalog.

Källa: opennet.ru

Lägg en kommentar