Utgivelse av plattformen for distribuert databehandling Apache Hadoop 3.3

Etter halvannet år med utvikling, Apache Software Foundation опубликовала utgivelse Apache Hadoop 3.3.0, en gratis plattform for å organisere distribuert behandling av store datamengder ved hjelp av paradigmet kart reduksjon, der oppgaven er delt inn i mange mindre separate fragmenter, som hver kan startes på en egen klyngennode. Hadoop-basert lagring kan spenne over tusenvis av noder og inneholde exabyte med data.

Hadoop inkluderer en implementering av Hadoop Distributed Filesystem (HDFS), som automatisk gir sikkerhetskopiering av data og er optimalisert for MapReduce-applikasjoner. For å forenkle tilgangen til data i Hadoop-lagring er det utviklet HBase-databasen og det SQL-lignende språket Pig, som er en slags SQL for MapReduce, hvis spørringer kan parallelliseres og behandles av flere Hadoop-plattformer. Prosjektet vurderes som helt stabilt og klar for industriell drift. Hadoop brukes aktivt i store industrielle prosjekter, og gir muligheter som ligner på Google Bigtable/GFS/MapReduce-plattformen, mens Google offisielt har delegert Hadoop og andre Apache-prosjekter har rett til å bruke teknologier dekket av patenter knyttet til MapReduce-metoden.

Hadoop rangerer først blant Apache-repositoriene når det gjelder antall endringer som er gjort og femte når det gjelder kodebasestørrelse (omtrent 4 millioner linjer med kode). Store Hadoop-implementeringer inkluderer Netflix (mer enn 500 milliarder hendelser per dag lagres), Twitter (en klynge på 10 tusen noder lagrer mer enn en zettabyte med data i sanntid og behandler mer enn 5 milliarder økter per dag), Facebook (en klynge av 4 tusen noder lagrer mer enn 300 petabyte og øker daglig med 4 PB per dag).

Den viktigste endringer i Apache Hadoop 3.3:

  • Lagt til støtte for plattformer basert på ARM-arkitektur.
  • Implementering av formatet Protobuf (Protokollbuffere), som brukes til å serialisere strukturerte data, har blitt oppdatert til utgivelse 3.7.1 på grunn av slutten av livssyklusen til protobuf-2.5.0-grenen.
  • Mulighetene til S3A-kontakten er utvidet: støtte for autentisering ved bruk av tokens er lagt til (Delegasjonstoken), forbedret støtte for hurtigbufring av svar med kode 404, økt S3guard-ytelse og økt driftssikkerhet.
  • Problemer med automatisk tuning er løst i ABFS-filsystemet.
  • Lagt til innebygd støtte for Tencent Cloud COS-filsystem for tilgang til COS-objektlagring.
  • Lagt til full støtte for Java 11.
  • Implementeringen av HDFS RBF (Router-based Federation) har blitt stabilisert. Sikkerhetskontroller er lagt til HDFS Router.
  • Lagt til DNS Resolution-tjenesten for klienten for å bestemme servere via DNS etter vertsnavn, slik at du kan gjøre uten å liste alle verter i innstillingene.
  • Lagt til støtte for lanseringsplanlegging opportunistiske containere gjennom en sentralisert ressursbehandling (ResourceManager), inkludert muligheten til å distribuere containere under hensyntagen til belastningen til hver node.
  • Lagt til søkbar YARN (Yet Another Resource Negotiator) applikasjonskatalog.

Kilde: opennet.ru

Legg til en kommentar