Izid platforme za porazdeljeno obdelavo podatkov Apache Hadoop 3.3

Po letu in pol razvoja je Apache Software Foundation objavljeno sprostitev Apache Hadoop 3.3.0, brezplačna platforma za organiziranje porazdeljene obdelave velikih količin podatkov z uporabo paradigme zemljevid/zmanjšaj, v katerem je naloga razdeljena na veliko manjših ločenih fragmentov, od katerih je vsak mogoče zagnati na ločenem vozlišču gruče. Shramba na osnovi Hadoopa lahko obsega na tisoče vozlišč in vsebuje eksabajte podatkov.

Hadoop vključuje implementacijo porazdeljenega datotečnega sistema Hadoop (HDFS), ki samodejno zagotavlja varnostno kopiranje podatkov in je optimiziran za aplikacije MapReduce. Za poenostavitev dostopa do podatkov v shrambi Hadoop sta bila razvita podatkovna baza HBase in SQL podoben jezik Pig, ki je neke vrste SQL za MapReduce, katerega poizvedbe lahko paralelizira in obdeluje več platform Hadoop. Projekt je ocenjen kot popolnoma stabilen in pripravljen za industrijsko obratovanje. Hadoop se aktivno uporablja v velikih industrijskih projektih in zagotavlja zmogljivosti, podobne platformi Google Bigtable/GFS/MapReduce, medtem ko je Google uradno delegiran Hadoop in drugi projekti Apache imajo pravico do uporabe tehnologij, ki jih pokrivajo patenti, povezani z metodo MapReduce.

Hadoop je na prvem mestu med repozitoriji Apache po številu opravljenih sprememb in na petem po velikosti kodne baze (približno 4 milijone vrstic kode). Glavne implementacije Hadoop vključujejo Netflix (shranjenih je več kot 500 milijard dogodkov na dan), Twitter (grozd 10 tisoč vozlišč shrani več kot zetabajt podatkov v realnem času in obdela več kot 5 milijard sej na dan), Facebook (grozd 4 tisoč vozlišč hrani več kot 300 petabajtov in se dnevno poveča za 4 PB na dan).

Glavni Spremembe v Apache Hadoop 3.3:

  • Dodana podpora za platforme, ki temeljijo na arhitekturi ARM.
  • Izvedba formata Protobuf (Protocol buffers), ki se uporablja za serializacijo strukturiranih podatkov, je bil posodobljen na izdajo 3.7.1 zaradi konca življenjskega cikla veje protobuf-2.5.0.
  • Zmogljivosti konektorja S3A so bile razširjene: dodana je podpora za avtentikacijo z uporabo žetonov (Žeton delegiranja), izboljšana podpora za predpomnjenje odgovorov s kodo 404, povečana zmogljivost S3guard in povečana zanesljivost delovanja.
  • Težave s samodejnim prilagajanjem so bile odpravljene v datotečnem sistemu ABFS.
  • Dodana izvorna podpora za datotečni sistem Tencent Cloud COS za dostop do shrambe objektov COS.
  • Dodana polna podpora za Javo 11.
  • Izvajanje HDFS RBF (Router-based Federation) je bilo stabilizirano. Usmerjevalniku HDFS so dodane varnostne kontrole.
  • Dodana storitev DNS Resolution za odjemalca za določanje strežnikov prek DNS po imenih gostiteljev, kar vam omogoča, da ne navedete vseh gostiteljev v nastavitvah.
  • Dodana podpora za načrtovanje zagona oportunistični zabojniki prek centraliziranega upravljalnika virov (ResourceManager), vključno z možnostjo distribucije vsebnikov ob upoštevanju obremenitve vsakega vozlišča.
  • Dodan imenik aplikacij YARN (Yet Another Resource Negotiator), ki omogoča iskanje.

Vir: opennet.ru

Dodaj komentar