Izlazak platforme za distribuiranu obradu podataka Apache Hadoop 3.3

Nakon godinu i po dana razvoja, Apache Software Foundation objavljeno pustiti Apache Hadoop 3.3.0, besplatna platforma za organiziranje distribuirane obrade velikih količina podataka pomoću paradigme mapa/reduce, u kojem je zadatak podijeljen na mnogo manjih zasebnih fragmenata, od kojih se svaki može pokrenuti na zasebnom čvoru klastera. Skladištenje zasnovano na Hadoop-u može obuhvatiti hiljade čvorova i sadržavati eksabajte podataka.

Hadoop uključuje implementaciju Hadoop Distributed Filesystem (HDFS), koji automatski pruža sigurnosnu kopiju podataka i optimiziran je za MapReduce aplikacije. Da bi se pojednostavio pristup podacima u Hadoop skladištu, razvijena je HBase baza podataka i jezik sličan SQL-u Pig, koji je vrsta SQL-a za MapReduce, čiji upiti se mogu paralelizirati i obraditi na nekoliko Hadoop platformi. Projekt je ocijenjen kao potpuno stabilan i spreman za industrijski pogon. Hadoop se aktivno koristi u velikim industrijskim projektima, pružajući mogućnosti slične Google Bigtable/GFS/MapReduce platformi, dok je Google zvanično delegirani Hadoop i drugi Apache projekti imaju pravo da koriste tehnologije pokrivene patentima u vezi sa metodom MapReduce.

Hadoop je na prvom mjestu među Apache repozitorijumima po broju izmjena i na petom mjestu po veličini kodne baze (oko 4 miliona linija koda). Glavne implementacije Hadoop-a uključuju Netflix (pohranjuje se više od 500 milijardi događaja dnevno), Twitter (klaster od 10 hiljada čvorova pohranjuje više od zetabajta podataka u realnom vremenu i obrađuje više od 5 milijardi sesija dnevno), Facebook (klaster od 4 hiljade čvorova pohranjuje više od 300 petabajta i svakodnevno se povećava za 4 PB dnevno).

Glavni promjena u Apache Hadoop 3.3:

  • Dodata podrška za platforme zasnovane na ARM arhitekturi.
  • Implementacija formata Protobuf (Protokolski baferi), koji se koriste za serijalizaciju strukturiranih podataka, ažuriran je na izdanje 3.7.1 zbog kraja životnog ciklusa grane protobuf-2.5.0.
  • Mogućnosti S3A konektora su proširene: dodana je podrška za autentifikaciju pomoću tokena (Token za delegiranje), poboljšana podrška za keširanje odgovora sa kodom 404, povećane performanse S3guarda i povećana operativna pouzdanost.
  • Problemi sa automatskim podešavanjem su riješeni u ABFS sistemu datoteka.
  • Dodata je izvorna podrška za Tencent Cloud COS sistem datoteka za pristup skladištu COS objekata.
  • Dodata puna podrška za Javu 11.
  • Implementacija HDFS RBF (Router-based Federation) je stabilizirana. Sigurnosne kontrole su dodate HDFS ruteru.
  • Dodana je usluga DNS Resolution za klijenta da odredi servere preko DNS-a po imenima hostova, što vam omogućava da ne navodite sve hostove u postavkama.
  • Dodata podrška za planiranje pokretanja oportunističkih kontejnera kroz centralizirani upravitelj resursa (ResourceManager), uključujući mogućnost distribucije kontejnera uzimajući u obzir opterećenje svakog čvora.
  • Dodan direktorij aplikacija za pretraživanje YARN (Yet Another Resource Negotiator).

izvor: opennet.ru

Dodajte komentar