Az elosztott adatfeldolgozás platformjának kiadása Apache Hadoop 3.3

Másfél éves fejlesztés után az Apache Software Foundation közzétett kiadás Apache Hadoop 3.3.0, egy ingyenes platform nagy mennyiségű adat elosztott feldolgozásának megszervezésére a paradigma segítségével feltérképezni/kicsinyíteni, amelyben a feladat sok kisebb különálló töredékre van felosztva, amelyek mindegyike külön fürtcsomóponton indítható el. A Hadoop-alapú tárolás több ezer csomópontot ölelhet fel, és exabájtnyi adatot tartalmazhat.

A Hadoop tartalmazza a Hadoop Distributed Filesystem (HDFS) megvalósítását, amely automatikusan biztosítja az adatok biztonsági mentését, és a MapReduce alkalmazásokhoz van optimalizálva. A Hadoop tárhelyen lévő adatokhoz való hozzáférés egyszerűsítésére fejlesztették ki a HBase adatbázist és az SQL-szerű nyelvet, a Pig-et, amely egyfajta SQL a MapReduce számára, melynek lekérdezéseit több Hadoop platform párhuzamosíthatja és feldolgozhatja. A projektet teljesen stabilnak és ipari működésre késznek értékelték. A Hadoop-ot aktívan használják nagy ipari projektekben, a Google Bigtable/GFS/MapReduce platformhoz hasonló képességeket biztosítva, míg a Google hivatalosan delegált A Hadoop és más Apache projektek jogosultak a MapReduce módszerrel kapcsolatos szabadalmak által lefedett technológiák használatára.

A Hadoop az első helyen áll az Apache adattárak között a végrehajtott változtatások számát tekintve, és az ötödik a kódbázis méretét tekintve (körülbelül 4 millió kódsor). A főbb Hadoop-megvalósítások közé tartozik a Netflix (több mint 500 milliárd eseményt tárol naponta), a Twitter (egy 10 ezer csomópontból álló klaszter több mint egy zettabájtnyi adatot tárol valós időben, és több mint 5 milliárd munkamenetet dolgoz fel naponta), Facebook (egy fürt 4 ezer csomópont több mint 300 petabájtot tárol, és naponta 4 PB-vel növekszik).

A főbb változások Apache Hadoop 3.3-ban:

  • Hozzáadott támogatás az ARM architektúrán alapuló platformokhoz.
  • A formátum megvalósítása Protobuf A strukturált adatok sorba rendezésére használt (Protokollpufferek) a protobuf-3.7.1 ág életciklusának vége miatt a 2.5.0-es kiadásra frissült.
  • Az S3A csatlakozó képességei kibővültek: a tokenek segítségével történő hitelesítés támogatása hozzáadásra került (Delegációs token), a 404-es kóddal a válaszok gyorsítótárazásának jobb támogatása, az S3guard teljesítményének növelése és a működési megbízhatóság növelése.
  • Az automatikus hangolással kapcsolatos problémák megoldódtak az ABFS fájlrendszerben.
  • Natív támogatás hozzáadva a Tencent Cloud COS fájlrendszerhez a COS objektumtárhely eléréséhez.
  • A Java 11 teljes támogatása hozzáadva.
  • A HDFS RBF (Router-based Federation) megvalósítása stabilizálódott. A HDFS Router biztonsági vezérlőkkel bővült.
  • Hozzáadtuk a DNS-feloldási szolgáltatást, amellyel az ügyfél DNS-en keresztül állomásnevek alapján határozhatja meg a szervereket, lehetővé téve, hogy ne sorolja fel az összes gazdagépet a beállításokban.
  • Hozzáadott indítási ütemezési támogatás opportunista konténerek központi erőforrás-kezelőn (ResourceManager) keresztül, beleértve a konténerek elosztásának lehetőségét, figyelembe véve az egyes csomópontok terhelését.
  • Hozzáadott kereshető YARN (Yet Another Resource Negotiator) alkalmazáskönyvtár.

Forrás: opennet.ru

Hozzászólás