Vydání platformy pro distribuované zpracování dat Apache Hadoop 3.3

Po roce a půl vývoje Apache Software Foundation publikováno uvolnění Apache Hadoop 3.3.0, bezplatná platforma pro organizaci distribuovaného zpracování velkých objemů dat pomocí paradigmatu zmapovat/zmenšit, ve kterém je úloha rozdělena na mnoho menších samostatných fragmentů, z nichž každý může být spuštěn na samostatném uzlu clusteru. Úložiště založené na Hadoopu může zahrnovat tisíce uzlů a obsahovat exabajty dat.

Hadoop obsahuje implementaci Hadoop Distributed Filesystem (HDFS), která automaticky zajišťuje zálohování dat a je optimalizována pro aplikace MapReduce. Pro zjednodušení přístupu k datům v úložišti Hadoop byla vyvinuta databáze HBase a jazyk podobný SQL Pig, což je druh SQL pro MapReduce, jehož dotazy lze paralelizovat a zpracovávat na několika platformách Hadoop. Projekt je hodnocen jako zcela stabilní a připravený k průmyslovému provozu. Hadoop se aktivně používá ve velkých průmyslových projektech a poskytuje možnosti podobné platformě Google Bigtable/GFS/MapReduce, zatímco Google oficiálně delegované Hadoop a další projekty Apache mají právo používat technologie chráněné patenty souvisejícími s metodou MapReduce.

Hadoop je na prvním místě mezi repozitáři Apache z hlediska počtu provedených změn a na pátém místě z hlediska velikosti kódové základny (asi 4 miliony řádků kódu). Mezi hlavní implementace Hadoop patří Netflix (ukládá se více než 500 miliard událostí denně), Twitter (shluk 10 tisíc uzlů ukládá více než zettabajt dat v reálném čase a zpracovává více než 5 miliard relací za den), Facebook (shluk ze 4 tisíc uzlů ukládá více než 300 petabajtů a denně se zvyšuje o 4 PB za den).

hlavní změny v Apache Hadoop 3.3:

  • Přidána podpora pro platformy založené na architektuře ARM.
  • Implementace formátu Protobuf (Protocol buffer), používaný pro serializaci strukturovaných dat, byl aktualizován na verzi 3.7.1 kvůli konci životního cyklu větve protobuf-2.5.0.
  • Možnosti konektoru S3A byly rozšířeny: byla přidána podpora pro autentizaci pomocí tokenů (Token delegace), vylepšená podpora pro odezvy mezipaměti s kódem 404, zvýšený výkon S3guard a zvýšená provozní spolehlivost.
  • V souborovém systému ABFS byly vyřešeny problémy s automatickým laděním.
  • Přidána nativní podpora pro systém souborů Tencent Cloud COS pro přístup k úložišti objektů COS.
  • Přidána plná podpora pro Java 11.
  • Implementace HDFS RBF (Router-based Federation) byla stabilizována. Do HDFS Routeru byly přidány bezpečnostní ovládací prvky.
  • Byla přidána služba DNS Resolution pro klienta, která určuje servery pomocí DNS podle názvů hostitelů, což vám umožňuje obejít se bez uvedení všech hostitelů v nastavení.
  • Přidána podpora plánování spouštění oportunistické kontejnery prostřednictvím centralizovaného správce zdrojů (ResourceManager), včetně možnosti distribuovat kontejnery s ohledem na zatížení každého uzlu.
  • Přidán prohledávatelný adresář aplikace YARN (Yet Another Resource Negotiator).

Zdroj: opennet.ru

Přidat komentář