Vydání platformy pro distribuované zpracování dat Apache Hadoop 3.3
Po roce a půl vývoje Apache Software Foundation publikováno uvolnění Apache Hadoop 3.3.0, bezplatná platforma pro organizaci distribuovaného zpracování velkých objemů dat pomocí paradigmatu zmapovat/zmenšit, ve kterém je úloha rozdělena na mnoho menších samostatných fragmentů, z nichž každý může být spuštěn na samostatném uzlu clusteru. Úložiště založené na Hadoopu může zahrnovat tisíce uzlů a obsahovat exabajty dat.
Hadoop obsahuje implementaci Hadoop Distributed Filesystem (HDFS), která automaticky zajišťuje zálohování dat a je optimalizována pro aplikace MapReduce. Pro zjednodušení přístupu k datům v úložišti Hadoop byla vyvinuta databáze HBase a jazyk podobný SQL Pig, což je druh SQL pro MapReduce, jehož dotazy lze paralelizovat a zpracovávat na několika platformách Hadoop. Projekt je hodnocen jako zcela stabilní a připravený k průmyslovému provozu. Hadoop se aktivně používá ve velkých průmyslových projektech a poskytuje možnosti podobné platformě Google Bigtable/GFS/MapReduce, zatímco Google oficiálně delegované Hadoop a další projekty Apache mají právo používat technologie chráněné patenty souvisejícími s metodou MapReduce.
Hadoop je na prvním místě mezi repozitáři Apache z hlediska počtu provedených změn a na pátém místě z hlediska velikosti kódové základny (asi 4 miliony řádků kódu). Mezi hlavní implementace Hadoop patří Netflix (ukládá se více než 500 miliard událostí denně), Twitter (shluk 10 tisíc uzlů ukládá více než zettabajt dat v reálném čase a zpracovává více než 5 miliard relací za den), Facebook (shluk ze 4 tisíc uzlů ukládá více než 300 petabajtů a denně se zvyšuje o 4 PB za den).
Přidána podpora pro platformy založené na architektuře ARM.
Implementace formátu Protobuf (Protocol buffer), používaný pro serializaci strukturovaných dat, byl aktualizován na verzi 3.7.1 kvůli konci životního cyklu větve protobuf-2.5.0.
Možnosti konektoru S3A byly rozšířeny: byla přidána podpora pro autentizaci pomocí tokenů (Token delegace), vylepšená podpora pro odezvy mezipaměti s kódem 404, zvýšený výkon S3guard a zvýšená provozní spolehlivost.
V souborovém systému ABFS byly vyřešeny problémy s automatickým laděním.
Přidána nativní podpora pro systém souborů Tencent Cloud COS pro přístup k úložišti objektů COS.
Přidána plná podpora pro Java 11.
Implementace HDFS RBF (Router-based Federation) byla stabilizována. Do HDFS Routeru byly přidány bezpečnostní ovládací prvky.
Byla přidána služba DNS Resolution pro klienta, která určuje servery pomocí DNS podle názvů hostitelů, což vám umožňuje obejít se bez uvedení všech hostitelů v nastavení.
Přidána podpora plánování spouštění oportunistické kontejnery prostřednictvím centralizovaného správce zdrojů (ResourceManager), včetně možnosti distribuovat kontejnery s ohledem na zatížení každého uzlu.
Přidán prohledávatelný adresář aplikace YARN (Yet Another Resource Negotiator).