Vrystelling van die platform vir verspreide dataverwerking Apache Hadoop 3.3

Na 'n jaar en 'n half van ontwikkeling, die Apache Software Foundation gepubliseer vrylating Apache Hadoop 3.3.0, 'n gratis platform vir die organisering van verspreide verwerking van groot volumes data met behulp van die paradigma kaart/verminder, waarin die taak in baie kleiner afsonderlike fragmente verdeel word, wat elkeen op 'n aparte groepknoop van stapel gestuur kan word. Hadoop-gebaseerde berging kan oor duisende nodusse strek en exagrepe data bevat.

Hadoop sluit 'n implementering van die Hadoop Distributed Filesystem (HDFS) in, wat outomaties datarugsteun verskaf en geoptimaliseer is vir MapReduce-toepassings. Om toegang tot data in Hadoop-berging te vereenvoudig, is die HBase-databasis en die SQL-agtige taal Pig ontwikkel, wat 'n soort SQL vir MapReduce is, waarvan die navrae deur verskeie Hadoop-platforms geparalleliseer en verwerk kan word. Die projek word beoordeel as heeltemal stabiel en gereed vir industriële bedryf. Hadoop word aktief gebruik in groot industriële projekte, wat vermoëns bied soortgelyk aan die Google Bigtable/GFS/MapReduce-platform, terwyl Google amptelik gedelegeer Hadoop en ander Apache-projekte het die reg om tegnologieë te gebruik wat gedek word deur patente wat verband hou met die MapReduce-metode.

Hadoop is eerste onder Apache-bewaarplekke in terme van die aantal veranderinge wat gemaak is en vyfde in terme van kodebasisgrootte (ongeveer 4 miljoen reëls kode). Groot Hadoop-implementerings sluit in Netflix (meer as 500 miljard gebeurtenisse per dag word gestoor), Twitter ('n groep van 10 duisend nodusse stoor meer as 'n zettagreep data in reële tyd en verwerk meer as 5 miljard sessies per dag), Facebook ('n groepering) van 4 duisend nodusse stoor meer as 300 petagrepe en neem daagliks toe met 4 PB per dag).

Die belangrikste veranderinge in Apache Hadoop 3.3:

  • Bygevoeg ondersteuning vir platforms gebaseer op ARM argitektuur.
  • Implementering van die formaat Protobuf (Protokolbuffers), wat gebruik word vir die serialisering van gestruktureerde data, is opgedateer na vrystelling 3.7.1 as gevolg van die einde van die lewensiklus van die protobuf-2.5.0-tak.
  • Die vermoëns van die S3A-verbinding is uitgebrei: ondersteuning vir verifikasie met behulp van tekens is bygevoeg (Afvaardiging Token), verbeterde ondersteuning vir kasreaksies met kode 404, verhoogde S3guard-werkverrigting en verhoogde operasionele betroubaarheid.
  • Probleme met outomatiese tuning is opgelos in die ABFS-lêerstelsel.
  • Bygevoeg inheemse ondersteuning vir Tencent Cloud COS-lêerstelsel vir toegang tot COS-objekberging.
  • Bygevoeg volledige ondersteuning vir Java 11.
  • Die implementering van HDFS RBF (Router-gebaseerde Federasie) is gestabiliseer. Sekuriteitskontroles is by HDFS-roeteerder gevoeg.
  • Die DNS-resolusiediens is bygevoeg vir die kliënt om bedieners via DNS volgens gasheername te bepaal, sodat jy kan doen sonder om alle gashere in die instellings te lys.
  • Bygevoeg bekendstelling skedulering ondersteuning opportunistiese houers deur 'n gesentraliseerde hulpbronbestuurder (ResourceManager), insluitend die vermoë om houers te versprei met inagneming van die vrag van elke nodus.
  • Bygevoeg soekbare YARN (Yet Another Resource Negotiator) toepassingsgids.

Bron: opennet.ru

Voeg 'n opmerking