X'hemm speċjali dwar Cloudera u kif tippreparaha

Is-suq għall-kompjuters distribwiti u big data, skond statistika, qed jikber bi 18-19% fis-sena. Dan ifisser li l-kwistjoni tal-għażla tas-softwer għal dawn l-għanijiet tibqa’ rilevanti. F'din il-kariga, ser nibdew għaliex hija meħtieġa kompjuters distribwiti, nidħlu f'aktar dettall dwar l-għażla ta 'softwer, nitkellmu dwar l-użu ta' Hadoop billi tuża Cloudera, u fl-aħħar nitkellmu dwar l-għażla tal-ħardwer u kif din taffettwa l-prestazzjoni b'modi differenti.

X'hemm speċjali dwar Cloudera u kif tippreparaha
Għaliex huwa meħtieġ kompjuters distribwiti fin-negozju regolari? Kollox hawnhekk huwa sempliċi u kumpless fl-istess ħin. Sempliċi - għaliex fil-biċċa l-kbira tal-każijiet nagħmlu kalkoli relattivament sempliċi għal kull unità ta 'informazzjoni. Huwa diffiċli għax hemm ħafna informazzjoni bħal din. Ħafna. Bħala konsegwenza, huwa meħtieġ jipproċessa terabytes ta' data f'1000 ħajta. Għalhekk, il-każijiet ta 'użu huma pjuttost universali: il-kalkoli jistgħu jintużaw kull fejn ikun meħtieġ li jittieħed kont ta' numru kbir ta 'metriċi fuq firxa saħansitra akbar ta' dejta.

Wieħed mill-eżempji riċenti: il-katina tal-pizzerija Dodo Pizza determinat ibbażata fuq analiżi tad-database tal-ordnijiet tal-klijenti, li meta jagħżlu pizza b'topping każwali, l-utenti normalment joperaw b'sitt settijiet bażiċi ta 'ingredjenti biss flimkien ma' koppja ta 'dawk każwali. Skond dan, il-pizzeria aġġustat ix-xiri tagħha. Barra minn hekk, hija setgħet tirrakkomanda aħjar prodotti addizzjonali offruti lill-utenti matul l-istadju tal-ordni, li żied il-profitti.

Eżempju ieħor: analiżi oġġetti tal-prodott ippermettew li l-maħżen H&M inaqqas l-assortiment fi ħwienet individwali b'40%, filwaqt li jżomm il-livelli tal-bejgħ. Dan inkiseb billi ġew esklużi oġġetti li kienu qed jinbiegħu ħażin, u l-istaġjonalità ġiet ikkunsidrata fil-kalkoli.

Għażla tal-għodda

L-istandard tal-industrija għal dan it-tip ta 'kompjuters huwa Hadoop. Għaliex? Minħabba li Hadoop huwa qafas eċċellenti u dokumentat tajjeb (l-istess Habr jipprovdi ħafna artikli dettaljati dwar dan is-suġġett), li huwa akkumpanjat minn sett sħiħ ta 'utilitajiet u libreriji. Tista' ddaħħal settijiet kbar ta' data kemm strutturata kif ukoll mhux strutturata, u s-sistema nnifisha tqassamha fost is-saħħa tal-kompjuter. Barra minn hekk, dawn l-istess kapaċitajiet jistgħu jiżdiedu jew jiġu diżattivati ​​fi kwalunkwe ħin - dik l-istess skalabbiltà orizzontali fl-azzjoni.

Fl-2017, il-kumpanija ta 'konsulenza influwenti Gartner ikkonkludali Hadoop dalwaqt se jsir skadut. Ir-raġuni hija pjuttost banali: l-analisti jemmnu li l-kumpaniji se jemigraw b'mod massiv lejn is-sħab, peress li hemm ikunu jistgħu jħallsu hekk kif jużaw is-saħħa tal-kompjuter. It-tieni fattur importanti li allegatament jista '"difnu" Hadoop huwa l-veloċità tiegħu. Minħabba li għażliet bħal Apache Spark jew Google Cloud DataFlow huma aktar mgħaġġla minn MapReduce, li hija bbażata fuq Hadoop.

Hadoop jistrieħ fuq diversi pilastri, l-aktar notevoli minnhom huma teknoloġiji MapReduce (sistema għad-distribuzzjoni tad-dejta għall-kalkoli bejn is-servers) u s-sistema tal-fajls HDFS. Dan tal-aħħar huwa ddisinjat apposta għall-ħażna ta 'informazzjoni mqassma bejn nodi ta' cluster: kull blokka ta 'daqs fiss tista' titqiegħed fuq diversi nodi, u grazzi għar-replikazzjoni, is-sistema hija reżistenti għal fallimenti ta 'nodi individwali. Minflok tabella tal-fajls, jintuża server speċjali msejjaħ NameNode.

L-illustrazzjoni hawn taħt turi kif jaħdem MapReduce. Fl-ewwel stadju, id-dejta hija maqsuma skont ċertu kriterju, fit-tieni stadju hija mqassma skont is-saħħa tal-kompjuter, u fit-tielet stadju jseħħ il-kalkolu.

X'hemm speċjali dwar Cloudera u kif tippreparaha
MapReduce inħoloq oriġinarjament minn Google għall-bżonnijiet tat-tiftix tagħha. Imbagħad MapReduce marru kodiċi b'xejn, u Apache ħa f'idejh il-proġett. Ukoll, Google gradwalment emigra għal soluzzjonijiet oħra. Tidbit interessanti: Google bħalissa għandha proġett imsejjaħ Google Cloud Dataflow, pożizzjonat bħala l-pass li jmiss wara Hadoop, bħala sostitut malajr għalih.

Ħarsa aktar mill-qrib turi li Google Cloud Dataflow huwa bbażat fuq varjazzjoni ta 'Apache Beam, filwaqt li Apache Beam jinkludi l-qafas Apache Spark dokumentat tajjeb, li jippermettilna nitkellmu dwar kważi l-istess veloċità ta' eżekuzzjoni ta 'soluzzjonijiet. Ukoll, Apache Spark jaħdem perfettament fuq is-sistema tal-fajls HDFS, li tippermetti li tiġi skjerata fuq is-servers Hadoop.

Żid hawn il-volum ta 'dokumentazzjoni u soluzzjonijiet lesti għal Hadoop u Spark kontra Google Cloud Dataflow, u l-għażla tal-għodda ssir ovvja. Barra minn hekk, l-inġiniera jistgħu jiddeċiedu għalihom infushom liema kodiċi - għal Hadoop jew Spark - għandhom imexxu, jiffokaw fuq il-kompitu, l-esperjenza u l-kwalifiki.

Cloud jew server lokali

It-tendenza lejn tranżizzjoni ġenerali lejn is-sħab saħansitra tat lok għal terminu interessanti bħal Hadoop-as-a-service. F'xenarju bħal dan, l-amministrazzjoni ta 'servers konnessi saret importanti ħafna. Minħabba li, sfortunatament, minkejja l-popolarità tiegħu, Hadoop pur huwa għodda pjuttost diffiċli biex jiġi kkonfigurat, peress li ħafna jrid isir manwalment. Pereżempju, ikkonfigura s-servers individwalment, timmonitorja l-prestazzjoni tagħhom, u kkonfigura ħafna parametri bir-reqqa. B'mod ġenerali, ix-xogħol huwa għal dilettant u hemm ċans kbir li tħawwad xi mkien jew titlef xi ħaġa.

Għalhekk, diversi kits ta 'distribuzzjoni, li inizjalment huma mgħammra b'għodod konvenjenti ta' skjerament u amministrazzjoni, saru popolari ħafna. Waħda mill-aktar distribuzzjonijiet popolari li tappoġġja Spark u tagħmel kollox faċli hija Cloudera. Għandha kemm verżjonijiet imħallsa kif ukoll b'xejn - u f'dawn tal-aħħar il-funzjonalità bażika kollha hija disponibbli, mingħajr ma tillimita n-numru ta 'nodi.

X'hemm speċjali dwar Cloudera u kif tippreparaha

Waqt is-setup, Cloudera Manager se jgħaqqad permezz SSH mas-servers tiegħek. Punt interessanti: meta tinstalla, huwa aħjar li tispeċifika li titwettaq mill-hekk imsejjaħ il-pastilli: pakketti speċjali, li kull wieħed minnhom fih il-komponenti kollha meħtieġa kkonfigurati biex jaħdmu ma 'xulxin. Essenzjalment din hija verżjoni mtejba tal-maniġer tal-pakketti.

Wara l-installazzjoni, nirċievu console ta 'ġestjoni tal-clusters, fejn tista' tara t-telemetrija tal-clusters, servizzi installati, kif ukoll tista 'żżid/tneħħi riżorsi u teditja l-konfigurazzjoni tal-cluster.

X'hemm speċjali dwar Cloudera u kif tippreparaha

Bħala riżultat, il-kabina tar-rokit li se tieħdok fil-futur sabiħ ta 'BigData tidher quddiemek. Imma qabel ngħidu "ejja mmorru," ejja nimxu taħt il-barnuża.

Rekwiżiti tal-ħardwer

Fuq il-websajt tagħha, Cloudera ssemmi konfigurazzjonijiet differenti possibbli. Il-prinċipji ġenerali li bihom huma mibnija huma murija fl-illustrazzjoni:

X'hemm speċjali dwar Cloudera u kif tippreparaha
MapReduce jista 'jċċajpar din l-istampa ottimista. Jekk terġa 'tħares lejn id-dijagramma mit-taqsima ta' qabel, jidher ċar li fi kważi l-każijiet kollha, xogħol MapReduce jista 'jiltaqa' ma 'konġestjoni meta jaqra data minn disk jew min-netwerk. Dan huwa nnutat ukoll fil-blog Cloudera. Bħala riżultat, għal kwalunkwe kalkoli veloċi, inkluż permezz ta 'Spark, li spiss jintuża għal kalkoli f'ħin reali, il-veloċità I/O hija importanti ħafna. Għalhekk, meta tuża Hadoop, huwa importanti ħafna li l-cluster jinkludi magni bilanċjati u veloċi, li, biex ngħiduha ħafif, mhux dejjem ikun żgurat fl-infrastruttura tal-cloud.

Bilanċ fid-distribuzzjoni tat-tagħbija jinkiseb permezz tal-użu ta 'virtwalizzazzjoni Openstack fuq servers b'CPUs b'ħafna core b'saħħithom. In-nodi tad-dejta huma allokati r-riżorsi tal-proċessur u d-diski speċifiċi tagħhom stess. Fid-deċiżjoni tagħna Atos Codex Data Lake Engine Jintlaħaq virtwalizzazzjoni wiesgħa, u huwa għalhekk li nibbenefikaw kemm f'termini ta 'prestazzjoni (l-impatt tal-infrastruttura tan-netwerk huwa minimizzat) kif ukoll f'TCO (servers fiżiċi żejda huma eliminati).

X'hemm speċjali dwar Cloudera u kif tippreparaha
Meta nużaw is-servers BullSequana S200, ikollna tagħbija uniformi ħafna, nieqsa minn xi konġestjonijiet. Il-konfigurazzjoni minima tinkludi 3 servers BullSequana S200, kull wieħed b'żewġ JBODs, flimkien ma 'S200s addizzjonali li fihom erba' nodi tad-dejta huma konnessi b'mod fakultattiv. Hawn eżempju tat-tagħbija fit-test TeraGen:

X'hemm speċjali dwar Cloudera u kif tippreparaha

Testijiet b'volumi ta 'dejta differenti u valuri ta' replikazzjoni juru l-istess riżultati f'termini ta 'distribuzzjoni tat-tagħbija bejn in-nodi tal-clusters. Hawn taħt hawn grafika tad-distribuzzjoni tal-aċċess għad-disk permezz tat-testijiet tal-prestazzjoni.

X'hemm speċjali dwar Cloudera u kif tippreparaha

Il-kalkoli saru bbażati fuq konfigurazzjoni minima ta’ 3 servers BullSequana S200. Jinkludi 9 nodi tad-dejta u 3 nodi prinċipali, kif ukoll magni virtwali riżervati f'każ ta 'skjerament ta' protezzjoni bbażata fuq OpenStack Virtualization. Riżultat tat-test TeraSort: daqs tal-blokk 512 MB fattur ta 'replikazzjoni ugwali għal tlieta b'encryption huwa 23,1 minuti.

Kif tista’ tiġi estiża s-sistema? Hemm tipi differenti ta' estensjonijiet disponibbli għal Data Lake Engine:

  • Nodi tad-dejta: għal kull 40 TB ta 'spazju użabbli
  • Nodi analitiċi bil-kapaċità li jinstallaw GPU
  • Għażliet oħra skont il-ħtiġijiet tan-negozju (per eżempju, jekk għandek bżonn Kafka u affarijiet simili)

X'hemm speċjali dwar Cloudera u kif tippreparaha

L-Atos Codex Data Lake Engine tinkludi kemm is-servers nfushom kif ukoll softwer installat minn qabel, inkluż kit Cloudera liċenzjat; Hadoop innifsu, OpenStack b'magni virtwali bbażati fuq il-kernel RedHat Enterprise Linux, sistemi ta 'replikazzjoni tad-dejta u backup (inkluż l-użu ta' node ta 'backup u Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine saret l-ewwel soluzzjoni ta 'virtwalizzazzjoni li ġiet iċċertifikata Cloudera.

Jekk inti interessat fid-dettalji, aħna nkunu kuntenti li nwieġbu l-mistoqsijiet tagħna fil-kummenti.

Sors: www.habr.com

Żid kumment