Is-suq għall-kompjuters distribwiti u big data, skond
Għaliex huwa meħtieġ kompjuters distribwiti fin-negozju regolari? Kollox hawnhekk huwa sempliċi u kumpless fl-istess ħin. Sempliċi - għaliex fil-biċċa l-kbira tal-każijiet nagħmlu kalkoli relattivament sempliċi għal kull unità ta 'informazzjoni. Huwa diffiċli għax hemm ħafna informazzjoni bħal din. Ħafna. Bħala konsegwenza, huwa meħtieġ
Wieħed mill-eżempji riċenti: il-katina tal-pizzerija Dodo Pizza
Eżempju ieħor:
Għażla tal-għodda
L-istandard tal-industrija għal dan it-tip ta 'kompjuters huwa Hadoop. Għaliex? Minħabba li Hadoop huwa qafas eċċellenti u dokumentat tajjeb (l-istess Habr jipprovdi ħafna artikli dettaljati dwar dan is-suġġett), li huwa akkumpanjat minn sett sħiħ ta 'utilitajiet u libreriji. Tista' ddaħħal settijiet kbar ta' data kemm strutturata kif ukoll mhux strutturata, u s-sistema nnifisha tqassamha fost is-saħħa tal-kompjuter. Barra minn hekk, dawn l-istess kapaċitajiet jistgħu jiżdiedu jew jiġu diżattivati fi kwalunkwe ħin - dik l-istess skalabbiltà orizzontali fl-azzjoni.
Fl-2017, il-kumpanija ta 'konsulenza influwenti Gartner
Hadoop jistrieħ fuq diversi pilastri, l-aktar notevoli minnhom huma teknoloġiji MapReduce (sistema għad-distribuzzjoni tad-dejta għall-kalkoli bejn is-servers) u s-sistema tal-fajls HDFS. Dan tal-aħħar huwa ddisinjat apposta għall-ħażna ta 'informazzjoni mqassma bejn nodi ta' cluster: kull blokka ta 'daqs fiss tista' titqiegħed fuq diversi nodi, u grazzi għar-replikazzjoni, is-sistema hija reżistenti għal fallimenti ta 'nodi individwali. Minflok tabella tal-fajls, jintuża server speċjali msejjaħ NameNode.
L-illustrazzjoni hawn taħt turi kif jaħdem MapReduce. Fl-ewwel stadju, id-dejta hija maqsuma skont ċertu kriterju, fit-tieni stadju hija mqassma skont is-saħħa tal-kompjuter, u fit-tielet stadju jseħħ il-kalkolu.
MapReduce inħoloq oriġinarjament minn Google għall-bżonnijiet tat-tiftix tagħha. Imbagħad MapReduce marru kodiċi b'xejn, u Apache ħa f'idejh il-proġett. Ukoll, Google gradwalment emigra għal soluzzjonijiet oħra. Tidbit interessanti: Google bħalissa għandha proġett imsejjaħ Google Cloud Dataflow, pożizzjonat bħala l-pass li jmiss wara Hadoop, bħala sostitut malajr għalih.
Ħarsa aktar mill-qrib turi li Google Cloud Dataflow huwa bbażat fuq varjazzjoni ta 'Apache Beam, filwaqt li Apache Beam jinkludi l-qafas Apache Spark dokumentat tajjeb, li jippermettilna nitkellmu dwar kważi l-istess veloċità ta' eżekuzzjoni ta 'soluzzjonijiet. Ukoll, Apache Spark jaħdem perfettament fuq is-sistema tal-fajls HDFS, li tippermetti li tiġi skjerata fuq is-servers Hadoop.
Żid hawn il-volum ta 'dokumentazzjoni u soluzzjonijiet lesti għal Hadoop u Spark kontra Google Cloud Dataflow, u l-għażla tal-għodda ssir ovvja. Barra minn hekk, l-inġiniera jistgħu jiddeċiedu għalihom infushom liema kodiċi - għal Hadoop jew Spark - għandhom imexxu, jiffokaw fuq il-kompitu, l-esperjenza u l-kwalifiki.
Cloud jew server lokali
It-tendenza lejn tranżizzjoni ġenerali lejn is-sħab saħansitra tat lok għal terminu interessanti bħal Hadoop-as-a-service. F'xenarju bħal dan, l-amministrazzjoni ta 'servers konnessi saret importanti ħafna. Minħabba li, sfortunatament, minkejja l-popolarità tiegħu, Hadoop pur huwa għodda pjuttost diffiċli biex jiġi kkonfigurat, peress li ħafna jrid isir manwalment. Pereżempju, ikkonfigura s-servers individwalment, timmonitorja l-prestazzjoni tagħhom, u kkonfigura ħafna parametri bir-reqqa. B'mod ġenerali, ix-xogħol huwa għal dilettant u hemm ċans kbir li tħawwad xi mkien jew titlef xi ħaġa.
Għalhekk, diversi kits ta 'distribuzzjoni, li inizjalment huma mgħammra b'għodod konvenjenti ta' skjerament u amministrazzjoni, saru popolari ħafna. Waħda mill-aktar distribuzzjonijiet popolari li tappoġġja Spark u tagħmel kollox faċli hija Cloudera. Għandha kemm verżjonijiet imħallsa kif ukoll b'xejn - u f'dawn tal-aħħar il-funzjonalità bażika kollha hija disponibbli, mingħajr ma tillimita n-numru ta 'nodi.
Waqt is-setup, Cloudera Manager se jgħaqqad permezz SSH mas-servers tiegħek. Punt interessanti: meta tinstalla, huwa aħjar li tispeċifika li titwettaq mill-hekk imsejjaħ il-pastilli: pakketti speċjali, li kull wieħed minnhom fih il-komponenti kollha meħtieġa kkonfigurati biex jaħdmu ma 'xulxin. Essenzjalment din hija verżjoni mtejba tal-maniġer tal-pakketti.
Wara l-installazzjoni, nirċievu console ta 'ġestjoni tal-clusters, fejn tista' tara t-telemetrija tal-clusters, servizzi installati, kif ukoll tista 'żżid/tneħħi riżorsi u teditja l-konfigurazzjoni tal-cluster.
Bħala riżultat, il-kabina tar-rokit li se tieħdok fil-futur sabiħ ta 'BigData tidher quddiemek. Imma qabel ngħidu "ejja mmorru," ejja nimxu taħt il-barnuża.
Rekwiżiti tal-ħardwer
Fuq il-websajt tagħha, Cloudera ssemmi konfigurazzjonijiet differenti possibbli. Il-prinċipji ġenerali li bihom huma mibnija huma murija fl-illustrazzjoni:
MapReduce jista 'jċċajpar din l-istampa ottimista. Jekk terġa 'tħares lejn id-dijagramma mit-taqsima ta' qabel, jidher ċar li fi kważi l-każijiet kollha, xogħol MapReduce jista 'jiltaqa' ma 'konġestjoni meta jaqra data minn disk jew min-netwerk. Dan huwa nnutat ukoll fil-blog Cloudera. Bħala riżultat, għal kwalunkwe kalkoli veloċi, inkluż permezz ta 'Spark, li spiss jintuża għal kalkoli f'ħin reali, il-veloċità I/O hija importanti ħafna. Għalhekk, meta tuża Hadoop, huwa importanti ħafna li l-cluster jinkludi magni bilanċjati u veloċi, li, biex ngħiduha ħafif, mhux dejjem ikun żgurat fl-infrastruttura tal-cloud.
Bilanċ fid-distribuzzjoni tat-tagħbija jinkiseb permezz tal-użu ta 'virtwalizzazzjoni Openstack fuq servers b'CPUs b'ħafna core b'saħħithom. In-nodi tad-dejta huma allokati r-riżorsi tal-proċessur u d-diski speċifiċi tagħhom stess. Fid-deċiżjoni tagħna Atos Codex Data Lake Engine Jintlaħaq virtwalizzazzjoni wiesgħa, u huwa għalhekk li nibbenefikaw kemm f'termini ta 'prestazzjoni (l-impatt tal-infrastruttura tan-netwerk huwa minimizzat) kif ukoll f'TCO (servers fiżiċi żejda huma eliminati).
Meta nużaw is-servers BullSequana S200, ikollna tagħbija uniformi ħafna, nieqsa minn xi konġestjonijiet. Il-konfigurazzjoni minima tinkludi 3 servers BullSequana S200, kull wieħed b'żewġ JBODs, flimkien ma 'S200s addizzjonali li fihom erba' nodi tad-dejta huma konnessi b'mod fakultattiv. Hawn eżempju tat-tagħbija fit-test TeraGen:
Testijiet b'volumi ta 'dejta differenti u valuri ta' replikazzjoni juru l-istess riżultati f'termini ta 'distribuzzjoni tat-tagħbija bejn in-nodi tal-clusters. Hawn taħt hawn grafika tad-distribuzzjoni tal-aċċess għad-disk permezz tat-testijiet tal-prestazzjoni.
Il-kalkoli saru bbażati fuq konfigurazzjoni minima ta’ 3 servers BullSequana S200. Jinkludi 9 nodi tad-dejta u 3 nodi prinċipali, kif ukoll magni virtwali riżervati f'każ ta 'skjerament ta' protezzjoni bbażata fuq OpenStack Virtualization. Riżultat tat-test TeraSort: daqs tal-blokk 512 MB fattur ta 'replikazzjoni ugwali għal tlieta b'encryption huwa 23,1 minuti.
Kif tista’ tiġi estiża s-sistema? Hemm tipi differenti ta' estensjonijiet disponibbli għal Data Lake Engine:
- Nodi tad-dejta: għal kull 40 TB ta 'spazju użabbli
- Nodi analitiċi bil-kapaċità li jinstallaw GPU
- Għażliet oħra skont il-ħtiġijiet tan-negozju (per eżempju, jekk għandek bżonn Kafka u affarijiet simili)
L-Atos Codex Data Lake Engine tinkludi kemm is-servers nfushom kif ukoll softwer installat minn qabel, inkluż kit Cloudera liċenzjat; Hadoop innifsu, OpenStack b'magni virtwali bbażati fuq il-kernel RedHat Enterprise Linux, sistemi ta 'replikazzjoni tad-dejta u backup (inkluż l-użu ta' node ta 'backup u Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine saret l-ewwel soluzzjoni ta 'virtwalizzazzjoni li ġiet iċċertifikata
Jekk inti interessat fid-dettalji, aħna nkunu kuntenti li nwieġbu l-mistoqsijiet tagħna fil-kummenti.
Sors: www.habr.com