Markaðurinn fyrir dreifða tölvumál og stór gögn, skv
Hvers vegna er þörf á dreifðri tölvunotkun í venjulegum viðskiptum? Hér er allt einfalt og flókið á sama tíma. Einfalt - vegna þess að í flestum tilfellum framkvæmum við tiltölulega einfalda útreikninga á hverja upplýsingaeiningu. Það er erfitt vegna þess að það er mikið af slíkum upplýsingum. Svo margir. Þar af leiðandi er það nauðsynlegt
Eitt af nýlegum dæmum: Pizzeriakeðjan Dodo Pizza
Annað dæmi:
Verkfæraval
Iðnaðarstaðallinn fyrir þessa tegund af tölvum er Hadoop. Hvers vegna? Vegna þess að Hadoop er frábært, vel skjalfest rammi (sami Habr veitir margar ítarlegar greinar um þetta efni), sem fylgir heilu safni tóla og bókasöfnum. Þú getur sett inn gríðarstór sett af bæði skipulögðum og óskipulögðum gögnum og kerfið sjálft mun dreifa þeim á milli tölvuaflsins. Þar að auki er hægt að auka eða óvirkja þessa sömu getu hvenær sem er - sama lárétta sveigjanleiki í aðgerð.
Árið 2017, hið áhrifamikla ráðgjafafyrirtæki Gartner
Hadoop hvílir á nokkrum stoðum, þar sem mest áberandi er MapReduce tæknin (kerfi til að dreifa gögnum fyrir útreikninga á milli netþjóna) og HDFS skráarkerfið. Hið síðarnefnda er sérstaklega hannað til að geyma upplýsingar sem dreift er á milli klasahnúta: hverja blokk af fastri stærð er hægt að setja á nokkra hnúta og þökk sé afritun er kerfið þola bilanir einstakra hnúta. Í stað skráatöflu er sérstakur þjónn sem heitir NameNode notaður.
Myndin hér að neðan sýnir hvernig MapReduce virkar. Á fyrsta stigi er gögnunum skipt eftir ákveðnu viðmiði, á öðru stigi er þeim dreift eftir tölvugetu og á þriðja stigi fer útreikningurinn fram.
MapReduce var upphaflega búið til af Google fyrir leitarþarfir þess. Síðan fór MapReduce ókeypis kóða og Apache tók við verkefninu. Jæja, Google flutti smám saman yfir í aðrar lausnir. Áhugavert smáatriði: Google er eins og er með verkefni sem kallast Google Cloud Dataflow, staðsett sem næsta skref á eftir Hadoop, sem fljótlegan staðgengill fyrir það.
Nánari skoðun sýnir að Google Cloud Dataflow er byggt á afbrigði af Apache Beam, en Apache Beam inniheldur vel skjalfesta Apache Spark rammann, sem gerir okkur kleift að tala um næstum sama hraða lausna. Jæja, Apache Spark virkar fullkomlega á HDFS skráarkerfinu, sem gerir það kleift að dreifa því á Hadoop netþjónum.
Bættu hér við magni skjala og tilbúnum lausnum fyrir Hadoop og Spark á móti Google Cloud Dataflow og val á tóli verður augljóst. Þar að auki geta verkfræðingar ákveðið sjálfir hvaða kóða - fyrir Hadoop eða Spark - þeir ættu að keyra, með áherslu á verkefnið, reynslu og hæfi.
Cloud eða staðbundinn netþjónn
Þróunin í átt að almennri umskipti yfir í skýið hefur jafnvel gefið tilefni til jafn áhugaverðs hugtaks eins og Hadoop-as-a-service. Í slíkri atburðarás varð stjórnun tengdra netþjóna mjög mikilvæg. Vegna þess, því miður, þrátt fyrir vinsældir þess, er hreint Hadoop frekar erfitt tól til að stilla, þar sem mikið þarf að gera handvirkt. Til dæmis skaltu stilla netþjóna fyrir sig, fylgjast með frammistöðu þeirra og stilla vandlega margar breytur. Almennt er vinnan fyrir áhugamann og miklar líkur eru á að einhvers staðar klúðri eða vanti eitthvað.
Þess vegna hafa ýmsir dreifingarsettir, sem upphaflega eru búnir þægilegum dreifingar- og stjórnunarverkfærum, orðið mjög vinsælir. Ein vinsælasta dreifingin sem styður Spark og gerir allt auðvelt er Cloudera. Það hefur bæði greiddar og ókeypis útgáfur - og í þeirri síðarnefndu er öll grunnvirkni í boði, án þess að takmarka fjölda hnúta.
Meðan á uppsetningu stendur mun Cloudera Manager tengjast netþjónunum þínum í gegnum SSH. Áhugavert atriði: þegar þú setur upp er betra að tilgreina að það sé framkvæmt af svokölluðu steinseljur: sérstakir pakkar, sem hver um sig inniheldur alla nauðsynlega íhluti sem eru stilltir til að vinna saman. Í meginatriðum er þetta endurbætt útgáfa af pakkastjóranum.
Eftir uppsetningu fáum við klasastjórnunartölvu, þar sem þú getur séð klasafjarmælingar, uppsetta þjónustu, auk þess sem þú getur bætt við/fjarlægt tilföng og breytt klasastillingunum.
Fyrir vikið birtist skála eldflaugarinnar sem mun fara með þig inn í bjarta framtíð BigData fyrir framan þig. En áður en við segjum „við skulum fara,“ skulum við færa okkur undir hettuna.
Kröfur um vélbúnað
Á vefsíðu sinni nefnir Cloudera mismunandi mögulegar stillingar. Almennu meginreglurnar sem þær eru byggðar eftir eru sýndar á myndinni:
MapReduce getur gert þessa bjartsýnu mynd óljós. Ef þú skoðar aftur skýringarmyndina frá fyrri hlutanum kemur í ljós að í nánast öllum tilfellum getur MapReduce starf lent í flöskuhálsi við lestur gagna af diski eða af netinu. Þetta er einnig tekið fram í Cloudera blogginu. Þess vegna er I/O hraði mjög mikilvægur fyrir alla hraða útreikninga, þar á meðal í gegnum Spark, sem oft er notaður fyrir rauntíma útreikninga. Því þegar Hadoop er notað er mjög mikilvægt að þyrpingin innihaldi yfirvegaðar og hraðvirkar vélar, sem vægast sagt er ekki alltaf tryggt í skýjainnviðum.
Jafnvægi í álagsdreifingu næst með því að nota Openstack sýndarvæðingu á netþjónum með öflugum fjölkjarna örgjörva. Gagnahnútum er úthlutað eigin örgjörvaauðlindum og sérstökum diskum. Í ákvörðun okkar Atos Codex Data Lake vél Víðtæk sýndarvæðing næst, sem er ástæðan fyrir því að við hagnast bæði hvað varðar frammistöðu (áhrif netkerfisins eru lágmarkuð) og í TCO (auka líkamlegir netþjónar eru eytt).
Þegar við notum BullSequana S200 netþjóna fáum við mjög einsleitt álag, laust við nokkra flöskuhálsa. Lágmarksstillingin inniheldur 3 BullSequana S200 netþjóna, hver með tveimur JBOD, auk viðbótar S200 sem innihalda fjóra gagnahnúta eru valfrjálst tengdir. Hér er dæmi um álagið í TeraGen prófinu:
Próf með mismunandi gagnamagni og afritunargildum sýna sömu niðurstöður hvað varðar álagsdreifingu milli klasahnúta. Hér að neðan er graf yfir dreifingu diskaaðgangs eftir frammistöðuprófum.
Útreikningar voru gerðir út frá lágmarksstillingu 3 BullSequana S200 netþjóna. Það felur í sér 9 gagnahnúta og 3 aðalhnúta, auk frátekinna sýndarvéla ef um er að ræða dreifingu verndar sem byggir á OpenStack sýndarvæðingu. TeraSort prófunarniðurstaða: blokkastærð 512 MB afritunarstuðull sem jafngildir þremur með dulkóðun er 23,1 mínútur.
Hvernig er hægt að stækka kerfið? Það eru mismunandi gerðir af viðbótum í boði fyrir Data Lake Engine:
- Gagnahnútar: fyrir hverja 40 TB af nothæfu plássi
- Greiningarhnútar með getu til að setja upp GPU
- Aðrir valkostir eftir viðskiptaþörfum (til dæmis ef þú þarft Kafka og þess háttar)
Atos Codex Data Lake Engine inniheldur bæði netþjónana sjálfa og fyrirfram uppsettan hugbúnað, þar á meðal með leyfi Cloudera Kit; Hadoop sjálft, OpenStack með sýndarvélum byggðar á RedHat Enterprise Linux kjarnanum, gagnaafritunar- og öryggisafritunarkerfum (þar á meðal að nota öryggisafritshnút og Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine varð fyrsta sýndarvæðingarlausnin til að hljóta vottun
Ef þú hefur áhuga á smáatriðum munum við vera fús til að svara spurningum okkar í athugasemdunum.
Heimild: www.habr.com