Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Markaðurinn fyrir dreifða tölvumál og stór gögn, skv tölfræði, er að vaxa um 18-19% á ári. Þetta þýðir að spurningin um að velja hugbúnað í þessum tilgangi er áfram viðeigandi. Í þessari færslu munum við byrja á því hvers vegna dreifð tölvumál er þörf, farið nánar út í val á hugbúnaði, talað um notkun Hadoop með Cloudera og að lokum talað um val á vélbúnaði og hvernig það hefur áhrif á frammistöðu á mismunandi vegu.

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það
Hvers vegna er þörf á dreifðri tölvunotkun í venjulegum viðskiptum? Hér er allt einfalt og flókið á sama tíma. Einfalt - vegna þess að í flestum tilfellum framkvæmum við tiltölulega einfalda útreikninga á hverja upplýsingaeiningu. Það er erfitt vegna þess að það er mikið af slíkum upplýsingum. Svo margir. Þar af leiðandi er það nauðsynlegt vinna terabæta af gögnum í 1000 þræði. Notkunartilvikin eru því nokkuð alhliða: hægt er að nota útreikninga hvar sem nauðsynlegt er að taka tillit til fjölda mælikvarða á enn stærra gagnamagni.

Eitt af nýlegum dæmum: Pizzeriakeðjan Dodo Pizza ákveðin byggt á greiningu á pöntunargagnagrunni viðskiptavina, að þegar þeir velja pizzu með tilviljunarkenndu áleggi, þá vinna notendur venjulega aðeins með sex grunnsett af hráefnum auk nokkurra handahófs. Í samræmi við þetta lagfærði pítsustaðurinn innkaup sín. Auk þess gat hún mælt betur með viðbótarvörum sem notendum var boðið upp á á pöntunarstigi, sem jók hagnaðinn.

Annað dæmi: greining Vöruvörur gerðu H&M versluninni kleift að minnka úrval í einstökum verslunum um 40% á sama tíma og sölustigi var haldið áfram. Það náðist með því að útiloka illa selda hluti og var tekið tillit til árstíðarsveiflu í útreikningum.

Verkfæraval

Iðnaðarstaðallinn fyrir þessa tegund af tölvum er Hadoop. Hvers vegna? Vegna þess að Hadoop er frábært, vel skjalfest rammi (sami Habr veitir margar ítarlegar greinar um þetta efni), sem fylgir heilu safni tóla og bókasöfnum. Þú getur sett inn gríðarstór sett af bæði skipulögðum og óskipulögðum gögnum og kerfið sjálft mun dreifa þeim á milli tölvuaflsins. Þar að auki er hægt að auka eða óvirkja þessa sömu getu hvenær sem er - sama lárétta sveigjanleiki í aðgerð.

Árið 2017, hið áhrifamikla ráðgjafafyrirtæki Gartner laukað Hadoop verði bráðum úrelt. Ástæðan er frekar banal: Sérfræðingar telja að fyrirtæki muni flytjast í massavís yfir í skýið, þar sem þau munu geta borgað þar sem þau nota tölvuafl. Annar mikilvægi þátturinn sem getur talið „grafa“ Hadoop er hraði hans. Vegna þess að valkostir eins og Apache Spark eða Google Cloud DataFlow eru hraðari en MapReduce, sem liggur til grundvallar Hadoop.

Hadoop hvílir á nokkrum stoðum, þar sem mest áberandi er MapReduce tæknin (kerfi til að dreifa gögnum fyrir útreikninga á milli netþjóna) og HDFS skráarkerfið. Hið síðarnefnda er sérstaklega hannað til að geyma upplýsingar sem dreift er á milli klasahnúta: hverja blokk af fastri stærð er hægt að setja á nokkra hnúta og þökk sé afritun er kerfið þola bilanir einstakra hnúta. Í stað skráatöflu er sérstakur þjónn sem heitir NameNode notaður.

Myndin hér að neðan sýnir hvernig MapReduce virkar. Á fyrsta stigi er gögnunum skipt eftir ákveðnu viðmiði, á öðru stigi er þeim dreift eftir tölvugetu og á þriðja stigi fer útreikningurinn fram.

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það
MapReduce var upphaflega búið til af Google fyrir leitarþarfir þess. Síðan fór MapReduce ókeypis kóða og Apache tók við verkefninu. Jæja, Google flutti smám saman yfir í aðrar lausnir. Áhugavert smáatriði: Google er eins og er með verkefni sem kallast Google Cloud Dataflow, staðsett sem næsta skref á eftir Hadoop, sem fljótlegan staðgengill fyrir það.

Nánari skoðun sýnir að Google Cloud Dataflow er byggt á afbrigði af Apache Beam, en Apache Beam inniheldur vel skjalfesta Apache Spark rammann, sem gerir okkur kleift að tala um næstum sama hraða lausna. Jæja, Apache Spark virkar fullkomlega á HDFS skráarkerfinu, sem gerir það kleift að dreifa því á Hadoop netþjónum.

Bættu hér við magni skjala og tilbúnum lausnum fyrir Hadoop og Spark á móti Google Cloud Dataflow og val á tóli verður augljóst. Þar að auki geta verkfræðingar ákveðið sjálfir hvaða kóða - fyrir Hadoop eða Spark - þeir ættu að keyra, með áherslu á verkefnið, reynslu og hæfi.

Cloud eða staðbundinn netþjónn

Þróunin í átt að almennri umskipti yfir í skýið hefur jafnvel gefið tilefni til jafn áhugaverðs hugtaks eins og Hadoop-as-a-service. Í slíkri atburðarás varð stjórnun tengdra netþjóna mjög mikilvæg. Vegna þess, því miður, þrátt fyrir vinsældir þess, er hreint Hadoop frekar erfitt tól til að stilla, þar sem mikið þarf að gera handvirkt. Til dæmis skaltu stilla netþjóna fyrir sig, fylgjast með frammistöðu þeirra og stilla vandlega margar breytur. Almennt er vinnan fyrir áhugamann og miklar líkur eru á að einhvers staðar klúðri eða vanti eitthvað.

Þess vegna hafa ýmsir dreifingarsettir, sem upphaflega eru búnir þægilegum dreifingar- og stjórnunarverkfærum, orðið mjög vinsælir. Ein vinsælasta dreifingin sem styður Spark og gerir allt auðvelt er Cloudera. Það hefur bæði greiddar og ókeypis útgáfur - og í þeirri síðarnefndu er öll grunnvirkni í boði, án þess að takmarka fjölda hnúta.

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Meðan á uppsetningu stendur mun Cloudera Manager tengjast netþjónunum þínum í gegnum SSH. Áhugavert atriði: þegar þú setur upp er betra að tilgreina að það sé framkvæmt af svokölluðu steinseljur: sérstakir pakkar, sem hver um sig inniheldur alla nauðsynlega íhluti sem eru stilltir til að vinna saman. Í meginatriðum er þetta endurbætt útgáfa af pakkastjóranum.

Eftir uppsetningu fáum við klasastjórnunartölvu, þar sem þú getur séð klasafjarmælingar, uppsetta þjónustu, auk þess sem þú getur bætt við/fjarlægt tilföng og breytt klasastillingunum.

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Fyrir vikið birtist skála eldflaugarinnar sem mun fara með þig inn í bjarta framtíð BigData fyrir framan þig. En áður en við segjum „við skulum fara,“ skulum við færa okkur undir hettuna.

Kröfur um vélbúnað

Á vefsíðu sinni nefnir Cloudera mismunandi mögulegar stillingar. Almennu meginreglurnar sem þær eru byggðar eftir eru sýndar á myndinni:

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það
MapReduce getur gert þessa bjartsýnu mynd óljós. Ef þú skoðar aftur skýringarmyndina frá fyrri hlutanum kemur í ljós að í nánast öllum tilfellum getur MapReduce starf lent í flöskuhálsi við lestur gagna af diski eða af netinu. Þetta er einnig tekið fram í Cloudera blogginu. Þess vegna er I/O hraði mjög mikilvægur fyrir alla hraða útreikninga, þar á meðal í gegnum Spark, sem oft er notaður fyrir rauntíma útreikninga. Því þegar Hadoop er notað er mjög mikilvægt að þyrpingin innihaldi yfirvegaðar og hraðvirkar vélar, sem vægast sagt er ekki alltaf tryggt í skýjainnviðum.

Jafnvægi í álagsdreifingu næst með því að nota Openstack sýndarvæðingu á netþjónum með öflugum fjölkjarna örgjörva. Gagnahnútum er úthlutað eigin örgjörvaauðlindum og sérstökum diskum. Í ákvörðun okkar Atos Codex Data Lake vél Víðtæk sýndarvæðing næst, sem er ástæðan fyrir því að við hagnast bæði hvað varðar frammistöðu (áhrif netkerfisins eru lágmarkuð) og í TCO (auka líkamlegir netþjónar eru eytt).

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það
Þegar við notum BullSequana S200 netþjóna fáum við mjög einsleitt álag, laust við nokkra flöskuhálsa. Lágmarksstillingin inniheldur 3 BullSequana S200 netþjóna, hver með tveimur JBOD, auk viðbótar S200 sem innihalda fjóra gagnahnúta eru valfrjálst tengdir. Hér er dæmi um álagið í TeraGen prófinu:

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Próf með mismunandi gagnamagni og afritunargildum sýna sömu niðurstöður hvað varðar álagsdreifingu milli klasahnúta. Hér að neðan er graf yfir dreifingu diskaaðgangs eftir frammistöðuprófum.

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Útreikningar voru gerðir út frá lágmarksstillingu 3 BullSequana S200 netþjóna. Það felur í sér 9 gagnahnúta og 3 aðalhnúta, auk frátekinna sýndarvéla ef um er að ræða dreifingu verndar sem byggir á OpenStack sýndarvæðingu. TeraSort prófunarniðurstaða: blokkastærð 512 MB afritunarstuðull sem jafngildir þremur með dulkóðun er 23,1 mínútur.

Hvernig er hægt að stækka kerfið? Það eru mismunandi gerðir af viðbótum í boði fyrir Data Lake Engine:

  • Gagnahnútar: fyrir hverja 40 TB af nothæfu plássi
  • Greiningarhnútar með getu til að setja upp GPU
  • Aðrir valkostir eftir viðskiptaþörfum (til dæmis ef þú þarft Kafka og þess háttar)

Hvað er sérstakt við Cloudera og hvernig á að undirbúa það

Atos Codex Data Lake Engine inniheldur bæði netþjónana sjálfa og fyrirfram uppsettan hugbúnað, þar á meðal með leyfi Cloudera Kit; Hadoop sjálft, OpenStack með sýndarvélum byggðar á RedHat Enterprise Linux kjarnanum, gagnaafritunar- og öryggisafritunarkerfum (þar á meðal að nota öryggisafritshnút og Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine varð fyrsta sýndarvæðingarlausnin til að hljóta vottun Cloudera.

Ef þú hefur áhuga á smáatriðum munum við vera fús til að svara spurningum okkar í athugasemdunum.

Heimild: www.habr.com

Bæta við athugasemd