Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

An margadh le haghaidh ríomhaireachta dáilte agus sonraí móra, de réir staitisticí, ag fás ag 18-19% in aghaidh na bliana. Ciallaíonn sé seo go bhfuil an cheist maidir le bogearraí a roghnú chun na gcríoch seo fós ábhartha. Sa phost seo, cuirfimid tús le cén fáth a bhfuil gá le ríomhaireacht dháilte, déan níos mó sonraí faoi roghnú bogearraí, labhair faoi Hadoop a úsáid ag baint úsáide as Cloudera, agus ar deireadh labhair faoi roghnú crua-earraí agus conas a théann sé i bhfeidhm ar fheidhmíocht ar bhealaí éagsúla.

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht
Cén fáth a bhfuil gá le ríomhaireacht dáilte i ngnó rialta? Tá gach rud anseo simplí agus casta ag an am céanna. Simplí - mar i bhformhór na gcásanna déanaimid ríomhaireachtaí réasúnta simplí in aghaidh an aonaid faisnéise. Tá sé deacair mar tá go leor faisnéise den sórt sin ann. An oiread sin. Mar thoradh air sin, tá sé riachtanach próiseáil terabytes sonraí i 1000 snáitheanna. Mar sin, tá na cásanna úsáide uilíoch go leor: is féidir ríomhanna a úsáid nuair is gá chun líon mór méadrachta a chur san áireamh ar raon níos mó fós de shonraí.

Ceann de na samplaí le déanaí: an slabhra pizzeria Dodo Pizza sainithe bunaithe ar anailís ar an mbunachar sonraí orduithe custaiméara, nuair a roghnaíonn siad pizza le bearrtha randamach, is gnách go n-oibríonn úsáideoirí gan ach sé shraith bhunúsacha de chomhábhair móide cúpla cinn randamach. De réir seo, choigeartaigh an pizzeria a cheannacháin. Ina theannta sin, bhí sí in ann táirgí breise a thairgtear d'úsáideoirí a mholadh níos fearr le linn na céime ordaithe, rud a mhéadaigh brabúis.

Sampla eile: анализ Cheadaigh earraí táirgí don siopa H&M an éagsúlacht i siopaí aonair a laghdú 40%, agus leibhéil díolacháin á gcoinneáil ag an am céanna. Baineadh é seo amach trí earraí a dhíol go dona a eisiamh, agus cuireadh séasúracht san áireamh sna ríomhanna.

Roghnú uirlisí

Is é Hadoop an caighdeán tionscail don chineál seo ríomhaireachta. Cén fáth? Toisc gur creat sármhaith, dea-dhoiciméadaithe é Hadoop (soláthraítear go leor alt mionsonraithe ar an ábhar seo mar gheall ar an Habr céanna), a bhfuil sraith iomlán fóntais agus leabharlann ag gabháil leis. Is féidir leat tacair ollmhóra de shonraí struchtúrtha agus neamhstruchtúrtha araon a ionchur, agus déanfaidh an córas féin é a dháileadh i measc na cumhachta ríomhaireachta. Ina theannta sin, is féidir na cumais chéanna seo a mhéadú nó a dhíchumasú ag am ar bith - an inscálaitheacht chothrománach chéanna sin i ngníomh.

In 2017, rinne an chuideachta chomhairliúcháin tionchar Gartner i gcríchgo mbeidh Hadoop imithe i léig go luath. Is é an chúis go leor banal: anailísithe a chreidiúint, go mbeidh cuideachtaí imirce en masse go dtí an scamall, ós rud é go mbeidh siad in ann íoc mar a úsáideann siad cumhacht ríomhaireachta. Is é an dara fachtóir tábhachtach ar féidir a “adhlacadh” Hadoop de réir mar a luas. Toisc go bhfuil roghanna cosúil le Apache Spark nó Google Cloud DataFlow níos tapúla ná MapReduce, atá mar bhunús le Hadoop.

Tá Hadoop ag brath ar roinnt piléir, agus is iad na cinn is suntasaí ná teicneolaíochtaí MapReduce (córas chun sonraí a dháileadh le haghaidh ríomhanna idir freastalaithe) agus an córas comhaid HDFS. Tá an dara ceann deartha go speisialta chun faisnéis a dháileadh idir nóid bhraisle a stóráil: is féidir gach bloc de mhéid seasta a chur ar roinnt nóid, agus a bhuíochas le macasamhlú, tá an córas athléimneach i gcoinne teipeanna nóid aonair. In ionad tábla comhaid, úsáidtear freastalaí speisialta ar a dtugtar NameNode.

Léiríonn an léaráid thíos conas a oibríonn MapReduce. Ag an gcéad chéim, roinntear na sonraí de réir critéar áirithe, ag an dara céim déantar é a dháileadh de réir cumhachta ríomhaireachta, agus ag an tríú céim déantar an ríomh.

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht
Chruthaigh Google MapReduce ar dtús dá riachtanais chuardaigh. Ansin chuaigh MapReduce cód saor in aisce, agus ghlac Apache an tionscadal ar láimh. Bhuel, d'aistrigh Google go réitigh eile de réir a chéile. Tidbit suimiúil: tá tionscadal ar a dtugtar Google Cloud Dataflow ag Google faoi láthair, atá suite mar an chéad chéim eile tar éis Hadoop, mar athsholáthar tapa air.

Léiríonn breathnú níos dlúithe go bhfuil Google Cloud Dataflow bunaithe ar éagsúlacht de Apache Beam, agus cuimsíonn Apache Beam creat Apache Spark dea-dhoiciméadaithe, rud a ligeann dúinn labhairt faoi luas forghníomhaithe réitigh beagnach mar an gcéanna. Bhuel, oibríonn Apache Spark go foirfe ar chóras comhaid HDFS, rud a cheadaíonn é a imscaradh ar fhreastalaithe Hadoop.

Cuir anseo líon na ndoiciméad agus na réitigh réamhdhéanta le haghaidh Hadoop agus Spark i gcoinne Google Cloud Dataflow, agus éiríonn an rogha uirlis soiléir. Ina theannta sin, is féidir le hinnealtóirí cinneadh a dhéanamh dóibh féin cén cód - le haghaidh Hadoop nó Spark - ba chóir dóibh a rith, ag díriú ar an tasc, an taithí agus na cáilíochtaí.

Scamall nó freastalaí áitiúil

Tá an treocht i dtreo aistriú ginearálta go dtí an scamall tar éis fiú téarma chomh suimiúil mar Hadoop-mar-a-seirbhíse. I gcás den sórt sin, bhí riarachán na bhfreastalaithe ceangailte an-tábhachtach. Mar gheall ar, faraor, in ainneoin go bhfuil an-tóir air, is uirlis sách deacair é Hadoop íon a chumrú, mar ní mór go leor a dhéanamh de láimh. Mar shampla, freastalaithe a chumrú ina n-aonar, monatóireacht a dhéanamh ar a bhfeidhmíocht, agus go leor paraiméadair a chumrú go cúramach. Go ginearálta, is obair amaitéarach atá i gceist agus tá seans mór ann go ndéanfaidh tú praiseach de áit éigin nó go gcaillfidh tú rud éigin.

Dá bhrí sin, tá an-tóir ar fheisteáin dáileacháin éagsúla, atá feistithe ar dtús le huirlisí áisiúla imlonnaithe agus riaracháin. Is é ceann de na dáiltí is mó tóir a thacaíonn le Spark agus a dhéanann gach rud éasca ná Cloudera. Tá an dá leagan íoctha agus saor in aisce aige - agus sa dara ceann tá gach feidhmiúlacht bhunúsach ar fáil, gan teorainn a chur le líon na nóid.

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

Le linn an tsocraithe, nascfaidh Cloudera Manager trí SSH le do fhreastalaithe. Pointe suimiúil: nuair a shuiteáil, tá sé níos fearr a shonrú go bhfuil sé a chur i gcrích ag an mar a thugtar air peirsil: pacáistí speisialta, a bhfuil na comhpháirteanna uile is gá i ngach ceann acu atá cumraithe chun oibriú lena chéile. Go bunúsach is leagan feabhsaithe é seo den bhainisteoir pacáiste.

Tar éis é a shuiteáil, faighimid consól bainistíochta braisle, áit ar féidir leat braisle teiliméadrachta, seirbhísí suiteáilte a fheiceáil, agus is féidir leat acmhainní a chur leis / a bhaint agus cumraíocht an bhraisle a chur in eagar.

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

Mar thoradh air sin, tá cábáin na roicéad a thabharfaidh isteach sa todhchaí geal BigData le feiceáil os do chomhair. Ach sula ndeirimid "téimid," bogaimis faoin gcochall.

Riachtanais crua-earraí

Ar a láithreán gréasáin, luann Cloudera cumraíochtaí éagsúla féideartha. Tá na prionsabail ghinearálta faoina dtógtar iad léirithe sa léaráid:

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht
Is féidir le MapReduce an pictiúr dóchasach seo a gheamhú. Má fhéachann tú arís ar an léaráid ón alt roimhe seo, beidh sé soiléir, i mbeagnach gach cás, go bhféadfadh bac a bheith ag post MapReduce agus sonraí á léamh ó dhiosca nó ón líonra. Tugtar faoi deara é seo freisin sa bhlag Cloudera. Mar thoradh air sin, le haghaidh ríomhanna tapa ar bith, lena n-áirítear trí Spark, a úsáidtear go minic le haghaidh ríomhanna fíor-ama, tá luas I/O an-tábhachtach. Dá bhrí sin, nuair a bhíonn Hadoop á úsáid, tá sé an-tábhachtach go n-áirítear meaisíní cothromaithe agus tapa sa bhraisle, rud nach n-áirithítear i gcónaí sa bhonneagar scamall chun é a chur go bog.

Baintear cothromaíocht amach sa dáileadh ualaigh trí úsáid a bhaint as fíorúlú Openstack ar fhreastalaithe le CPUanna illárnacha cumhachtacha. Leithdháiltear a n-acmhainní próiseálaí féin agus dioscaí sonracha ar nóid sonraí. Inár gcinneadh Inneall Loch Sonraí Atos Codex Baintear fíorúlú leathan amach, agus is é sin an fáth a mbainimid tairbhe as i dtéarmaí feidhmíochta (íoslaghdaítear tionchar an bhonneagair líonra) agus in TCO (cuirtear deireadh le freastalaithe fisiceacha breise).

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht
Nuair a bhíonn freastalaithe BullSequana S200 á n-úsáid againn, faigheann muid ualach an-aonfhoirmeach, gan roinnt scrogaill. Áirítear leis an gcumraíocht íosta 3 fhreastalaí BullSequana S200, gach ceann acu le dhá JBOD, chomh maith le S200s breise ina bhfuil ceithre nód sonraí ceangailte go roghnach. Seo sampla den ualach sa tástáil TeraGen:

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

Léiríonn tástálacha le méideanna sonraí éagsúla agus luachanna macasamhlaithe na torthaí céanna i dtéarmaí dáileadh ualaigh idir nóid bhraisle. Seo thíos graf de dháileadh na rochtana diosca de réir tástálacha feidhmíochta.

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

Rinneadh ríomhanna bunaithe ar chumraíocht íosta de 3 fhreastalaí BullSequana S200. Áiríonn sé 9 nód sonraí agus 3 nód máistir, chomh maith le meaisíní fíorúla forchoimeádta i gcás imscaradh cosanta bunaithe ar OpenStack Virtualization. Toradh tástála TeraSort: méid an bhloic 512 MB fachtóir macasamhlaithe cothrom le trí cinn le criptiú 23,1 nóiméad.

Conas is féidir an córas a leathnú? Tá cineálacha éagsúla síntí ar fáil le haghaidh Data Lake Engine:

  • Nóid sonraí: in aghaidh gach 40 TB de spás inúsáidte
  • Nóid anailíseacha leis an gcumas GPU a shuiteáil
  • Roghanna eile ag brath ar riachtanais ghnó (mar shampla, má theastaíonn Kafka agus a leithéidí uait)

Cad atá speisialta faoi Cloudera agus conas é a chócaireacht

Áiríonn Inneall Loch Sonraí Atos Codex na freastalaithe iad féin agus bogearraí réamhshuiteáilte, lena n-áirítear trealamh ceadúnaithe Cloudera; Hadoop féin, OpenStack le meaisíní fíorúla bunaithe ar an eithne RedHat Enterprise Linux, macasamhlú sonraí agus córais cúltaca (lena n-áirítear úsáid a bhaint as nód cúltaca agus Cloudera BDR - Cúltaca agus Aisghabháil Tubaiste). Ba é Atos Codex Data Lake Engine an chéad réiteach fíorúlaithe le deimhniú Scamall.

Má tá suim agat i sonraí, beidh áthas orainn ár gceisteanna a fhreagairt sna tuairimí.

Foinse: will.com

Add a comment