An margadh le haghaidh ríomhaireachta dáilte agus sonraí móra, de réir
Cén fáth a bhfuil gá le ríomhaireacht dáilte i ngnó rialta? Tá gach rud anseo simplí agus casta ag an am céanna. Simplí - mar i bhformhór na gcásanna déanaimid ríomhaireachtaí réasúnta simplí in aghaidh an aonaid faisnéise. Tá sé deacair mar tá go leor faisnéise den sórt sin ann. An oiread sin. Mar thoradh air sin, tá sé riachtanach
Ceann de na samplaí le déanaí: an slabhra pizzeria Dodo Pizza
Sampla eile:
Roghnú uirlisí
Is é Hadoop an caighdeán tionscail don chineál seo ríomhaireachta. Cén fáth? Toisc gur creat sármhaith, dea-dhoiciméadaithe é Hadoop (soláthraítear go leor alt mionsonraithe ar an ábhar seo mar gheall ar an Habr céanna), a bhfuil sraith iomlán fóntais agus leabharlann ag gabháil leis. Is féidir leat tacair ollmhóra de shonraí struchtúrtha agus neamhstruchtúrtha araon a ionchur, agus déanfaidh an córas féin é a dháileadh i measc na cumhachta ríomhaireachta. Ina theannta sin, is féidir na cumais chéanna seo a mhéadú nó a dhíchumasú ag am ar bith - an inscálaitheacht chothrománach chéanna sin i ngníomh.
In 2017, rinne an chuideachta chomhairliúcháin tionchar Gartner
Tá Hadoop ag brath ar roinnt piléir, agus is iad na cinn is suntasaí ná teicneolaíochtaí MapReduce (córas chun sonraí a dháileadh le haghaidh ríomhanna idir freastalaithe) agus an córas comhaid HDFS. Tá an dara ceann deartha go speisialta chun faisnéis a dháileadh idir nóid bhraisle a stóráil: is féidir gach bloc de mhéid seasta a chur ar roinnt nóid, agus a bhuíochas le macasamhlú, tá an córas athléimneach i gcoinne teipeanna nóid aonair. In ionad tábla comhaid, úsáidtear freastalaí speisialta ar a dtugtar NameNode.
Léiríonn an léaráid thíos conas a oibríonn MapReduce. Ag an gcéad chéim, roinntear na sonraí de réir critéar áirithe, ag an dara céim déantar é a dháileadh de réir cumhachta ríomhaireachta, agus ag an tríú céim déantar an ríomh.
Chruthaigh Google MapReduce ar dtús dá riachtanais chuardaigh. Ansin chuaigh MapReduce cód saor in aisce, agus ghlac Apache an tionscadal ar láimh. Bhuel, d'aistrigh Google go réitigh eile de réir a chéile. Tidbit suimiúil: tá tionscadal ar a dtugtar Google Cloud Dataflow ag Google faoi láthair, atá suite mar an chéad chéim eile tar éis Hadoop, mar athsholáthar tapa air.
Léiríonn breathnú níos dlúithe go bhfuil Google Cloud Dataflow bunaithe ar éagsúlacht de Apache Beam, agus cuimsíonn Apache Beam creat Apache Spark dea-dhoiciméadaithe, rud a ligeann dúinn labhairt faoi luas forghníomhaithe réitigh beagnach mar an gcéanna. Bhuel, oibríonn Apache Spark go foirfe ar chóras comhaid HDFS, rud a cheadaíonn é a imscaradh ar fhreastalaithe Hadoop.
Cuir anseo líon na ndoiciméad agus na réitigh réamhdhéanta le haghaidh Hadoop agus Spark i gcoinne Google Cloud Dataflow, agus éiríonn an rogha uirlis soiléir. Ina theannta sin, is féidir le hinnealtóirí cinneadh a dhéanamh dóibh féin cén cód - le haghaidh Hadoop nó Spark - ba chóir dóibh a rith, ag díriú ar an tasc, an taithí agus na cáilíochtaí.
Scamall nó freastalaí áitiúil
Tá an treocht i dtreo aistriú ginearálta go dtí an scamall tar éis fiú téarma chomh suimiúil mar Hadoop-mar-a-seirbhíse. I gcás den sórt sin, bhí riarachán na bhfreastalaithe ceangailte an-tábhachtach. Mar gheall ar, faraor, in ainneoin go bhfuil an-tóir air, is uirlis sách deacair é Hadoop íon a chumrú, mar ní mór go leor a dhéanamh de láimh. Mar shampla, freastalaithe a chumrú ina n-aonar, monatóireacht a dhéanamh ar a bhfeidhmíocht, agus go leor paraiméadair a chumrú go cúramach. Go ginearálta, is obair amaitéarach atá i gceist agus tá seans mór ann go ndéanfaidh tú praiseach de áit éigin nó go gcaillfidh tú rud éigin.
Dá bhrí sin, tá an-tóir ar fheisteáin dáileacháin éagsúla, atá feistithe ar dtús le huirlisí áisiúla imlonnaithe agus riaracháin. Is é ceann de na dáiltí is mó tóir a thacaíonn le Spark agus a dhéanann gach rud éasca ná Cloudera. Tá an dá leagan íoctha agus saor in aisce aige - agus sa dara ceann tá gach feidhmiúlacht bhunúsach ar fáil, gan teorainn a chur le líon na nóid.
Le linn an tsocraithe, nascfaidh Cloudera Manager trí SSH le do fhreastalaithe. Pointe suimiúil: nuair a shuiteáil, tá sé níos fearr a shonrú go bhfuil sé a chur i gcrích ag an mar a thugtar air peirsil: pacáistí speisialta, a bhfuil na comhpháirteanna uile is gá i ngach ceann acu atá cumraithe chun oibriú lena chéile. Go bunúsach is leagan feabhsaithe é seo den bhainisteoir pacáiste.
Tar éis é a shuiteáil, faighimid consól bainistíochta braisle, áit ar féidir leat braisle teiliméadrachta, seirbhísí suiteáilte a fheiceáil, agus is féidir leat acmhainní a chur leis / a bhaint agus cumraíocht an bhraisle a chur in eagar.
Mar thoradh air sin, tá cábáin na roicéad a thabharfaidh isteach sa todhchaí geal BigData le feiceáil os do chomhair. Ach sula ndeirimid "téimid," bogaimis faoin gcochall.
Riachtanais crua-earraí
Ar a láithreán gréasáin, luann Cloudera cumraíochtaí éagsúla féideartha. Tá na prionsabail ghinearálta faoina dtógtar iad léirithe sa léaráid:
Is féidir le MapReduce an pictiúr dóchasach seo a gheamhú. Má fhéachann tú arís ar an léaráid ón alt roimhe seo, beidh sé soiléir, i mbeagnach gach cás, go bhféadfadh bac a bheith ag post MapReduce agus sonraí á léamh ó dhiosca nó ón líonra. Tugtar faoi deara é seo freisin sa bhlag Cloudera. Mar thoradh air sin, le haghaidh ríomhanna tapa ar bith, lena n-áirítear trí Spark, a úsáidtear go minic le haghaidh ríomhanna fíor-ama, tá luas I/O an-tábhachtach. Dá bhrí sin, nuair a bhíonn Hadoop á úsáid, tá sé an-tábhachtach go n-áirítear meaisíní cothromaithe agus tapa sa bhraisle, rud nach n-áirithítear i gcónaí sa bhonneagar scamall chun é a chur go bog.
Baintear cothromaíocht amach sa dáileadh ualaigh trí úsáid a bhaint as fíorúlú Openstack ar fhreastalaithe le CPUanna illárnacha cumhachtacha. Leithdháiltear a n-acmhainní próiseálaí féin agus dioscaí sonracha ar nóid sonraí. Inár gcinneadh Inneall Loch Sonraí Atos Codex Baintear fíorúlú leathan amach, agus is é sin an fáth a mbainimid tairbhe as i dtéarmaí feidhmíochta (íoslaghdaítear tionchar an bhonneagair líonra) agus in TCO (cuirtear deireadh le freastalaithe fisiceacha breise).
Nuair a bhíonn freastalaithe BullSequana S200 á n-úsáid againn, faigheann muid ualach an-aonfhoirmeach, gan roinnt scrogaill. Áirítear leis an gcumraíocht íosta 3 fhreastalaí BullSequana S200, gach ceann acu le dhá JBOD, chomh maith le S200s breise ina bhfuil ceithre nód sonraí ceangailte go roghnach. Seo sampla den ualach sa tástáil TeraGen:
Léiríonn tástálacha le méideanna sonraí éagsúla agus luachanna macasamhlaithe na torthaí céanna i dtéarmaí dáileadh ualaigh idir nóid bhraisle. Seo thíos graf de dháileadh na rochtana diosca de réir tástálacha feidhmíochta.
Rinneadh ríomhanna bunaithe ar chumraíocht íosta de 3 fhreastalaí BullSequana S200. Áiríonn sé 9 nód sonraí agus 3 nód máistir, chomh maith le meaisíní fíorúla forchoimeádta i gcás imscaradh cosanta bunaithe ar OpenStack Virtualization. Toradh tástála TeraSort: méid an bhloic 512 MB fachtóir macasamhlaithe cothrom le trí cinn le criptiú 23,1 nóiméad.
Conas is féidir an córas a leathnú? Tá cineálacha éagsúla síntí ar fáil le haghaidh Data Lake Engine:
- Nóid sonraí: in aghaidh gach 40 TB de spás inúsáidte
- Nóid anailíseacha leis an gcumas GPU a shuiteáil
- Roghanna eile ag brath ar riachtanais ghnó (mar shampla, má theastaíonn Kafka agus a leithéidí uait)
Áiríonn Inneall Loch Sonraí Atos Codex na freastalaithe iad féin agus bogearraí réamhshuiteáilte, lena n-áirítear trealamh ceadúnaithe Cloudera; Hadoop féin, OpenStack le meaisíní fíorúla bunaithe ar an eithne RedHat Enterprise Linux, macasamhlú sonraí agus córais cúltaca (lena n-áirítear úsáid a bhaint as nód cúltaca agus Cloudera BDR - Cúltaca agus Aisghabháil Tubaiste). Ba é Atos Codex Data Lake Engine an chéad réiteach fíorúlaithe le deimhniú
Má tá suim agat i sonraí, beidh áthas orainn ár gceisteanna a fhreagairt sna tuairimí.
Foinse: will.com