Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

A’ mhargaidh airson coimpiutaireachd sgaoilte agus dàta mòr, a rèir staitistig, a 'fàs aig 18-19% gach bliadhna. Tha seo a’ ciallachadh gu bheil a’ cheist mu bhith a’ taghadh bathar-bog airson nan adhbharan sin fhathast buntainneach. Anns an dreuchd seo, tòisichidh sinn le carson a tha feum againn air coimpiutaireachd sgaoilte, bidh sinn a 'fuireach nas mionaidiche air an roghainn bathar-bog, bruidhnidh sinn mu bhith a' cleachdadh Hadoop le Cloudera, agus mu dheireadh bruidhnidh sinn mun roghainn bathar-cruaidh agus mar a bheir e buaidh air coileanadh ann an diofar dhòighean.

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e
Carson a tha feum againn air coimpiutaireachd sgaoilte ann an gnìomhachas àbhaisteach? Tha a h-uile dad sìmplidh agus iom-fhillte aig an aon àm. Simple - oir sa mhòr-chuid de chùisean bidh sinn a 'dèanamh àireamhachadh coimeasach sìmplidh gach aonad fiosrachaidh. Doirbh - oir tha tòrr fiosrachaidh mar sin ann. Uiread. Mar thoradh air an sin, feumaidh fear pròiseas terabytes de dhàta ann an 1000 snàithlean. Mar sin, tha na cùisean cleachdaidh gu math uile-choitcheann: faodar àireamhachadh a chuir an sàs ge bith càite a bheil feum air aire a thoirt do àireamh mhòr de mheatairean air raon dàta eadhon nas motha.

Aon eisimpleir o chionn ghoirid: Dodo Pizza air a mhìneachadh stèidhichte air mion-sgrùdadh air bunait òrdugh teachdaiche, nuair a thaghas iad piotsa le mullaich neo-riaghailteach, mar as trice bidh luchd-cleachdaidh ag obair le dìreach sia seataichean bunaiteach de ghrìtheidean agus dhà no dhà air thuaiream. A rèir sin, dh’ atharraich am pizzeria ceannach. A bharrachd air an sin, bha e comasach dha toraidhean a bharrachd a thairgsinn aig ìre an òrduigh a mholadh do luchd-cleachdaidh, a mheudaich prothaidean.

Eisimpleir eile: anailis leig bathar le H&M an raon de stòran fa leth a lughdachadh 40%, agus aig an aon àm cumail suas an ìre reic. Chaidh seo a choileanadh le bhith a 'dùnadh a-mach dreuchdan le droch reic, agus chaidh aire a thoirt do ràitheas anns an àireamhachadh.

Taghadh innealan

Is e Hadoop an ìre gnìomhachais airson an seòrsa coimpiutaireachd seo. Carson? Leis gur e frèam sàr-mhath le deagh chlàradh a th’ ann an Hadoop (tha an aon Habr a’ toirt seachad mòran artaigilean mionaideach air a’ chuspair seo), a tha an cois seata iomlan de ghoireasan agus leabharlannan. Faodaidh tu seataichean mòra de dhàta structaraichte agus neo-structaraichte a chuir a-steach mar chur-a-steach, agus sgaoilidh an siostam fhèin iad eadar cumhachd coimpiutaireachd. A bharrachd air an sin, faodar na h-aon chomasan sin àrdachadh no ciorramach aig àm sam bith - an aon scalability còmhnard sin ann an gnìomh.

Ann an 2017, chuir a ’chompanaidh comhairleachaidh buadhach Gartner cho-dhùingum bi Hadoop air a dhol à bith a dh’ aithghearr. Tha an adhbhar gu math casgach: tha luchd-anailis den bheachd gum bi companaidhean a ’gluasad gu mòr chun sgòth, leis gum bi e comasach dhaibh pàigheadh ​​​​stèidhichte air cleachdadh cumhachd coimpiutaireachd. Is e an dàrna feart cudromach a thathas ag ràdh a tha comasach air Hadoop “adhlacadh” astar na h-obrach. Leis gu bheil roghainnean mar Apache Spark no Google Cloud DataFlow nas luaithe na am MapReduce fon Hadoop.

Tha Hadoop na laighe air grunn cholbhan, agus am fear as ainmeil dhiubh sin tha teicneòlasan MapReduce (siostam airson dàta a sgaoileadh airson àireamhachadh eadar frithealaichean) agus siostam faidhle HDFS. Tha an tè mu dheireadh air a dhealbhadh gu sònraichte gus fiosrachadh a tha air a chuairteachadh eadar nodan cnuasachaidh a stòradh: faodar gach bloc de mheud stèidhichte a chuir air grunn nodan, agus le taing dha ath-riochdachadh, tha an siostam an aghaidh fàilligeadh nodan fa leth. An àite clàr faidhle, thèid frithealaiche sònraichte ris an canar NameNode a chleachdadh.

Tha an dealbh gu h-ìosal a’ sealltainn mar a tha MapReduce ag obair. Aig a 'chiad ìre, tha an dàta air a roinn a rèir feart sònraichte, aig an dàrna ìre tha e air a chuairteachadh le cumhachd coimpiutaireachd, aig an treas ìre bidh an àireamhachadh a' tachairt.

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e
Chaidh MapReduce a chruthachadh an toiseach le Google airson feumalachdan an rannsachaidh aige. An uairsin chaidh MapReduce a-steach do chòd an-asgaidh, agus ghabh Apache thairis am pròiseact. Uill, mean air mhean ghluais Google gu fuasglaidhean eile. Rud inntinneach: aig an àm seo, tha pròiseact aig Google ris an canar Google Cloud Dataflow, air a shuidheachadh mar an ath cheum às deidh Hadoop, mar ath-shuidheachadh luath.

Tha sùil nas mionaidiche a’ sealltainn gu bheil Google Cloud Dataflow stèidhichte air atharrachadh de Apache Beam, fhad ‘s a tha Apache Beam a’ toirt a-steach frèam Apache Spark air a dheagh chlàradh, a leigeas leinn bruidhinn mu cha mhòr an aon astar de choileanadh fuasglaidh. Uill, tha Apache Spark ag obair gu math air siostam faidhle HDFS, a leigeas leat a chleachdadh air frithealaichean Hadoop.

Cuir an seo na tha de sgrìobhainnean agus fuasglaidhean deiseil airson Hadoop agus Spark an aghaidh Google Cloud Dataflow, agus bidh an roghainn inneal a’ fàs follaiseach. A bharrachd air an sin, faodaidh innleadairean co-dhùnadh dhaibh fhèin dè an còd - fo Hadoop no Spark - a chuireas iad an gnìomh, le fòcas air an obair, an eòlas agus na teisteanasan.

Cloud no frithealaiche ionadail

Tha an gluasad a dh’ ionnsaigh gluasad coitcheann chun sgòth eadhon air teirm cho inntinneach a chruthachadh ri Hadoop-as-a-service. Ann an suidheachadh mar sin, tha rianachd luchd-frithealaidh ceangailte air fàs gu math cudromach. Air sgàth, gu mì-fhortanach, a dh'aindeoin cho measail 'sa tha e, tha Hadoop fìor-ghlan na inneal caran duilich a rèiteachadh, oir feumaidh tu tòrr a dhèanamh le làimh. Mar eisimpleir, faodaidh tu frithealaichean a rèiteachadh leotha fhèin, sùil a chumail air an coileanadh, agus gleusadh mòran de pharaimearan. San fharsaingeachd, obraich airson neo-dhreuchdail agus tha cothrom mòr ann a bhith a’ sgròbadh an àiteigin no rudeigin a chall.

Mar sin, tha fèill mhòr air diofar sgaoilidhean, a tha an toiseach uidheamaichte le innealan cleachdadh is rianachd goireasach. Is e Cloudera aon de na sgaoilidhean as mòr-chòrdte a bheir taic do Spark agus a nì cùisean furasta. Tha an dà chuid dreachan pàighte agus an-asgaidh aige - agus anns an fhear mu dheireadh, tha a h-uile prìomh ghnìomhachd ri fhaighinn, agus gun a bhith a’ cuingealachadh àireamh nan nodan.

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

Rè an stèidheachadh, ceangail Manaidsear Cloudera tro SSH ris na frithealaichean agad. Puing inntinneach: nuair a thathar a 'stàladh, tha e nas fheàrr a shònrachadh gu bheil e air a dhèanamh leis an t-ainm parsailean: pasganan sònraichte, anns a bheil na pàirtean riatanach uile air an rèiteachadh gus obrachadh le chèile. Gu dearbh, is e dreach cho leasaichte a tha seo den mhanaidsear pacaid.

Às deidh an stàladh, gheibh sinn consol riaghlaidh brabhsair, far am faic thu telemetry airson cruinneachaidhean, seirbheisean stàlaichte, a bharrachd air an urrainn dhut goireasan a chuir ris / a thoirt air falbh agus an rèiteachadh brabhsair a dheasachadh.

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

Mar thoradh air an sin, nochdaidh gearradh na rocaid sin air do bheulaibh, a bheir thu gu àm ri teachd soilleir BigData. Ach mus can sinn "leigamaid air falbh", rachamaid air adhart gu luath fon chochall.

riatanasan bathar-cruaidh

Air an làrach-lìn aca, tha Cloudera a’ toirt iomradh air diofar rèiteachaidhean a dh’ fhaodadh a bhith ann. Tha na prionnsapalan coitcheann leis a bheil iad air an togail air an sealltainn anns an dealbh:

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e
Faodaidh MapReduce an dealbh dòchasach seo a dhùsgadh. A 'coimhead a-rithist air an diagram san earrann roimhe seo, bidh e soilleir gum faod obair MapReduce bacadh a chur air cha mhòr a h-uile cùis nuair a bhios tu a' leughadh dàta bhon chlàr no bhon lìonra. Tha seo cuideachd air a chomharrachadh air blog Cloudera. Mar thoradh air an sin, airson àireamhachadh luath sam bith, a 'gabhail a-steach tro Spark, a tha gu tric air a chleachdadh airson àireamhachadh fìor-ùine, tha astar I / O glè chudromach. Mar sin, nuair a bhios tu a ’cleachdadh Hadoop, tha e glè chudromach gum bi innealan cothromach agus luath a’ faighinn a-steach don bhuidheann, nach eil, airson a chuir gu socair, an-còmhnaidh air a thoirt seachad ann am bun-structar sgòthan.

Tha cothromachadh ann an cuairteachadh luchd air a choileanadh tro bhith a’ cleachdadh virtualization Openstack air frithealaichean le CPUan ioma-cridhe cumhachdach. Tha na goireasan giullachd aca fhèin agus diosgan sònraichte air an riarachadh do nodan dàta. Anns an fhuasgladh againn Einnsean loch dàta Atos Codex tha virtualization farsaing air a choileanadh, agus is e sin as coireach gu bheil sinn a’ buannachadh an dà chuid a thaobh coileanadh (tha buaidh bun-structair lìonra air a lughdachadh) agus TCO (tha frithealaichean corporra a bharrachd air an cuir às).

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e
A thaobh a bhith a’ cleachdadh frithealaichean BullSequana S200, gheibh sinn eallach gu math èideadh, gun cuid de bhotail. Tha an rèiteachadh as ìsle a’ toirt a-steach 3 frithealaichean BullSequana S200, gach fear le dà JBOD, a bharrachd air S200n a bharrachd anns a bheil ceithir nodan dàta ceangailte gu roghnach. Seo eisimpleir de luchd ann an deuchainn TeraGen:

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

Bidh deuchainnean le meudan dàta eadar-dhealaichte agus luachan ath-riochdachadh a’ nochdadh na h-aon toraidhean a thaobh cuairteachadh luchdan thairis air nodan cnuasachaidh. Gu h-ìosal tha graf de chuairteachadh ruigsinneachd diosc le deuchainnean coileanaidh.

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

Tha àireamhachadh stèidhichte air rèiteachadh as ìsle de 3 frithealaichean BullSequana S200. Tha e a’ toirt a-steach nodan dàta 9 agus prìomh nodan 3, a bharrachd air innealan brìgheil glèidhte gun fhios nach tèid dìon a chleachdadh stèidhichte air OpenStack Virtualization. Toradh deuchainn TeraSort: Is e meud bloc 512 MB de fhactar mac-samhail de thrì le crioptachadh 23,1 mionaidean.

Ciamar a ghabhas an siostam a leudachadh? Tha diofar sheòrsaichean de leudachaidhean rim faighinn airson an Data Lake Engine:

  • Nòtaichean dàta: airson gach 40 TB de rùm a ghabhas cleachdadh
  • Nòtaichean anailis le comas GPU a chuir a-steach
  • Roghainnean eile a rèir feumalachdan gnìomhachais (mar eisimpleir, ma tha feum agad air Kafka agus an leithid)

Dè a tha sònraichte mu Cloudera agus mar a chòcaicheas tu e

Tha an ionad Atos Codex Data Lake Engine a’ toirt a-steach an dà chuid na frithealaichean fhèin agus bathar-bog ro-stàlaichte, a’ toirt a-steach pasgan Cloudera le cead; Hadoop fhèin, OpenStack le innealan brìgheil stèidhichte air kernel RedHat Enterprise Linux, ath-riochdachadh dàta agus siostaman cùl-taic (a’ toirt a-steach cleachdadh nód cùl-taic agus Cloudera BDR - Cùl-taic agus Ath-bheothachadh Tubaist). Is e Atos Codex Data Lake Engine a’ chiad fhuasgladh virtualization a chaidh a dhearbhadh Sgòthan geala.

Ma tha ùidh agad anns an fhiosrachadh, bidh sinn toilichte na ceistean againn a fhreagairt anns na beachdan.

Source: www.habr.com

Cuir beachd ann