A’ mhargaidh airson coimpiutaireachd sgaoilte agus dàta mòr, a rèir
Carson a tha feum againn air coimpiutaireachd sgaoilte ann an gnìomhachas àbhaisteach? Tha a h-uile dad sìmplidh agus iom-fhillte aig an aon àm. Simple - oir sa mhòr-chuid de chùisean bidh sinn a 'dèanamh àireamhachadh coimeasach sìmplidh gach aonad fiosrachaidh. Doirbh - oir tha tòrr fiosrachaidh mar sin ann. Uiread. Mar thoradh air an sin, feumaidh fear
Aon eisimpleir o chionn ghoirid: Dodo Pizza
Eisimpleir eile:
Taghadh innealan
Is e Hadoop an ìre gnìomhachais airson an seòrsa coimpiutaireachd seo. Carson? Leis gur e frèam sàr-mhath le deagh chlàradh a th’ ann an Hadoop (tha an aon Habr a’ toirt seachad mòran artaigilean mionaideach air a’ chuspair seo), a tha an cois seata iomlan de ghoireasan agus leabharlannan. Faodaidh tu seataichean mòra de dhàta structaraichte agus neo-structaraichte a chuir a-steach mar chur-a-steach, agus sgaoilidh an siostam fhèin iad eadar cumhachd coimpiutaireachd. A bharrachd air an sin, faodar na h-aon chomasan sin àrdachadh no ciorramach aig àm sam bith - an aon scalability còmhnard sin ann an gnìomh.
Ann an 2017, chuir a ’chompanaidh comhairleachaidh buadhach Gartner
Tha Hadoop na laighe air grunn cholbhan, agus am fear as ainmeil dhiubh sin tha teicneòlasan MapReduce (siostam airson dàta a sgaoileadh airson àireamhachadh eadar frithealaichean) agus siostam faidhle HDFS. Tha an tè mu dheireadh air a dhealbhadh gu sònraichte gus fiosrachadh a tha air a chuairteachadh eadar nodan cnuasachaidh a stòradh: faodar gach bloc de mheud stèidhichte a chuir air grunn nodan, agus le taing dha ath-riochdachadh, tha an siostam an aghaidh fàilligeadh nodan fa leth. An àite clàr faidhle, thèid frithealaiche sònraichte ris an canar NameNode a chleachdadh.
Tha an dealbh gu h-ìosal a’ sealltainn mar a tha MapReduce ag obair. Aig a 'chiad ìre, tha an dàta air a roinn a rèir feart sònraichte, aig an dàrna ìre tha e air a chuairteachadh le cumhachd coimpiutaireachd, aig an treas ìre bidh an àireamhachadh a' tachairt.
Chaidh MapReduce a chruthachadh an toiseach le Google airson feumalachdan an rannsachaidh aige. An uairsin chaidh MapReduce a-steach do chòd an-asgaidh, agus ghabh Apache thairis am pròiseact. Uill, mean air mhean ghluais Google gu fuasglaidhean eile. Rud inntinneach: aig an àm seo, tha pròiseact aig Google ris an canar Google Cloud Dataflow, air a shuidheachadh mar an ath cheum às deidh Hadoop, mar ath-shuidheachadh luath.
Tha sùil nas mionaidiche a’ sealltainn gu bheil Google Cloud Dataflow stèidhichte air atharrachadh de Apache Beam, fhad ‘s a tha Apache Beam a’ toirt a-steach frèam Apache Spark air a dheagh chlàradh, a leigeas leinn bruidhinn mu cha mhòr an aon astar de choileanadh fuasglaidh. Uill, tha Apache Spark ag obair gu math air siostam faidhle HDFS, a leigeas leat a chleachdadh air frithealaichean Hadoop.
Cuir an seo na tha de sgrìobhainnean agus fuasglaidhean deiseil airson Hadoop agus Spark an aghaidh Google Cloud Dataflow, agus bidh an roghainn inneal a’ fàs follaiseach. A bharrachd air an sin, faodaidh innleadairean co-dhùnadh dhaibh fhèin dè an còd - fo Hadoop no Spark - a chuireas iad an gnìomh, le fòcas air an obair, an eòlas agus na teisteanasan.
Cloud no frithealaiche ionadail
Tha an gluasad a dh’ ionnsaigh gluasad coitcheann chun sgòth eadhon air teirm cho inntinneach a chruthachadh ri Hadoop-as-a-service. Ann an suidheachadh mar sin, tha rianachd luchd-frithealaidh ceangailte air fàs gu math cudromach. Air sgàth, gu mì-fhortanach, a dh'aindeoin cho measail 'sa tha e, tha Hadoop fìor-ghlan na inneal caran duilich a rèiteachadh, oir feumaidh tu tòrr a dhèanamh le làimh. Mar eisimpleir, faodaidh tu frithealaichean a rèiteachadh leotha fhèin, sùil a chumail air an coileanadh, agus gleusadh mòran de pharaimearan. San fharsaingeachd, obraich airson neo-dhreuchdail agus tha cothrom mòr ann a bhith a’ sgròbadh an àiteigin no rudeigin a chall.
Mar sin, tha fèill mhòr air diofar sgaoilidhean, a tha an toiseach uidheamaichte le innealan cleachdadh is rianachd goireasach. Is e Cloudera aon de na sgaoilidhean as mòr-chòrdte a bheir taic do Spark agus a nì cùisean furasta. Tha an dà chuid dreachan pàighte agus an-asgaidh aige - agus anns an fhear mu dheireadh, tha a h-uile prìomh ghnìomhachd ri fhaighinn, agus gun a bhith a’ cuingealachadh àireamh nan nodan.
Rè an stèidheachadh, ceangail Manaidsear Cloudera tro SSH ris na frithealaichean agad. Puing inntinneach: nuair a thathar a 'stàladh, tha e nas fheàrr a shònrachadh gu bheil e air a dhèanamh leis an t-ainm parsailean: pasganan sònraichte, anns a bheil na pàirtean riatanach uile air an rèiteachadh gus obrachadh le chèile. Gu dearbh, is e dreach cho leasaichte a tha seo den mhanaidsear pacaid.
Às deidh an stàladh, gheibh sinn consol riaghlaidh brabhsair, far am faic thu telemetry airson cruinneachaidhean, seirbheisean stàlaichte, a bharrachd air an urrainn dhut goireasan a chuir ris / a thoirt air falbh agus an rèiteachadh brabhsair a dheasachadh.
Mar thoradh air an sin, nochdaidh gearradh na rocaid sin air do bheulaibh, a bheir thu gu àm ri teachd soilleir BigData. Ach mus can sinn "leigamaid air falbh", rachamaid air adhart gu luath fon chochall.
riatanasan bathar-cruaidh
Air an làrach-lìn aca, tha Cloudera a’ toirt iomradh air diofar rèiteachaidhean a dh’ fhaodadh a bhith ann. Tha na prionnsapalan coitcheann leis a bheil iad air an togail air an sealltainn anns an dealbh:
Faodaidh MapReduce an dealbh dòchasach seo a dhùsgadh. A 'coimhead a-rithist air an diagram san earrann roimhe seo, bidh e soilleir gum faod obair MapReduce bacadh a chur air cha mhòr a h-uile cùis nuair a bhios tu a' leughadh dàta bhon chlàr no bhon lìonra. Tha seo cuideachd air a chomharrachadh air blog Cloudera. Mar thoradh air an sin, airson àireamhachadh luath sam bith, a 'gabhail a-steach tro Spark, a tha gu tric air a chleachdadh airson àireamhachadh fìor-ùine, tha astar I / O glè chudromach. Mar sin, nuair a bhios tu a ’cleachdadh Hadoop, tha e glè chudromach gum bi innealan cothromach agus luath a’ faighinn a-steach don bhuidheann, nach eil, airson a chuir gu socair, an-còmhnaidh air a thoirt seachad ann am bun-structar sgòthan.
Tha cothromachadh ann an cuairteachadh luchd air a choileanadh tro bhith a’ cleachdadh virtualization Openstack air frithealaichean le CPUan ioma-cridhe cumhachdach. Tha na goireasan giullachd aca fhèin agus diosgan sònraichte air an riarachadh do nodan dàta. Anns an fhuasgladh againn Einnsean loch dàta Atos Codex tha virtualization farsaing air a choileanadh, agus is e sin as coireach gu bheil sinn a’ buannachadh an dà chuid a thaobh coileanadh (tha buaidh bun-structair lìonra air a lughdachadh) agus TCO (tha frithealaichean corporra a bharrachd air an cuir às).
A thaobh a bhith a’ cleachdadh frithealaichean BullSequana S200, gheibh sinn eallach gu math èideadh, gun cuid de bhotail. Tha an rèiteachadh as ìsle a’ toirt a-steach 3 frithealaichean BullSequana S200, gach fear le dà JBOD, a bharrachd air S200n a bharrachd anns a bheil ceithir nodan dàta ceangailte gu roghnach. Seo eisimpleir de luchd ann an deuchainn TeraGen:
Bidh deuchainnean le meudan dàta eadar-dhealaichte agus luachan ath-riochdachadh a’ nochdadh na h-aon toraidhean a thaobh cuairteachadh luchdan thairis air nodan cnuasachaidh. Gu h-ìosal tha graf de chuairteachadh ruigsinneachd diosc le deuchainnean coileanaidh.
Tha àireamhachadh stèidhichte air rèiteachadh as ìsle de 3 frithealaichean BullSequana S200. Tha e a’ toirt a-steach nodan dàta 9 agus prìomh nodan 3, a bharrachd air innealan brìgheil glèidhte gun fhios nach tèid dìon a chleachdadh stèidhichte air OpenStack Virtualization. Toradh deuchainn TeraSort: Is e meud bloc 512 MB de fhactar mac-samhail de thrì le crioptachadh 23,1 mionaidean.
Ciamar a ghabhas an siostam a leudachadh? Tha diofar sheòrsaichean de leudachaidhean rim faighinn airson an Data Lake Engine:
- Nòtaichean dàta: airson gach 40 TB de rùm a ghabhas cleachdadh
- Nòtaichean anailis le comas GPU a chuir a-steach
- Roghainnean eile a rèir feumalachdan gnìomhachais (mar eisimpleir, ma tha feum agad air Kafka agus an leithid)
Tha an ionad Atos Codex Data Lake Engine a’ toirt a-steach an dà chuid na frithealaichean fhèin agus bathar-bog ro-stàlaichte, a’ toirt a-steach pasgan Cloudera le cead; Hadoop fhèin, OpenStack le innealan brìgheil stèidhichte air kernel RedHat Enterprise Linux, ath-riochdachadh dàta agus siostaman cùl-taic (a’ toirt a-steach cleachdadh nód cùl-taic agus Cloudera BDR - Cùl-taic agus Ath-bheothachadh Tubaist). Is e Atos Codex Data Lake Engine a’ chiad fhuasgladh virtualization a chaidh a dhearbhadh
Ma tha ùidh agad anns an fhiosrachadh, bidh sinn toilichte na ceistean againn a fhreagairt anns na beachdan.
Source: www.habr.com