Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Suuqa loogu talagalay xisaabinta qaybinta iyo xogta weyn, sida uu qabo tirakoobka, ayaa ku koraysa 18-19% sannadkii. Tani waxay ka dhigan tahay in arrinta xulashada software ee ujeedooyinkan ay weli tahay mid khuseeya. Maqaalkan, waxaan ku bilaabi doonaa sababta aan ugu baahanahay xisaabinta la qaybiyey, waxaan si faahfaahsan u degi doonaa xulashada software, waxaan ka hadli doonaa isticmaalka Hadoop with Cloudera, ugu dambeyntii waxaan ka hadli doonaa doorashada qalabka iyo sida ay u saameyneyso waxqabadka. siyaabo kala duwan.

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo
Maxaynu ugu baahanahay xisaabinta qaybsan ganacsiga caadiga ah? Wax walba waa sahlan yihiin oo dhib badan isku mar. Fudud - sababtoo ah inta badan kiisaska waxaan samaynaa xisaabin fudud halkii cutub ee macluumaadka. Way adag tahay - sababtoo ah waxaa jira macluumaad badan oo noocaas ah. Aad u badan. Natiijo ahaan, waa in la sameeyaa ka baaraandegi terabyte ee xogta 1000 dunta. Sidaa darteed, kiisaska isticmaalku waa kuwo caalami ah: xisaabinta waxaa lagu dabaqi karaa meel kasta oo looga baahan yahay in lagu xisaabtamo tiro badan oo cabbirro ah oo ku saabsan diyaarinta xogta xitaa ka weyn.

Tusaale dhow: Dodo Pizza qeexan iyadoo lagu salaynayo falanqaynta dalabka macmiilka, in marka la dooranayo pizza leh dusha sare ee aan sabab lahayn, isticmaalayaashu waxay inta badan ku shaqeeyaan lix qaybood oo aasaasi ah oo maaddooyin ah oo ay weheliso dhawr nooc oo random ah. Sidaas awgeed, pizzeria waxay hagaajisay wax iibsiga. Intaa waxaa dheer, waxay awood u yeelatay inay si fiican ugu taliso alaabooyin dheeraad ah oo lagu bixiyo marxaladda dalabka ee isticmaalayaasha, taas oo kordhisay faa'iidada.

Tusaale kale: falanqaynta Badeecada ayaa u ogolaatay H&M inay hoos u dhigto kala duwanaanta dukaamada gaarka ah 40%, iyadoo la ilaalinayo heerka iibka. Taas waxa lagu gaadhay iyada oo laga saarayo jagooyinka iibka liidata, iyo xilliyada waxa lagu xisaabtamay xisaabinta.

Xulashada qalabka

Halbeegga warshadaha ee xisaabinta noocan ah waa Hadoop. Waa maxay sababtu? Sababtoo ah Hadoop waa qaab-dhismeed aad u wanaagsan, oo si wanaagsan loo diiwaangeliyay ( isla Habr ayaa ka bixinaysa maqaallo badan oo faahfaahsan mawduucan), kaas oo ay la socdaan dhammaan agabka iyo maktabadaha. Waxaad soo gudbin kartaa xog aad u badan oo habaysan iyo mid aan habaysan labadaba sida fikradda, iyo nidaamka laftiisa ayaa u qaybin doona inta u dhaxaysa awoodda xisaabinta. Waxaa intaa dheer, awoodahaas isku midka ah waa la kordhin karaa ama waa la curyaami karaa wakhti kasta - isla miisaan siman oo ficil ah.

2017, shirkadda la-talinta ee saamaynta leh ee Gartner ayuu hadalkiisa kusoo gabagabeeyayin Hadoop uu dhawaan noqon doono mid duugoobay. Sababta ayaa ah wax aan macquul aheyn: falanqeeyayaasha ayaa aaminsan in shirkaduhu ay si weyn ugu guuri doonaan daruuraha, maadaama ay halkaas awoodi doonaan inay wax ku bixiyaan iyadoo lagu saleynayo isticmaalka awoodda xisaabinta. Qodobka labaad ee muhiimka ah ee loo malaynayo inuu "aasi karo" Hadoop waa xawaaraha shaqada. Sababtoo ah ikhtiyaarrada sida Apache Spark ama Google Cloud DataFlow way ka dhaqso badan yihiin MapReduce Hadoop.

Hadoop waxay ku dul taagan tahay dhawr tiir, kuwaas oo ay ugu caansan yihiin MapReduce technology (nidaamka qaybinta xogta xisaabinta inta u dhaxaysa server-yada) iyo nidaamka faylka HDFS. Midda dambe waxaa si gaar ah loogu talagalay in lagu kaydiyo macluumaadka loo qaybiyey inta u dhaxaysa qanjidhada kutlada: block kasta oo cabbir go'an waxaa lagu dhejin karaa dhowr nood, mahad celintiina, nidaamku wuxuu u adkeysanayaa fashilka qanjidhada gaarka ah. Halkii laga heli lahaa miiska faylka, server gaar ah oo loo yaqaan NameNode ayaa la isticmaalaa.

Sawirka hoose wuxuu muujinayaa sida MapReduce u shaqeyso. Marxaladda koowaad, xogta waxaa loo qaybiyaa sifo gaar ah, marxaladda labaad waxaa loo qaybiyaa awoodda xisaabinta, marxaladda saddexaad xisaabinta ayaa dhacda.

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo
MapReduce waxaa markii hore u abuuray Google baahida raadinteeda. Kadib MapReduce waxay gashay koodka bilaashka ah, Apache ayaana la wareegtay mashruuca. Hagaag, Google si tartiib tartiib ah ayey ugu guurtay xalal kale. Nuance xiiso leh: xilligan, Google wuxuu leeyahay mashruuc la yiraahdo Google Cloud Dataflow, oo loo dhigay tallaabada xigta ka dib Hadoop, oo ah beddelkeeda degdegga ah.

Fiirin dhow ayaa muujineysa in Google Cloud Dataflow ay ku saleysan tahay kala duwanaanshiyaha Apache Beam, halka Apache Beam ay kujirto qaab dhismeedka Apache Spark oo si wanaagsan loo diiwaangeliyay, kaas oo noo ogolaanaya inaan ka hadalno ku dhawaad ​​isla xawaaraha xalka fulinta. Hagaag, Apache Spark wuxuu si fiican ugu shaqeeyaa nidaamka faylka HDFS, kaas oo kuu oggolaanaya inaad ku dhejiso server-yada Hadoop.

Halkan ku dar mugga dukumeentiga iyo xalalka diyaarka ah ee Hadoop iyo Spark ee ka dhanka ah Google Cloud Dataflow, doorashada qalabkuna waxay noqotaa mid cad. Intaa waxaa dheer, injineerada laftooda ayaa go'aansan kara koodka - Hadoop ama Spark - waxay fulin doonaan, iyagoo diiradda saaraya hawsha, khibradaha iyo shahaadooyinka.

Cloud ama server maxalli ah

Isbeddelka ku aaddan u-guurka guud ee daruuraha ayaa xitaa kor u qaaday erey xiiso leh sida Hadoop-as-a-adeeg. Xaaladdan oo kale, maamulka server-yada ku xiran ayaa noqday mid aad muhiim u ah. Sababtoo ah, hoogay, in kasta oo ay caan ku tahay, Hadoop saafi ah waa qalab aad u adag in la habeeyo, maadaama ay tahay inaad wax badan gacanta ku qabato. Tusaale ahaan, waxaad u habayn kartaa server-yada si gaar ah, waxaad ula socon kartaa waxqabadkooda, waxaadna hagaajin kartaa cabbirro badan. Guud ahaan, u shaqee hiwaayadda oo waxaa jirta fursad weyn oo aad meel ku dhufato ama aad wax seegto.

Sidaa darteed, qaybin kala duwan ayaa noqday mid aad loo jecel yahay, kuwaas oo markii hore lagu qalabeeyay qalabaynta ku habboon iyo maamulka. Mid ka mid ah qaybinta caanka ah ee taageerta Spark oo wax fudud ka dhigta waa Cloudera. Waxay leedahay labadaba lacag iyo noocyo bilaash ah - iyo kan dambe, dhammaan hawlaha ugu muhiimsan waa la heli karaa, iyo iyada oo aan la xaddidin tirada qanjidhada.

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Inta lagu jiro dejinta, Maareeyaha Cloudera wuxuu ku xidhi doonaa SSH server-yadaada. Qodob xiiso leh: marka la rakibayo, waxaa fiican in la qeexo in lagu fuliyo waxa loogu yeero baakadaha: baakado gaar ah, kuwaas oo mid kasta oo ka mid ah ka kooban dhammaan qaybaha lagama maarmaanka ah loo habeeyey in ay la shaqeeyaan midba midka kale. Dhab ahaantii, kani waa nooca la hagaajiyay ee maamulaha xirmada.

Rakibaadda ka dib, waxaan helnaa qalabka maaraynta kooxda, halkaas oo aad ka arki karto telemetry kooxaha, adeegyada rakiban, oo lagu daray waxaad ku dari kartaa / ka saari kartaa agabka oo aad tafatir kartaa qaabeynta kooxda.

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Natiijo ahaan, goynta gantaalkaas ayaa hortaada ka muuqda, kaas oo ku geyn doona mustaqbalka ifaya ee BigData. Laakiin intaanaynaan nidhaahno "aan baxno", aynu hore ugu soo degdegno daboolka hoostiisa.

shuruudaha hardware

Boggooda internetka, Cloudera waxay sheegaysaa isku-habaynta suurtagalka ah ee kala duwan. Mabaadi'da guud ee lagu dhisay ayaa lagu muujiyay sawirka:

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo
MapReduce waxay lumin kartaa sawirkan rajo-gelinta leh. Markaan dib u eegno jaantuska qaybta hore, waxaa caddaatay in ku dhawaad ​​dhammaan kiisaska, shaqada MapReduce ay ku dhufan karto dhalo markaad xogta ka akhrinayso diskka ama shabakadda. Tan waxaa sidoo kale lagu xusay blogka Cloudera. Natiijo ahaan, xisaab kasta oo degdeg ah, oo ay ku jiraan iyada oo loo marayo Spark, oo inta badan loo isticmaalo xisaabinta waqtiga-dhabta ah, xawaaraha I / O aad ayuu muhiim u yahay. Sidaa darteed, marka la isticmaalayo Hadoop, waxaa aad muhiim u ah in mashiinnada dheellitiran iyo kuwa degdega ah ay galaan kooxda, taas oo, si fudud loo dhigo, aan had iyo jeer lagu bixin kaabayaasha daruuraha.

Isu-dheellitirka qaybinta culeyska waxaa lagu gaaraa adeegsiga Opentack virtualization ee server-yada leh CPU-yada xudunta badan leh. Nodes-ka xogta waxaa loo qoondeeyay agabkooda processor-ka iyo saxannada qaarkood. Xalkayaga Atos Codex Data Lake Engine figrad ballaaran ayaa la gaarey, taas oo ah sababta aan ugu guuleysaneyno labadaba marka la eego waxqabadka (saameynta kaabayaasha shabakada waa la yareeyey) iyo TCO (serverrada jireed ee dheeraadka ah ayaa la tirtiray).

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo
Marka la eego adeegsiga adeegayaasha BullSequana S200, waxaan helnaa culeys isku mid ah, oo ka maqan qaar ka mid ah caqabadaha. Qaabeynta ugu yar waxaa ka mid ah 3 BullSequana S200 oo adeegayaal ah, mid walbana leh laba JBODs, oo lagu daray S200s dheeraad ah oo ka kooban afar qanjidhada xogta ayaa si ikhtiyaari ah ugu xiran. Waa kan tusaale culeyska tijaabada TeraGen:

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Tijaabooyin leh mug xog oo kala duwan iyo qiyamka soo-celinta waxay muujinayaan natiijooyin isku mid ah marka loo eego qaybinta culeyska ee qanjidhada kooxda. Hoos waxaa ku yaal garaafka qaybinta helitaanka diskka ee imtixaannada waxqabadka.

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Xisaabinta waxay ku saleysan tahay qaabeynta ugu yar ee 3 BullSequana S200 server. Waxaa ku jira 9 xog noode ah iyo 3 qanjidhada master-ka, iyo sidoo kale mashiinnada farsamada gacanta ee la xafiday haddii la keeno ilaalin ku saleysan OpenStack Virtualization. Natiijooyinka tijaabada TeraSort: 512 MB cabbirka xannibaadda ee qodobka soo noqnoqda ee saddex oo leh sir waa 23,1 daqiiqo.

Sidee nidaamka loo ballaarin karaa? Noocyo kala duwan oo kordhin ah ayaa diyaar u ah Matoorka Lake Data:

  • Xogta noodhka: 40kii TB ee meel la isticmaali karo
  • noodhadhka falanqaynta ee leh awooda lagu rakibo GPU
  • Ikhtiyaarada kale ee ku xidhan baahida ganacsiga (tusaale ahaan, haddii aad u baahan tahay Kafka iyo wixii la mid ah)

Maxaa gaarka ah ee ku saabsan Cloudera iyo sida loo kariyo

Dhismaha Atos Codex Data Lake Engine waxaa ka mid ah server-yada laftooda iyo software horay loo rakibay, oo ay ku jiraan xirmada Cloudera oo leh shati; Hadoop lafteeda, OpenStack oo leh mashiinno farsamaysan oo ku salaysan RedHat Enterprise Linux kernel, nuqul ka mid ah xogta iyo nidaamyada kaydinta (oo ay ku jiraan isticmaalka noodhka kaydinta iyo Cloudera BDR - Kaabta iyo Soo kabashada Musiibada). Atos Codex Data Lake Engine waa xalka ugu horrayn ee la shahaado daruuraha.

Haddii aad xiisaynayso faahfaahinta, waxaan ku farxi doonaa inaan ka jawaabno su'aalahayaga faallooyinka.

Source: www.habr.com

Add a comment