Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

Ahịa maka mgbakọ na-ekesa na nnukwu data, dị ka onu ogugu, na-eto eto na 18-19% kwa afọ. Nke a pụtara na okwu ịhọrọ ngwanrọ maka ebumnuche ndị a ka dị mkpa. Na nke a post, anyị ga-amalite na ihe mere anyị ji chọọ mgbakọ na-ekesa, anyị ga-ebi n'ụzọ zuru ezu na nhọrọ nke ngwanrọ, anyị ga-ekwu maka iji Hadoop na Cloudera, na n'ikpeazụ anyị ga-ekwu maka nhọrọ nke ngwaike na otú o si emetụta arụmọrụ. n'ụzọ dị iche iche.

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya
Gịnị mere anyị ji dị mkpa na-ekesa Mgbakọ na nkịtị azụmahịa? Ihe niile dị mfe na mgbagwoju anya n'otu oge. Dị Mfe - n'ihi na n'ọtụtụ ọnọdụ anyị na-eme dịtụ mfe mgbako kwa nkeji nke ozi. O siri ike - n'ihi na enwere ọtụtụ ozi dị otú ahụ. Ọtụtụ. N'ihi ya, mmadụ kwesịrị hazie terabytes nke data na 1000 eri. Ya mere, ikpe eji eme ihe bụ ihe zuru ụwa ọnụ: enwere ike itinye mgbako n'ebe ọ bụla a chọrọ ka ị buru n'uche ọnụ ọgụgụ dị ukwuu nke metrics na nnukwu data data.

Otu ihe atụ na nso nso a: Dodo Pizza akọwapụtara dabere na nyocha nke isi usoro ndị ahịa, na mgbe ị na-ahọrọ pizza na toppings aka ike, ndị ọrụ na-arụkarị ọrụ naanị usoro ihe eji eme ihe isii yana otu di na nwunye nke random. N'ihi ya, pizzeria meziri ịzụrụ ihe. Tụkwasị na nke ahụ, ọ nwere ike ịkwado ngwaahịa ndị ọzọ na-enye ndị ọrụ n'usoro usoro, nke mụbara uru.

Ihe atụ ọzọ: nyocha ngwa ahịa nyere H&M ohere ibelata ihe dị iche iche na ụlọ ahịa nke ọ bụla site na 40%, ebe ọ na-ejigide ọkwa ahịa. Emere nke a site n'iwepụ ọnọdụ ire ere na-adịghị mma, a na-etinyekwa oge n'oge na mgbako.

Nhọrọ ngwaọrụ

Ụkpụrụ ụlọ ọrụ maka ụdị kọmpụta a bụ Hadoop. Gịnị kpatara? N'ihi na Hadoop bụ ọmarịcha akwụkwọ edekọ nke ọma (otu Habr ahụ na-enye ọtụtụ akụkọ zuru oke na isiokwu a), nke jikọtara ya na ngwa ọrụ na ọba akwụkwọ niile. Ị nwere ike ịnye nnukwu nhazi nke data ahaziri ahazi na nke a na-ahazighị dịka ntinye, na usoro ahụ n'onwe ya ga-ekesa ha n'etiti ike mgbakọ. Ọzọkwa, otu ikike ndị a nwere ike ịbawanye ma ọ bụ nwee nkwarụ n'oge ọ bụla - otu ụdị scalability ahụ na-arụ ọrụ.

Na 2017, ụlọ ọrụ na-ahụ maka ndụmọdụ Gartner kwubirina Hadoop ga-aghọ ihe ochie. Ihe kpatara ya bụ banal: ndị nyocha kwenyere na ụlọ ọrụ ga-akwaga n'igwe ojii nke ukwuu, ebe ọ bụ na ha ga-enwe ike ịkwụ ụgwọ dabere na iji ike kọmputa. Ihe nke abụọ dị mkpa e chere na ọ nwere ike "ili" Hadoop bụ ọsọ nke ọrụ. N'ihi na nhọrọ dị ka Apache Spark ma ọ bụ Google Cloud DataFlow na-agba ọsọ karịa MapReduce okpuru Hadoop.

Hadoop dabere n'ọtụtụ ogidi, ndị a ma ama bụ teknụzụ MapReduce (usoro maka ikesa data maka mgbako n'etiti sava) yana sistemụ faịlụ HDFS. Emebere nke ikpeazụ ahụ ka ọ chekwaa ozi kesara n'etiti oghere ụyọkọ: enwere ike itinye ngọngọ ọ bụla nke nha nha n'ọtụtụ ọnụ, yana ekele maka mmeghari, sistemụ na-eguzogide ọdịda nke ọnụ ọnụ onye ọ bụla. Kama tebụl faịlụ, a na-eji ihe nkesa pụrụ iche a na-akpọ NameNode.

Ihe atụ dị n'okpuru na-egosi ka MapReduce si arụ ọrụ. Na ọkwa mbụ, a na-ekewa data ahụ dị ka àgwà ụfọdụ si dị, na nke abụọ a na-ekesa ya site na ike ịgbakọ, na nke atọ nke ngụkọta oge na-ewere ọnọdụ.

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya
Google bu ụzọ mebere MapReduce maka mkpa nke ọchụchọ ya. Mgbe ahụ MapReduce batara na koodu efu, Apache weghaara ọrụ ahụ. Ọfọn, Google ji nwayọọ nwayọọ kwaga na ngwọta ndị ọzọ. Nuance na-adọrọ mmasị: n'oge a, Google nwere oru ngo a na-akpọ Google Cloud Dataflow, nke edobere dị ka nzọụkwụ na-esote mgbe Hadoop gasịrị, dị ka nnọchi ngwa ngwa.

Nleba anya na-egosi na Google Cloud Dataflow dabere na mgbanwe nke Apache Beam, ebe Apache Beam na-agụnye usoro Apache Spark nke edere nke ọma, nke na-enye anyị ohere ikwu banyere ihe fọrọ nke nta ka ọ bụrụ otu ngwa ngwa nke ngwọta ngwọta. Ọ dị mma, Apache Spark na-arụ ọrụ nke ọma na sistemụ faịlụ HDFS, nke na-enye gị ohere ibuga ya na sava Hadoop.

Tinye ebe a olu akwụkwọ na ihe edozi edozi maka Hadoop na Spark megide Google Cloud Dataflow, na nhọrọ ngwá ọrụ na-apụta ìhè. Ọzọkwa, ndị injinia nwere ike ikpebi n'onwe ha koodu - n'okpuru Hadoop ma ọ bụ Spark - ha ga-eme, na-elekwasị anya na ọrụ, ahụmịhe na iru eru.

Igwe ojii ma ọ bụ ihe nkesa mpaghara

Omume na-aga n'ihu na mgbanwe izugbe gaa na ígwé ojii ewepụtala okwu na-atọ ụtọ dị ka Hadoop-as-a-service. N'ọnọdụ dị otú ahụ, nchịkwa nke sava ejikọrọ aghọwo ihe dị ezigbo mkpa. N'ihi na, Ewoo, n'agbanyeghị ewu ewu ya, Hadoop dị ọcha bụ ngwá ọrụ siri ike ịhazi, ebe ị ga-eji aka mee ọtụtụ ihe. Dịka ọmụmaatụ, ị nwere ike hazie sava n'otu n'otu, nyochaa arụmọrụ ha, ma dozie ọtụtụ parampat. N'ozuzu, rụọ ọrụ maka onye na-amu amu na enwere ohere buru ibu iji mebie ebe ma ọ bụ tụfuo ihe.

Ya mere, nkesa dị iche iche aghọwo ihe na-ewu ewu nke ukwuu, bụ nke a kwadebere na mbụ na ntinye ntinye na ngwaọrụ nchịkwa dị mma. Otu n'ime nkesa na-ewu ewu na-akwado Spark na-eme ka ihe dị mfe bụ Cloudera. O nwere ma nsụgharị akwụ ụgwọ na n'efu - na nke ikpeazụ, ọrụ niile bụ isi dị, na-enweghị njedebe ọnụ ọgụgụ nke ọnụ.

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

N'oge nhazi, Cloudera Manager ga-ejikọta site na SSH na sava gị. Ihe na-adọrọ mmasị: mgbe ị na-etinye ya, ọ ka mma ịkọwapụta na a na-eme ya site na ihe a na-akpọ ngwugwu: ngwugwu pụrụ iche, nke ọ bụla n'ime ha nwere ihe niile dị mkpa ahaziri iji rụọ ọrụ na ibe ya. N'ezie, nke a bụ ụdị njikwa ngwugwu emelitere.

Mgbe echichi gasịrị, anyị na-enweta njikwa njikwa ụyọkọ, ebe ị nwere ike ịhụ telemetry maka ụyọkọ, ọrụ arụnyere, gbakwunyere ị nwere ike tinye / wepu akụrụngwa ma dezie nhazi ụyọkọ.

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

N'ihi ya, igbutu rọketi ahụ na-apụta n'ihu gị, nke ga-eduga gị n'ọdịnihu na-egbuke egbuke nke BigData. Mana tupu anyị asị "ka anyị gaa", ka anyị gbasie ọsọ ọsọ n'okpuru mkpuchi.

ngwaike chọrọ

Na webụsaịtị ha, Cloudera kwuru nhazi dị iche iche enwere ike. E gosipụtara ụkpụrụ izugbe nke e ji wuo ha n'ihe atụ a:

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya
MapReduce nwere ike mebie foto a nwere nchekwube. N'ileghachi anya na eserese dị na ngalaba gara aga, ọ ga-edo anya na n'ihe fọrọ nke nta ka ọ bụrụ n'ọnọdụ niile, ọrụ MapReduce nwere ike ịdaba n'olu mgbe ị na-agụ data sitere na diski ma ọ bụ netwọk. A na-ahụkwa nke a na blọọgụ Cloudera. N'ihi ya, maka mgbako ngwa ngwa ọ bụla, gụnyere site na Spark, nke a na-ejikarị eme ihe maka nhazi oge, ọsọ I / O dị ezigbo mkpa. Ya mere, mgbe ị na-eji Hadoop, ọ dị ezigbo mkpa na igwe kwụ ọtọ na ngwa ngwa na-abanye n'ime ụyọkọ ahụ, nke, n'ikwu ya n'ụzọ dị nro, a naghị enye ya mgbe niile na akụrụngwa igwe ojii.

A na-enweta nguzozi na nkesa ibu site na iji Opentack virtualization na sava nwere ọtụtụ CPUs dị ike. A na-ekenye ọnụ ọnụ data nke akụrụngwa nhazi nke ha yana ụfọdụ diski. Na ngwọta anyị Atos Codex Data Lake Engine A na-enweta ikike dị ukwuu, nke mere anyị ji merie ma n'ihe gbasara arụmọrụ (mmetụta nke akụrụngwa netwọk na-ebelata) na TCO (a na-ewepụ sava anụ ahụ ọzọ).

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya
N'ihe banyere iji sava BullSequana S200, anyị na-enweta ibu dị otu nke na-enweghị ụfọdụ ihe mgbochi. Nhazi kacha nta gụnyere sava 3 BullSequana S200, nke ọ bụla nwere JBOD abụọ, gbakwunyere S200s nwere ọnụ data anọ ka ejikọtara nhọrọ. Nke a bụ ibu atụ na ule TeraGen:

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

Nnwale nwere mpịakọta data dị iche iche yana ụkpụrụ mmegharị na-egosi otu nsonaazụ ahụ na usoro nkesa ibu n'ofe ọnụ ụyọkọ. N'okpuru ebe a bụ eserese nke nkesa nke ịnweta diski site na ule arụmọrụ.

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

Mgbakọ dabere na nhazi kacha nta nke sava 3 BullSequana S200. Ọ gụnyere ọnụ ọnụ data 9 na ọnụ ụzọ 3, yana igwe mebere echekwabara ma ọ bụrụ na etinyere nchekwa dabere na OpenStack Virtualization. Nsonaazụ ule TeraSort: 512MB nha ngọngọ nke ihe ngbanwe nke atọ nwere nzuzo bụ nkeji 23,1.

Kedu ka usoro a ga-esi gbasaa? Ụdị ndọtị dị iche iche dị maka Data Lake Engine:

  • Ọnụ data: maka 40 TB ọ bụla nke ohere eji arụ ọrụ
  • Ọnụ nyocha nwere ikike ịwụnye GPU
  • Nhọrọ ndị ọzọ dabere na mkpa azụmahịa (dịka ọmụmaatụ, ọ bụrụ na ịchọrọ Kafka na ihe ndị ọzọ)

Kedu ihe pụrụ iche gbasara Cloudera na otu esi esi ya

Ihe mgbagwoju anya Atos Codex Data Lake Engine gụnyere ma sava n'onwe ha yana ngwanrọ etinyere ya, gụnyere ngwa Cloudera nwere ikike; Hadoop n'onwe ya, OpenStack nwere igwe mebere dabere na RedHat Enterprise Linux kernel, ntinye data na sistemu ndabere (gụnyere iji oghere ndabere na Cloudera BDR - ndabere na mgbake ọdachi). Atos Codex Data Lake Engine bụ ihe izizi izizi ga-enweta asambodo Na-emepụta ihe.

Ọ bụrụ na ị nwere mmasị na nkọwa, anyị ga-enwe obi ụtọ ịza ajụjụ anyị na nkọwa.

isi: www.habr.com

Tinye a comment