He aha te mea motuhake mo Cloudera me pehea te tunu

Ko te maakete mo te tohatoha rorohiko me nga raraunga nui, e ai ki tatauranga, kei te tipu haere i te 18-19% ia tau. Ko te tikanga ko te take o te kowhiri i nga rorohiko mo enei kaupapa e whai kiko tonu ana. I roto i tenei pou, ka timata tatou me te aha e hiahiatia ana te rorohiko tohatoha, me nga korero mo te kowhiringa rorohiko, korero mo te whakamahi i te Hadoop ma te whakamahi Cloudera, ka mutu ka korero mo te kowhiri i nga taputapu me te pehea e pa ana ki nga mahi i nga huarahi rereke.

He aha te mea motuhake mo Cloudera me pehea te tunu
He aha te take e hiahiatia ai te tohatoha rorohiko i roto i nga pakihi auau? Ko nga mea katoa i konei he maamaa me te uaua i te wa ano. Maamaa - na te mea i te nuinga o te waa ka mahia e matou nga tatauranga ngawari mo ia waahanga korero. He uaua na te mea he maha nga korero penei. He maha. Ko te mutunga, he mea tika tukatuka terabytes o nga raraunga i roto i te 1000 miro. No reira, he tino whanui nga keehi: ka taea te whakamahi i nga tatauranga ki nga waahi katoa e tika ana kia whai whakaaro ki te maha o nga ine i runga i te huinga raraunga nui ake.

Ko tetahi o nga tauira hou: te mekameka pizzeria Dodo Pizza whakaritea i runga i te tātaritanga o te papaunga raraunga ota a nga kaihoko, i te wa e whiriwhiri ana i te pizza me te tihi matapōkere, ko te nuinga o te waa ka mahi nga kaiwhakamahi me te ono noa o nga huinga kai me nga mea matapōkere e rua. I runga ano i tenei, i whakatikahia e te pizzeria ana hoko. I tua atu, i taea e ia te pai ake te taunaki i etahi atu hua e tukuna ana ki nga kaiwhakamahi i te waa ota, i piki ake ai nga hua.

Ko tetahi atu tauira: tātaritanga Ko nga taonga hua ka taea e te toa H&M te whakaheke i te maha o nga toa takitahi ma te 40%, me te pupuri i nga taumata hoko. I tutuki tenei ma te whakakore i te hokonga kino o nga taonga, me te whai waahi ki te whai waahi ki nga tatauranga.

Kōwhiringa taputapu

Ko te paerewa ahumahi mo tenei momo rorohiko ko Hadoop. He aha? Na te mea he anga pai rawa atu a Hadoop, he pai te tuhi (ko taua Habr ano e whakarato ana i nga korero maha mo tenei kaupapa), ka haere tahi me te huinga katoa o nga taputapu me nga whare pukapuka. Ka taea e koe te whakauru i nga huinga nui o nga raraunga hanganga me nga raraunga kore, ma te punaha ano e tohatoha ki waenga i te mana rorohiko. I tua atu, ko enei kaha ka taea te whakanui ake, te whakakore ranei i nga wa katoa - ko taua waahanga whakapae e mahi ana.

I te tau 2017, ko te kamupene tohutohu whai mana a Gartner ka mutue kore e roa ka ngaro a Hadoop. He maamaa noa te take: e whakapono ana nga kaitirotiro ka heke nga kamupene ki te kapua, na te mea ka taea e raatau te utu i a raatau e whakamahi ana i te mana rorohiko. Ko te take nui tuarua e kiia ana ka "tanum" a Hadoop ko tona tere. Na te mea he tere ake nga whiringa penei i a Apache Spark me Google Cloud DataFlow i te MapReduce, kei raro i a Hadoop.

He maha nga pou e noho ana a Hadoop, ko te mea tino rongonui ko nga hangarau MapReduce (he punaha mo te tohatoha raraunga mo nga tatauranga i waenga i nga kaitoro) me te punaha konae HDFS. Ko te mea whakamutunga he mea hanga motuhake mo te penapena korero kua tohatohahia i waenga i nga kohinga kapopuu: ka taea te whakanoho ia poraka o te rahi o te rahi ki runga i te maha o nga pona, me te mihi ki te tukurua, ka kaha te punaha ki nga ngoikoretanga o nga pona takitahi. Engari he ripanga konae, ka whakamahia he tūmau motuhake ko NameNode.

Ko te whakaahua i raro nei e whakaatu ana i te mahi a MapReduce. I te waahi tuatahi, ka wehewehea nga raraunga i runga i tetahi waahanga, i te waahanga tuarua ka tohatohahia kia rite ki te mana rorohiko, a, i te tuatoru o nga waahanga ka mahia te tatauranga.

He aha te mea motuhake mo Cloudera me pehea te tunu
I hangaia a MapReduce e Google mo ana hiahia rapu. Na ka haere a MapReduce i te waehere koreutu, a ka mau a Apache i te kaupapa. Ana, kua heke haere a Google ki etahi atu otinga. He korero whakamere: I tenei wa kei a Google tetahi kaupapa e kiia nei ko Google Cloud Dataflow, kua tu hei mahi i muri mai i a Hadoop, hei whakakapinga tere.

Ko te titiro tata atu e whakaatu ana ko Google Cloud Dataflow kei runga i te rereketanga o Apache Beam, i te mea kei roto a Apache Beam te angamahi Apache Spark kua tuhia pai, e taea ai e tatou te korero mo te rite tonu te tere o te mahi o nga otinga. Ana, he pai te mahi a Apache Spark i runga i te punaha konae HDFS, e taea ai te tuku ki runga i nga tūmau Hadoop.

Taapirihia ki konei te nui o nga tuhinga me nga otinga kua rite mo Hadoop me Spark versus Google Cloud Dataflow, a ka kitea te whiringa taputapu. I tua atu, ka taea e nga miihini te whakatau ma ratou ake ko tehea waehere - mo Hadoop, Spark ranei - me oma, ma te aro ki te mahi, wheako me nga tohu.

Kapua, he tūmau rohe ranei

Ko te ahua ki te whakawhiti whanui ki te kapua kua ara ake he kupu whakamere penei i a Hadoop-as-a-service. I roto i tenei ahuatanga, ka tino nui te whakahaere o nga kaitoro hono. Na te mea, aue, ahakoa tona rongonui, ko te Hadoop parakore he taputapu uaua ki te whirihora, na te mea he maha nga mahi ma te ringa. Hei tauira, whirihora takitahi nga tūmau, te aro turuki i a raatau mahi, me te ata whirihora i nga tawhā maha. I te nuinga o te waa, ma te hunga runaruna te mahi, a he nui te tupono ki te takahi i tetahi waahi, ka ngaro ranei tetahi mea.

Na reira, kua tino rongonui nga momo kete tohatoha, i te tuatahi ki te whakauru me nga taputapu whakahaere. Ko tetahi o nga tohatoha rongonui e tautoko ana i te Spark me te ngawari o nga mea katoa ko Cloudera. Kei a ia nga putanga utu me te kore utu - a, i muri mai ka waatea nga mahi taketake katoa, me te kore e whakaiti i te maha o nga pona.

He aha te mea motuhake mo Cloudera me pehea te tunu

I roto i te tatūnga, ka hono te Kaiwhakahaere Cloudera ma te SSH ki o tūmau. He waahi whakamere: i te wa e whakauru ana, he pai ake te kii ka mahia e te mea e kiia ana poroporo: nga kohinga motuhake, kei ia waahanga nga waahanga e tika ana kua whirihorahia kia mahi tahi me tetahi. Ko te tikanga he putanga pai ake tenei o te kaiwhakahaere kete.

Whai muri i te whakaurunga, ka whiwhi matou i te papatohu whakahaere tautau, ka kite koe i te waea waea, nga ratonga kua whakauruhia, me te taapiri/tango rauemi me te whakatika i te whirihoranga tautau.

He aha te mea motuhake mo Cloudera me pehea te tunu

Ko te mutunga mai, ka puta mai ki mua i a koe te whare o te roketi e kawe ai koe ki te ao marama o BigData. Engari i mua i ta tatou kii "kia haere," kia neke tatou i raro i te potae.

Nga whakaritenga taputapu

I runga i tana paetukutuku, ka whakahua a Cloudera i nga momo whirihoranga ka taea. Ko nga maataapono whanui i hangaia ai e whakaatuhia ana i te whakaahua:

He aha te mea motuhake mo Cloudera me pehea te tunu
Ka taea e MapReduce te whakapouri i tenei pikitia pai. Mena ka titiro ano koe ki te hoahoa mai i te waahanga o mua, ka maarama ko te nuinga o nga keehi, ka taea e te mahi a MapReduce te tutaki i te pounamu ina panui nga raraunga mai i te kōpae, mai i te whatunga ranei. Kei te tuhia hoki tenei i roto i te rangitaki Cloudera. Ko te mutunga, mo nga tatauranga tere, tae atu ki te Spark, e whakamahia ana mo nga tatauranga wa-tūturu, he mea nui te tere I/O. Na reira, i te wa e whakamahi ana i te Hadoop, he mea tino nui kia whakauruhia e te roopu nga miihini taurite me te tere, na, ki te ngawari, kaore i te whakarite i nga wa katoa i roto i te hanganga kapua.

Ko te toenga o te tohatoha kawenga ka tutuki ma te whakamahi i te Openstack virtualization i runga i nga kaitoro me nga PTM maha-matua kaha. Ka tohatohahia nga pona raraunga ki a raatau ake rauemi tukatuka me nga kōpae motuhake. I roto i ta maatau whakatau Atos Codex Data Lake Engine Kua tutuki te mariko whanui, na reira ka whai hua tatou i runga i nga ahuatanga o te mahi (kua whakaitihia te paanga o te hanganga whatunga) me te TCO (kua whakakorehia etahi atu tūmau tinana).

He aha te mea motuhake mo Cloudera me pehea te tunu
I te wa e whakamahi ana i nga tūmau BullSequana S200, ka whiwhi tatou i te kawenga tino rite, karekau he pounamu. Kei roto i te whirihoranga iti e 3 nga tūmau BullSequana S200, ia me nga JBOD e rua, me etahi atu S200 kei roto e wha nga pona raraunga ka hono noa. Anei tetahi tauira o te kawenga i roto i te whakamatautau TeraGen:

He aha te mea motuhake mo Cloudera me pehea te tunu

Ko nga whakamatautau me nga rahinga raraunga rereke me nga uara tukurua e whakaatu ana i nga hua rite mo te tohatoha kawenga i waenga i nga kohinga kohinga. Kei raro nei te kauwhata o te tohatoha o te urunga kōpae ma nga whakamatautau mahi.

He aha te mea motuhake mo Cloudera me pehea te tunu

I mahia nga tatauranga i runga i te whirihoranga iti o nga tūmau BullSequana S3 e 200. Kei roto e 9 nga pona raraunga me nga pona ariki e 3, me nga miihini mariko kua rahuitia mena ka tukuna he whakamarumaru i runga i te OpenStack Virtualization. Hua whakamātautau TeraSort: rahi poraka 512 MB tauwehe tārua rite ki te toru me te whakamunatanga he 23,1 meneti.

Me pehea te whakawhānui ake i te punaha? He rereke nga momo toronga e waatea ana mo te Raraunga Lake Engine:

  • Kohanga Raraunga: mo ia 40 TB o te waahi ka taea te whakamahi
  • Node tātari me te kaha ki te whakauru i te GPU
  • Ko etahi atu whiringa i runga i nga hiahia pakihi (hei tauira, mena ka hiahia koe ki a Kafka me etahi atu)

He aha te mea motuhake mo Cloudera me pehea te tunu

Kei roto i te Atos Codex Data Lake Engine nga kaimau tonu me nga rorohiko i mua i te whakauru, tae atu ki tetahi kete Cloudera kua raihanatia; Ko Hadoop ake, OpenStack me nga miihini mariko i runga i te kakano RedHat Enterprise Linux, te tukurua raraunga me nga punaha taapiri (tae atu ki te whakamahi i te node taapiri me te Cloudera BDR - Whakaora me te Whakaora Whakaora). Ko Atos Codex Data Lake Engine te otinga mariko tuatahi kua whakamanahia Cloudera.

Mena kei te pirangi koe ki nga korero, ka koa matou ki te whakautu i a maatau patai i roto i nga korero.

Source: will.com

Tāpiri i te kōrero