Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Mmaraka oa ho ajoa komporo le data e kholo, ho latela lipalo, e hola ka 18-19% ka selemo. Sena se bolela hore taba ea ho khetha software bakeng sa merero ena e lula e le ea bohlokoa. Ka poso ena, re tla qala ka hore na ke hobane'ng ha ho ajoa komporong ho hlokahala, re kene ka ho qaqileng haholoanyane mabapi le ho khetha software, bua ka ho sebelisa Hadoop ho sebelisa Cloudera, 'me qetellong re bue ka ho khetha hardware le kamoo e amang tshebetso ka litsela tse fapaneng.

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha
Ke hobane'ng ha likhomphutha tse ajoang li hlokahala khoebong e tloaelehileng? Ntho e 'ngoe le e' ngoe mona e bonolo ebile e rarahane ka nako e le 'ngoe. E bonolo - hobane maemong a mangata re etsa lipalo tse batlang li le bonolo yuniti ka 'ngoe ea tlhahisoleseling. Ho thata hobane ho na le litaba tse joalo tse ngata. Tse ngata haholo. Ka lebaka leo, hoa hlokahala sebetsa li-terabyte tsa data ka likhoele tse 1000. Kahoo, maemo a ts'ebeliso a sebetsa hohle: lipalo li ka sebelisoa kae kapa kae moo ho hlokahalang ho ela hloko palo e kholo ea metrics ho lethathamo le leholo le ho feta la data.

E 'ngoe ea mehlala ea morao-rao: ketane ea pizzeria Dodo Pizza ikemiselitse e ipapisitse le tlhahlobo ea polokelo ea lintlha tsa bareki, hore ha u khetha pizza e nang le topping e sa reroang, basebelisi ba atisa ho sebetsa ka lihlopha tse tšeletseng feela tsa metsoako le tse 'maloa tse sa reroang. Tumellanong le sena, pizzeria e ile ea fetola theko ea eona. Ho feta moo, o ile a khona ho khothaletsa hamolemo lihlahisoa tse eketsehileng tse fuoang basebelisi nakong ea ho laela, e leng se ileng sa eketsa phaello.

Mohlala o mong hape: tlhatlhobo lihlahisoa tsa lihlahisoa li lumelletse lebenkele la H&M ho fokotsa assortment mabenkeleng a motho ka mong ka 40%, ha a ntse a boloka maemo a thekiso. Sena se ile sa finyelloa ka ho se kenyeletse lintho tse rekisoang hampe, 'me nako ea selemo e ile ea hlokomeloa lipalong.

Khetho ea lisebelisoa

Tekanyetso ea indasteri ea mofuta ona oa komporo ke Hadoop. Hobaneng? Hobane Hadoop ke moralo o motle, o ngotsoeng hantle (Habr e tšoanang e fana ka lingoliloeng tse ngata tse qaqileng ka taba ena), e tsamaeang le lisebelisoa le lilaebrari. U ka kenya lisebelisoa tse kholo tsa data e hlophisitsoeng le e sa hlophisoang, 'me sistimi ka boeona e tla e aba har'a matla a komporo. Ho feta moo, bokhoni bona bo ka eketsoa kapa ba holofatsoa ka nako efe kapa efe - ts'ebetso e ts'oanang e ts'oanang.

Ka 2017, khampani e nang le tšusumetso e matla ea Gartner phethelahore Hadoop e tla tloha e felloa ke nako. Lebaka ke banal haholo: bahlahlobisisi ba lumela hore lik'hamphani li tla falla ka bongata ho ea lerung, kaha moo li tla khona ho lefa ha li sebelisa matla a komporo. Ntho ea bobeli ea bohlokoa eo ho thoeng e ka "pata" Hadoop ke lebelo la eona. Hobane likhetho tse kang Apache Spark kapa Google Cloud DataFlow li potlakile ho feta MapReduce, e thehiloeng Hadoop.

Hadoop e lutse holim'a litšiea tse 'maloa, tse hlahelletseng ka ho fetesisa ke theknoloji ea MapReduce (mokhoa oa ho aba data bakeng sa lipalo lipakeng tsa li-server) le sistimi ea faele ea HDFS. Ea ho qetela e etselitsoe ka ho khetheha bakeng sa ho boloka boitsebiso bo ajoang pakeng tsa lihlopha tsa lihlopha: boloko bo bong le bo bong ba boholo bo tsitsitseng bo ka behoa holim'a li-node tse 'maloa,' me ka lebaka la ho pheta-pheta, tsamaiso e mamella ho hlōleha ha li-node ka bomong. Sebakeng sa tafole ea faele, ho sebelisoa seva e khethehileng e bitsoang NameNode.

Setšoantšo se ka tlase se bontša kamoo MapReduce e sebetsang kateng. Boemong ba pele, data e arotsoe ho ea ka tekanyo e itseng, sethaleng sa bobeli e ajoa ho ea ka matla a k'homphieutha, 'me sethaleng sa boraro ho baloa ho etsahala.

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha
MapReduce qalong e entsoe ke Google bakeng sa litlhoko tsa eona tsa ho batla. Eaba MapReduce e fana ka khoutu ea mahala, 'me Apache a nka mosebetsi. Che, Google e ile ea fallela butle-butle ho litharollo tse ling. Taba e khahlisang: hajoale Google e na le projeke e bitsoang Google Cloud Dataflow, e behiloeng joalo ka mohato o latelang ka mor'a Hadoop, e le phetoho e potlakileng ea eona.

Ho shebisisa hantle ho bonts'a hore Google Cloud Dataflow e ipapisitse le phapang ea Apache Beam, ha Apache Beam e kenyelletsa moralo o ngotsoeng hantle oa Apache Spark, o re lumellang ho bua ka lebelo le ts'oanang la tharollo ea tharollo. Apache Spark e sebetsa hantle ho sistimi ea faele ea HDFS, e e lumellang hore e sebelisoe ho li-server tsa Hadoop.

Eketsa mona boholo ba litokomane le tharollo e lokiselitsoeng bakeng sa Hadoop le Spark khahlano le Google Cloud Dataflow, 'me khetho ea sesebelisoa e ea totobala. Ho feta moo, baenjiniere ba ka iketsetsa qeto ea hore na ke khoutu efe - bakeng sa Hadoop kapa Spark - ba lokelang ho e matha, ba tsepamisitse maikutlo mosebetsing, phihlelo le litšoaneleho.

Cloud kapa seva ea lehae

Mokhoa o lebisang phetohong e akaretsang ea maru o bile o hlahisitse lentsoe le khahlisang joalo ka Hadoop-as-a-service. Boemong bo joalo, tsamaiso ea li-server tse hokahaneng e ile ea e-ba ea bohlokoa haholo. Hobane, oho, leha e tumme, Hadoop e hloekileng ke sesebelisoa se thata ho se hlophisa, kaha ho hongata ho tlameha ho etsoa ka letsoho. Mohlala, lokisa li-server ka bonngoe, hlokomela ts'ebetso ea tsona, 'me u lokise litekanyo tse ngata ka hloko. Ka kakaretso, mosebetsi ke oa motho ea sa rutehang 'me ho na le monyetla o moholo oa ho senya kae-kae kapa ho lahleheloa ke ntho e itseng.

Ka hona, lisebelisoa tse fapaneng tsa kabo, tseo qalong li nang le lisebelisoa tse bonolo tsa ho tsamaisa le tsa tsamaiso, li se li tumme haholo. E 'ngoe ea likhatiso tse tsebahalang haholo tse ts'ehetsang Spark mme e nolofalletsa ntho e ngoe le e ngoe ke Cloudera. E na le liphetolelo tse lefuoang le tse sa lefelloeng - 'me qetellong lits'ebetso tsohle tsa mantlha lia fumaneha, ntle le ho fokotsa palo ea li-node.

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Nakong ea ho seta, Cloudera Manager o tla hokela ka SSH ho li-server tsa hau. Ntlha e thahasellisang: ha u kenya, ho molemo ho hlakisa hore e etsoa ke seo ho thoeng ke sona likaroloana: liphutheloana tse khethehileng, e 'ngoe le e' ngoe e na le likarolo tsohle tse hlokahalang tse lokiselitsoeng ho sebetsa hammoho. Ha e le hantle ena ke mofuta o ntlafalitsoeng oa mookameli oa sephutheloana.

Ka mor'a ho kenya, re fumana setsi sa tsamaiso ea lihlopha, moo u ka bonang telemetry ea lihlopha, lits'ebeletso tse kentsoeng, 'me u ka eketsa / tlosa lisebelisoa le ho hlophisa tlhophiso ea lihlopha.

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Ka lebaka leo, ntlo ea rokete e tla u isa bokamosong bo khanyang ba BigData e hlaha ka pel'a hau. Empa pele re re "a re ee," a re ke re tsamaee ka tlas'a sekoahelo.

Litlhoko tsa lisebelisoa

Webosaeteng ea eona, Cloudera e bua ka litlhophiso tse fapaneng tse ka khonehang. Melao-motheo e akaretsang eo li hahoang ka eona e bontšoa papisong:

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha
MapReduce e ka fifatsa setšoantšo sena se nang le tšepo. Haeba u sheba hape setšoantšo se tsoang karolong e fetileng, hoa hlaka hore hoo e batlang e le maemong 'ohle, mosebetsi oa MapReduce o ka kopana le bothata ha u bala data ho tswa ho disk kapa ho tloha marang-rang. Sena se boetse se hlokometsoe ho Cloudera blog. Ka lebaka leo, bakeng sa lipalo leha e le life tse potlakileng, ho kenyeletsa le Spark, e atisang ho sebelisoa bakeng sa lipalo tsa nako ea sebele, lebelo la I / O le bohlokoa haholo. Ka hona, ha u sebelisa Hadoop, ke habohlokoa haholo hore sehlopha se kenyelelitse mechine e leka-lekaneng le e potlakileng, eo, ho e beha ka bonolo, ha e tiisetsoe kamehla ka lisebelisoa tsa maru.

Ho leka-lekanya kabong ea mojaro ho finyelloa ka ts'ebeliso ea Openstack virtualization ho li-server tse nang le li-CPU tse matla tsa li-multi-core. Li-node tsa data li abeloa lisebelisoa tsa tsona tsa processor le li-disk tse ikhethileng. Qetong ea rona Atos Codex Data Lake Engine Ho finyelloa ka mokhoa o pharaletseng, ke ka lebaka leo re ruang molemo ka bobeli ka ts'ebetso (tšusumetso ea lisebelisoa tsa marang-rang e fokotsehile) le TCO (li-server tse eketsehileng tsa 'mele li tlosoa).

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha
Ha re sebelisa li-server tsa BullSequana S200, re fumana mojaro o ts'oanang haholo, o senang libotlolo tse ling. Tlhophiso e fokolang e kenyelletsa li-server tse 3 tsa BullSequana S200, e 'ngoe le e' ngoe e na le li-JBOD tse peli, hammoho le li-S200 tse ling tse nang le li-node tse 'nè tsa data li hokahane ka boikhethelo. Mona ke mohlala oa mojaro tekong ea TeraGen:

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Liteko tse nang le lipalo tse fapaneng tsa data le boleng ba ho pheta-pheta li bonts'a liphetho tse tšoanang mabapi le kabo ea mojaro lipakeng tsa li-cluster node. Ka tlase ke graph ea kabo ea phihlello ea disk ka liteko tsa ts'ebetso.

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Lipalo li entsoe ho ipapisitsoe le boemo bo tlase ba li-server tse 3 tsa BullSequana S200. E kenyelletsa li-node tsa data tse 9 le li-master node tse 3, hammoho le mechini e bolokiloeng e bolokiloeng haeba ho ka tsamaisoa ts'ireletso e thehiloeng ho OpenStack Virtualization. Sephetho sa tlhahlobo ea TeraSort: saese ea block 512 MB e lekanang le tse tharo tse nang le encryption ke metsotso e 23,1.

Tsamaiso e ka atolosoa joang? Ho na le mefuta e fapaneng ea likeketso tse fumanehang bakeng sa Data Lake Engine:

  • Lintlha tsa data: bakeng sa 40 TB e 'ngoe le e 'ngoe ea sebaka se ka sebelisoang
  • Li-node tsa analytical tse nang le bokhoni ba ho kenya GPU
  • Likhetho tse ling ho latela litlhoko tsa khoebo (mohlala, haeba u hloka Kafka le tse ling tse joalo)

Ke eng e ikhethang ka Cloudera le mokhoa oa ho e pheha

Atos Codex Data Lake Engine e kenyelletsa li-server ka botsona le software e kentsoeng pele, ho kenyeletsoa le kit e nang le tumello ea Cloudera; Hadoop ka boeona, OpenStack e nang le mechine ea sebele e thehiloeng ho RedHat Enterprise Linux kernel, mokhoa oa ho pheta-pheta le mekhoa ea ho boloka (ho kenyeletsoa ho sebelisa node ea ho boloka le Cloudera BDR - Backup le Disaster Recovery). Atos Codex Data Lake Engine e bile tharollo ea pele ea virtualization ho netefatsoa Cloudera.

Haeba u thahasella lintlha, re tla thabela ho araba lipotso tsa rona ho maikutlo.

Source: www.habr.com

Eketsa ka tlhaloso