Mmaraka oa ho ajoa komporo le data e kholo, ho latela
Ke hobane'ng ha likhomphutha tse ajoang li hlokahala khoebong e tloaelehileng? Ntho e 'ngoe le e' ngoe mona e bonolo ebile e rarahane ka nako e le 'ngoe. E bonolo - hobane maemong a mangata re etsa lipalo tse batlang li le bonolo yuniti ka 'ngoe ea tlhahisoleseling. Ho thata hobane ho na le litaba tse joalo tse ngata. Tse ngata haholo. Ka lebaka leo, hoa hlokahala
E 'ngoe ea mehlala ea morao-rao: ketane ea pizzeria Dodo Pizza
Mohlala o mong hape:
Khetho ea lisebelisoa
Tekanyetso ea indasteri ea mofuta ona oa komporo ke Hadoop. Hobaneng? Hobane Hadoop ke moralo o motle, o ngotsoeng hantle (Habr e tšoanang e fana ka lingoliloeng tse ngata tse qaqileng ka taba ena), e tsamaeang le lisebelisoa le lilaebrari. U ka kenya lisebelisoa tse kholo tsa data e hlophisitsoeng le e sa hlophisoang, 'me sistimi ka boeona e tla e aba har'a matla a komporo. Ho feta moo, bokhoni bona bo ka eketsoa kapa ba holofatsoa ka nako efe kapa efe - ts'ebetso e ts'oanang e ts'oanang.
Ka 2017, khampani e nang le tšusumetso e matla ea Gartner
Hadoop e lutse holim'a litšiea tse 'maloa, tse hlahelletseng ka ho fetesisa ke theknoloji ea MapReduce (mokhoa oa ho aba data bakeng sa lipalo lipakeng tsa li-server) le sistimi ea faele ea HDFS. Ea ho qetela e etselitsoe ka ho khetheha bakeng sa ho boloka boitsebiso bo ajoang pakeng tsa lihlopha tsa lihlopha: boloko bo bong le bo bong ba boholo bo tsitsitseng bo ka behoa holim'a li-node tse 'maloa,' me ka lebaka la ho pheta-pheta, tsamaiso e mamella ho hlōleha ha li-node ka bomong. Sebakeng sa tafole ea faele, ho sebelisoa seva e khethehileng e bitsoang NameNode.
Setšoantšo se ka tlase se bontša kamoo MapReduce e sebetsang kateng. Boemong ba pele, data e arotsoe ho ea ka tekanyo e itseng, sethaleng sa bobeli e ajoa ho ea ka matla a k'homphieutha, 'me sethaleng sa boraro ho baloa ho etsahala.
MapReduce qalong e entsoe ke Google bakeng sa litlhoko tsa eona tsa ho batla. Eaba MapReduce e fana ka khoutu ea mahala, 'me Apache a nka mosebetsi. Che, Google e ile ea fallela butle-butle ho litharollo tse ling. Taba e khahlisang: hajoale Google e na le projeke e bitsoang Google Cloud Dataflow, e behiloeng joalo ka mohato o latelang ka mor'a Hadoop, e le phetoho e potlakileng ea eona.
Ho shebisisa hantle ho bonts'a hore Google Cloud Dataflow e ipapisitse le phapang ea Apache Beam, ha Apache Beam e kenyelletsa moralo o ngotsoeng hantle oa Apache Spark, o re lumellang ho bua ka lebelo le ts'oanang la tharollo ea tharollo. Apache Spark e sebetsa hantle ho sistimi ea faele ea HDFS, e e lumellang hore e sebelisoe ho li-server tsa Hadoop.
Eketsa mona boholo ba litokomane le tharollo e lokiselitsoeng bakeng sa Hadoop le Spark khahlano le Google Cloud Dataflow, 'me khetho ea sesebelisoa e ea totobala. Ho feta moo, baenjiniere ba ka iketsetsa qeto ea hore na ke khoutu efe - bakeng sa Hadoop kapa Spark - ba lokelang ho e matha, ba tsepamisitse maikutlo mosebetsing, phihlelo le litšoaneleho.
Cloud kapa seva ea lehae
Mokhoa o lebisang phetohong e akaretsang ea maru o bile o hlahisitse lentsoe le khahlisang joalo ka Hadoop-as-a-service. Boemong bo joalo, tsamaiso ea li-server tse hokahaneng e ile ea e-ba ea bohlokoa haholo. Hobane, oho, leha e tumme, Hadoop e hloekileng ke sesebelisoa se thata ho se hlophisa, kaha ho hongata ho tlameha ho etsoa ka letsoho. Mohlala, lokisa li-server ka bonngoe, hlokomela ts'ebetso ea tsona, 'me u lokise litekanyo tse ngata ka hloko. Ka kakaretso, mosebetsi ke oa motho ea sa rutehang 'me ho na le monyetla o moholo oa ho senya kae-kae kapa ho lahleheloa ke ntho e itseng.
Ka hona, lisebelisoa tse fapaneng tsa kabo, tseo qalong li nang le lisebelisoa tse bonolo tsa ho tsamaisa le tsa tsamaiso, li se li tumme haholo. E 'ngoe ea likhatiso tse tsebahalang haholo tse ts'ehetsang Spark mme e nolofalletsa ntho e ngoe le e ngoe ke Cloudera. E na le liphetolelo tse lefuoang le tse sa lefelloeng - 'me qetellong lits'ebetso tsohle tsa mantlha lia fumaneha, ntle le ho fokotsa palo ea li-node.
Nakong ea ho seta, Cloudera Manager o tla hokela ka SSH ho li-server tsa hau. Ntlha e thahasellisang: ha u kenya, ho molemo ho hlakisa hore e etsoa ke seo ho thoeng ke sona likaroloana: liphutheloana tse khethehileng, e 'ngoe le e' ngoe e na le likarolo tsohle tse hlokahalang tse lokiselitsoeng ho sebetsa hammoho. Ha e le hantle ena ke mofuta o ntlafalitsoeng oa mookameli oa sephutheloana.
Ka mor'a ho kenya, re fumana setsi sa tsamaiso ea lihlopha, moo u ka bonang telemetry ea lihlopha, lits'ebeletso tse kentsoeng, 'me u ka eketsa / tlosa lisebelisoa le ho hlophisa tlhophiso ea lihlopha.
Ka lebaka leo, ntlo ea rokete e tla u isa bokamosong bo khanyang ba BigData e hlaha ka pel'a hau. Empa pele re re "a re ee," a re ke re tsamaee ka tlas'a sekoahelo.
Litlhoko tsa lisebelisoa
Webosaeteng ea eona, Cloudera e bua ka litlhophiso tse fapaneng tse ka khonehang. Melao-motheo e akaretsang eo li hahoang ka eona e bontšoa papisong:
MapReduce e ka fifatsa setšoantšo sena se nang le tšepo. Haeba u sheba hape setšoantšo se tsoang karolong e fetileng, hoa hlaka hore hoo e batlang e le maemong 'ohle, mosebetsi oa MapReduce o ka kopana le bothata ha u bala data ho tswa ho disk kapa ho tloha marang-rang. Sena se boetse se hlokometsoe ho Cloudera blog. Ka lebaka leo, bakeng sa lipalo leha e le life tse potlakileng, ho kenyeletsa le Spark, e atisang ho sebelisoa bakeng sa lipalo tsa nako ea sebele, lebelo la I / O le bohlokoa haholo. Ka hona, ha u sebelisa Hadoop, ke habohlokoa haholo hore sehlopha se kenyelelitse mechine e leka-lekaneng le e potlakileng, eo, ho e beha ka bonolo, ha e tiisetsoe kamehla ka lisebelisoa tsa maru.
Ho leka-lekanya kabong ea mojaro ho finyelloa ka ts'ebeliso ea Openstack virtualization ho li-server tse nang le li-CPU tse matla tsa li-multi-core. Li-node tsa data li abeloa lisebelisoa tsa tsona tsa processor le li-disk tse ikhethileng. Qetong ea rona Atos Codex Data Lake Engine Ho finyelloa ka mokhoa o pharaletseng, ke ka lebaka leo re ruang molemo ka bobeli ka ts'ebetso (tšusumetso ea lisebelisoa tsa marang-rang e fokotsehile) le TCO (li-server tse eketsehileng tsa 'mele li tlosoa).
Ha re sebelisa li-server tsa BullSequana S200, re fumana mojaro o ts'oanang haholo, o senang libotlolo tse ling. Tlhophiso e fokolang e kenyelletsa li-server tse 3 tsa BullSequana S200, e 'ngoe le e' ngoe e na le li-JBOD tse peli, hammoho le li-S200 tse ling tse nang le li-node tse 'nè tsa data li hokahane ka boikhethelo. Mona ke mohlala oa mojaro tekong ea TeraGen:
Liteko tse nang le lipalo tse fapaneng tsa data le boleng ba ho pheta-pheta li bonts'a liphetho tse tšoanang mabapi le kabo ea mojaro lipakeng tsa li-cluster node. Ka tlase ke graph ea kabo ea phihlello ea disk ka liteko tsa ts'ebetso.
Lipalo li entsoe ho ipapisitsoe le boemo bo tlase ba li-server tse 3 tsa BullSequana S200. E kenyelletsa li-node tsa data tse 9 le li-master node tse 3, hammoho le mechini e bolokiloeng e bolokiloeng haeba ho ka tsamaisoa ts'ireletso e thehiloeng ho OpenStack Virtualization. Sephetho sa tlhahlobo ea TeraSort: saese ea block 512 MB e lekanang le tse tharo tse nang le encryption ke metsotso e 23,1.
Tsamaiso e ka atolosoa joang? Ho na le mefuta e fapaneng ea likeketso tse fumanehang bakeng sa Data Lake Engine:
- Lintlha tsa data: bakeng sa 40 TB e 'ngoe le e 'ngoe ea sebaka se ka sebelisoang
- Li-node tsa analytical tse nang le bokhoni ba ho kenya GPU
- Likhetho tse ling ho latela litlhoko tsa khoebo (mohlala, haeba u hloka Kafka le tse ling tse joalo)
Atos Codex Data Lake Engine e kenyelletsa li-server ka botsona le software e kentsoeng pele, ho kenyeletsoa le kit e nang le tumello ea Cloudera; Hadoop ka boeona, OpenStack e nang le mechine ea sebele e thehiloeng ho RedHat Enterprise Linux kernel, mokhoa oa ho pheta-pheta le mekhoa ea ho boloka (ho kenyeletsoa ho sebelisa node ea ho boloka le Cloudera BDR - Backup le Disaster Recovery). Atos Codex Data Lake Engine e bile tharollo ea pele ea virtualization ho netefatsoa
Haeba u thahasella lintlha, re tla thabela ho araba lipotso tsa rona ho maikutlo.
Source: www.habr.com