Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Mache a pou distribye informatique ak gwo done, selon estatistik yo, ap grandi pa 18-19% chak ane. Sa vle di ke pwoblèm nan nan chwazi lojisyèl pou rezon sa yo rete enpòtan. Nan pòs sa a, nou pral kòmanse ak poukisa distribye informatique nesesè, antre nan plis detay sou chwazi lojisyèl, pale sou lè l sèvi avèk Hadoop lè l sèvi avèk Cloudera, epi finalman pale sou chwazi pyès ki nan konpitè ak ki jan li afekte pèfòmans nan diferan fason.

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li
Poukisa distribye informatique nesesè nan biznis regilye? Tout bagay isit la se senp ak konplike an menm tan. Senp - paske nan pifò ka nou fè kalkil relativman senp pou chak inite enfòmasyon. Li difisil paske gen anpil enfòmasyon sa yo. Anpil. Kòm yon konsekans, li nesesè trete teraocte done nan 1000 fil. Kidonk, ka itilize yo se byen inivèsèl: kalkil yo ka itilize tout kote li nesesè pou pran an kont yon gwo kantite mezi sou yon etalaj menm pi gwo nan done.

Youn nan egzanp ki sot pase yo: chèn pitza Dodo Pizza defini baze sou yon analiz de baz done lòd kliyan an, ke lè w ap chwazi yon pitza ak yon topping o aza, itilizatè yo anjeneral opere ak sèlman sis seri debaz nan engredyan plis yon koup nan sa yo o aza. An akò ak sa a, pitza a ajiste acha li yo. Anplis de sa, li te kapab pi byen rekòmande pwodwi adisyonèl yo ofri itilizatè yo pandan etap la kòmande, ki te ogmante pwofi yo.

Yon lòt egzanp: analiz atik pwodwi yo pèmèt magazen H&M diminye varyete nan magazen endividyèl yo pa 40%, pandan y ap kenbe nivo lavant yo. Sa a te reyalize pa eskli atik ki mal vann, ak sezon an te pran an kont nan kalkil yo.

Seleksyon zouti

Estanda endistri a pou kalite informatique sa a se Hadoop. Poukisa? Paske Hadoop se yon fondasyon ekselan, ki byen dokimante (Habr a menm bay anpil atik detaye sou sijè sa a), ki se akonpaye pa yon seri antye nan sèvis piblik ak bibliyotèk. Ou ka antre yon seri gwo done estriktire ak done ki pa estriktire, epi sistèm nan tèt li pral distribye li nan mitan pouvwa enfòmatik la. Anplis, menm kapasite sa yo ka ogmante oswa enfim nenpòt ki lè - menm évolutivité orizontal sa a nan aksyon.

Nan 2017, konpayi an konsiltasyon enfliyan Gartner konklike Hadoop pral byento vin demode. Rezon ki fè la se byen ordinèr: analis yo kwè ke konpayi yo pral imigre an masse nan nwaj la, depi la yo pral kapab peye jan yo sèvi ak pouvwa informatique. Dezyèm faktè enpòtan ki ka swadizan "antere" Hadoop se vitès li yo. Paske opsyon tankou Apache Spark oswa Google Cloud DataFlow yo pi vit pase MapReduce, ki kache Hadoop.

Hadoop chita sou plizyè poto, ki pi remakab nan yo se teknoloji MapReduce (yon sistèm pou distribye done pou kalkil ant serveurs) ak sistèm dosye HDFS la. Lèt la fèt espesyalman pou estoke enfòmasyon ki distribye ant nœuds gwoup: yo ka mete chak blòk nan yon gwosè fiks sou plizyè nœuds, epi gras a replikasyon, sistèm nan rezistan nan echèk nœuds endividyèl yo. Olye de yon tab fichye, yo itilize yon sèvè espesyal ki rele NameNode.

Ilistrasyon ki anba a montre kouman MapReduce fonksyone. Nan premye etap la, done yo divize dapre yon sèten kritè, nan dezyèm etap la distribye dapre pouvwa informatique, ak nan twazyèm etap la kalkil pran plas.

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li
MapReduce te orijinèlman kreye pa Google pou bezwen rechèch li yo. Lè sa a, MapReduce te ale kòd gratis, ak Apache te pran sou pwojè a. Oke, Google piti piti imigre nan lòt solisyon. Yon ti bagay enteresan: Google kounye a gen yon pwojè ki rele Google Cloud Dataflow, pozisyone kòm pwochen etap la apre Hadoop, kòm yon ranplasman rapid pou li.

Yon gade pi pre montre ke Google Cloud Dataflow baze sou yon varyasyon Apache Beam, pandan y ap Apache Beam gen ladan kad Apache Spark ki byen dokimante, ki pèmèt nou pale sou prèske menm vitès ekzekisyon solisyon yo. Oke, Apache Spark travay parfe sou sistèm nan dosye HDFS, ki pèmèt li yo dwe deplwaye sou serveurs Hadoop.

Ajoute isit la volim dokimantasyon ak solisyon pare pou Hadoop ak Spark kont Google Cloud Dataflow, ak chwa zouti a vin evidan. Anplis, enjenyè yo ka deside pou tèt yo ki kòd - pou Hadoop oswa Spark - yo ta dwe kouri, konsantre sou travay la, eksperyans ak kalifikasyon yo.

Cloud oswa sèvè lokal

Tandans nan direksyon pou yon tranzisyon jeneral nan nwaj la menm bay monte yon tèm enteresan tankou Hadoop-as-a-service. Nan yon senaryo konsa, administrasyon an nan serveurs konekte te vin trè enpòtan. Paske, Ay, malgre popilarite li yo, pi Hadoop se yon zouti olye difisil pou konfigirasyon, paske gen anpil yo dwe fè manyèlman. Pou egzanp, konfigirasyon serveurs endividyèlman, kontwole pèfòmans yo, ak anpil atansyon konfigirasyon paramèt. An jeneral, travay la se pou yon amatè e gen yon gwo chans pou fè dezòd yon kote oswa manke yon bagay.

Se poutèt sa, divès kalite twous distribisyon, ki okòmansman ekipe ak deplwaman pratik ak zouti administrasyon, yo te vin trè popilè. Youn nan distribisyon ki pi popilè ki sipòte Spark epi ki fè tout bagay fasil se Cloudera. Li gen tou de vèsyon peye ak gratis - ak nan lèt la tout fonksyonalite debaz ki disponib, san yo pa limite kantite nœuds.

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Pandan konfigirasyon, Cloudera Manadjè pral konekte atravè SSH ak sèvè ou yo. Yon pwen enteresan: lè enstale, li pi bon presize ke li dwe te pote soti nan sa yo rele an koliy: pakè espesyal, chak nan yo ki gen tout konpozan ki nesesè yo configuré pou travay youn ak lòt. Esansyèlman sa a se yon vèsyon amelyore nan manadjè a pake.

Apre enstalasyon, nou resevwa yon konsole jesyon gwoup, kote ou ka wè telemetri grap, sèvis enstale, plis ou ka ajoute/retire resous ak modifye konfigirasyon gwoup la.

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Kòm yon rezilta, kabin nan fize a ki pral mennen ou nan avni briyan nan BigData parèt devan ou. Men, anvan nou di "ann ale," ann deplase anba kapo a.

Kondisyon pyès ki nan konpitè

Sou sit entènèt li a, Cloudera mansyone diferan konfigirasyon posib. Prensip jeneral yo bati yo montre nan ilistrasyon an:

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li
MapReduce ka flou foto optimis sa a. Si ou gade ankò nan dyagram nan seksyon anvan an, li vin klè ke nan prèske tout ka, yon travay MapReduce ka rankontre yon kou boutèy lè li done ki soti nan disk oswa nan rezo a. Sa a se tou te note nan Cloudera blog la. Kòm yon rezilta, pou nenpòt kalkil rapid, ki gen ladan Spark, ki souvan itilize pou kalkil an tan reyèl, vitès I/O trè enpòtan. Se poutèt sa, lè w ap itilize Hadoop, li trè enpòtan ke gwoup la gen ladan machin balanse ak rapid, ki, pou mete li léjèrman, pa toujou asire nan enfrastrikti nwaj la.

Se balans nan distribisyon chaj reyalize grasa itilizasyon Virtualization Openstack sou sèvè ak CPU pwisan milti-nwayo. Done nœuds yo atribye ba pwòp resous processeur yo ak disk espesifik. Nan desizyon nou an Atos Codex Data Lake Engine Wide Virtualization reyalize, se poutèt sa nou benefisye tou de an tèm de pèfòmans (enpak la nan enfrastrikti rezo a minimize) ak nan TCO (sèvè siplemantè fizik yo elimine).

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li
Lè w ap itilize serveurs BullSequana S200, nou jwenn yon chaj trè inifòm, san kèk blokaj. Konfigirasyon minimòm lan gen ladan 3 sèvè BullSequana S200, chak ak de JBOD, plis S200 adisyonèl ki gen kat nœud done yo opsyonèlman konekte. Men yon egzanp chaj la nan tès TeraGen la:

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Tès ak volim done diferan ak valè replikasyon yo montre menm rezilta yo an tèm de distribisyon chaj ant nœuds gwoup yo. Anba la a se yon graf distribisyon aksè disk pa tès pèfòmans.

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Kalkil yo te fèt baze sou yon konfigirasyon minimòm de 3 BullSequana S200 serveurs. Li gen ladan 9 nœuds done ak 3 nœuds mèt, osi byen ke machin vityèl rezève nan ka deplwaman pwoteksyon ki baze sou OpenStack Virtualization. Rezilta tès TeraSort: gwosè blòk 512 MB faktè replikasyon ki egal a twa ak chifreman se 23,1 minit.

Ki jan sistèm nan ka elaji? Gen diferan kalite ekstansyon ki disponib pou Data Lake Engine:

  • Done nœuds: pou chak 40 TB espas ki ka itilize
  • Nœuds analyse ak kapasite pou enstale yon GPU
  • Lòt opsyon depann sou bezwen biznis (pa egzanp, si ou bezwen Kafka ak renmen an)

Ki sa ki espesyal sou Cloudera ak ki jan yo kwit li

Atos Codex Data Lake Engine gen ladan tou de sèvè yo tèt yo ak lojisyèl pre-enstale, ki gen ladan yon twous Cloudera ki gen lisans; Hadoop tèt li, OpenStack ak machin vityèl ki baze sou nwayo RedHat Enterprise Linux, replikasyon done ak sistèm backup (ki gen ladan lè l sèvi avèk yon ne backup ak Cloudera BDR - Sovgad ak Rekiperasyon Katastwòf). Atos Codex Data Lake Engine te vin premye solisyon virtualizasyon ki te sètifye Cloudera.

Si w enterese nan detay, nou pral kontan reponn kesyon nou yo nan kòmantè yo.

Sous: www.habr.com

Add nouvo kòmantè