O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

O le maketi mo le tufatufaina atu o komepiuta ma faʻamatalaga tetele, e tusa ai ma fuainumera, o loʻo faʻatupulaia e 18-19% i le tausaga. O lona uiga o le mataupu o le filifilia o polokalama faakomepiuta mo nei faamoemoega e tumau pea le talafeagai. I lenei pou, o le a tatou amata i le mafuaʻaga e manaʻomia ai le tufatufaina o komepiuta, alu i auiliiliga atili e uiga i le filifilia o polokalama, talanoa e uiga i le faʻaogaina o le Hadoop e faʻaaoga ai Cloudera, ma mulimuli ane talanoa e uiga i le filifilia o meafaigaluega ma pe faʻafefea ona aʻafia ai le faʻatinoga i auala eseese.

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai
Aisea e mana'omia ai fa'asoa fa'akomepiuta i pisinisi masani? O mea uma iinei e faigofie ma faigata i le taimi e tasi. Faigofie - aua i le tele o tulaga matou te faia fa'atatau faigofie i le iunite o fa'amatalaga. E faigata ona e tele naua faʻamatalaga. E tele naua. O se taunuuga, e tatau fa'agasolo terabytes o fa'amaumauga ile 1000 filo. O le mea lea, o le faʻaaogaina o mataupu e matua lautele lava: faʻatusatusaga e mafai ona faʻaogaina i soʻo se mea e manaʻomia e amanaia ai se numera tele o metrics i luga o le tele o faʻamaumauga.

O se tasi o faʻataʻitaʻiga lata mai: o le pizzeria filifili Dodo Pizza mautu fa'avae i luga o se au'ili'iliga o fa'amaumauga o fa'atonuga a tagata fa'atau, e fa'apea pe a filifilia se pizza fa'atasi ma se topping fa'afuase'i, e masani lava ona fa'aogaina e tagata fa'aoga na'o le ono seti fa'avae o mea fa'aopoopo fa'atasi ai ma ni mea fa'afuase'i. E tusa ai ma lenei mea, o le pizzeria na fetuunai ana faʻatau. E le gata i lea, na mafai ona sili atu le fautuaina o oloa faaopoopo na ofoina atu i tagata faʻaoga i le taimi o le faʻatonuga, lea na faʻateleina ai tupe mama.

Tasi le isi faʻataʻitaʻiga: auiliiliga oloa oloa na mafai ai e le faleoloa H&M ona faʻaitiitia le faʻavasegaina i faleoloa taʻitasi i le 40%, aʻo faʻatumauina tulaga faʻatau. Na ausia lenei mea e ala i le le aofia ai o mea le lelei o le faʻatau atu, ma le faʻaogaina o le vaitau i le faʻatusatusaga.

Filifiliga meafaigaluega

Ole tulaga ole alamanuia mo lenei ituaiga komipiuta ole Hadoop. Aisea? Talu ai o Hadoop o se faʻatulagaga sili ona lelei, faʻamaumauina lelei (o le Habr lava lea e maua ai le tele o faʻamatalaga auiliili i lenei autu), lea e faʻatasi ma se seti atoa o mea aoga ma faletusi. E mafai ona e tuʻuina atu seti tele o faʻamaumauga faʻatulagaina ma le faʻatulagaina, ma o le faiga lava ia o le a tufatufaina atu i le malosiaga faʻapipiʻi. E le gata i lea, o nei lava gafatia e mafai ona fa'ateleina pe fa'aletonu i so'o se taimi - o le fa'alava fa'alava tutusa i le gaioiga.

I le 2017, o le kamupani faufautua faʻapitoa Gartner faaiuinao Hadoop o le a le pine ae le toe aoga. O le mafuaʻaga e matua faʻatauvaʻa: e talitonu le au suʻesuʻe o kamupani o le a faimalaga faʻatasi i le ao, talu ai o iina o le a mafai ai ona latou totogi aʻo latou faʻaogaina le mana faʻakomepiuta. O le mea taua lona lua e mafai ona "tanu" Hadoop o lona saoasaoa. Aua o filifiliga e pei o Apache Spark poʻo Google Cloud DataFlow e vave atu nai lo MapReduce, lea e faʻavaeina Hadoop.

O le Hadoop o loʻo taoto i luga o le tele o pou, o le mea sili ona lauiloa o MapReduce tekinolosi (se faiga mo le tufatufaina o faʻamatalaga mo faʻatusatusaga i le va o sapalai) ma le HDFS faila faila. O le mea mulimuli e faʻapitoa mo le teuina o faʻamatalaga tufatufaina i le va o nodes fuifui: o poloka taʻitasi o se lapoʻa faʻamautu e mafai ona tuʻuina i luga o le tele o nodes, ma faʻafetai i le toe faia, o le faiga e mafai ona faʻaogaina i le toilalo o nodes taʻitasi. Nai lo le laulau faila, o loʻo faʻaaogaina se server faʻapitoa e igoa NameNode.

O le ata o loʻo i lalo o loʻo faʻaalia ai le auala e galue ai MapReduce. I le laasaga muamua, o faʻamaumauga e vaevaeina e tusa ai ma se faʻataʻitaʻiga patino, i le tulaga lona lua e tufatufa atu e tusa ai ma le mana faʻapipiʻi, ma i le tulaga lona tolu e faia ai le faʻatusatusaga.

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai
MapReduce na faia muamua e Google mo ana suʻesuʻega. Ona alu lea o le MapReduce i le code free, ma na ave e Apache le poloketi. Ia, Google na faasolosolo malie ona alu i isi fofo. O se tala manaia: Google o loʻo i ai nei se poloketi e taʻua o Google Cloud Dataflow, faʻatulagaina o le isi laasaga pe a maeʻa Hadoop, e fai ma sui vave.

O le vaʻavaʻai totoʻa e faʻaalia ai o Google Cloud Dataflow e faʻavae i luga o se fesuiaiga o Apache Beam, ae o Apache Beam e aofia ai le faʻapipiʻiina lelei o le Apache Spark framework, lea e mafai ai ona tatou talanoa e uiga i le toetoe lava tutusa le saoasaoa o le faʻatinoina o fofo. Ia, o Apache Spark o loʻo galue lelei i luga o le faila faila HDFS, lea e mafai ai ona faʻapipiʻiina i luga o sapalai Hadoop.

Faʻaopoopo iinei le tele o faʻamaumauga ma fofo ua saunia mo Hadoop ma Spark versus Google Cloud Dataflow, ma o le filifiliga o meafaigaluega e faʻaalia. E le gata i lea, e mafai e inisinia ona filifili mo i latou lava po o le fea code - mo Hadoop poʻo Spark - e tatau ona latou tamoe, taulaʻi i le galuega, poto masani ma agavaa.

Ao po'o le 'au'aunaga fa'apitonu'u

O le aga'i atu i se suiga lautele i le ao ua oʻo lava ina tulaʻi mai se faʻamatalaga manaia e pei o Hadoop-as-a-service. I se tulaga faapena, o le pulega o sapalai fesoʻotaʻi na avea ma mea taua tele. Aua, talofa, e ui lava i lona lauiloa, o le Hadoop mama o se meafaigaluega faigata tele e faʻapipiʻi, talu ai e tele mea e tatau ona faia ma le lima. Mo se faʻataʻitaʻiga, faʻapipiʻi taʻitoʻatasi 'auʻaunaga, mataʻituina a latou faʻatinoga, ma faʻapipiʻi ma le faaeteete le tele o parakalafa. I se tulaga lautele, o le galuega e mo se amateur ma o loʻo i ai se avanoa tele e faʻafefe ai i se mea pe misi se mea.

O le mea lea, o pusa tufatufaina eseese, lea na muamua faʻapipiʻiina i le faʻaogaina lelei ma meafaigaluega faʻatautaia, ua avea ma taʻutaʻua. O se tasi o faʻasalalauga sili ona lauiloa e lagolagoina Spark ma faʻafaigofie mea uma o Cloudera. E iai uma fa'aliliuga totogi ma fua - ma i le vaega mulimuli o lo'o maua uma galuega fa'avae, e aunoa ma le fa'atapula'aina o numera o nodes.

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

I le taimi o le seti, Cloudera Pule o le a faʻafesoʻotaʻi e ala i le SSH i au 'auʻaunaga. O se mea manaia: pe a faʻapipiʻi, e sili atu le faʻamaonia e faia e le mea e taʻua fasi pepa: afifi faʻapitoa, o loʻo i ai vaega taʻitasi uma e manaʻomia ua faʻatulagaina e galulue faʻatasi. O le mea moni o se fa'aleleia atili lea o le pule o pusa.

A maeʻa faʻapipiʻi, matou te maua se faʻamafanafanaga pulega faʻapipiʻi, lea e mafai ona e vaʻaia ai le telemetry faʻapipiʻi, auaunaga faʻapipiʻi, faʻaopoopo e mafai ona e faʻaopoopo / aveese punaoa ma faʻasaʻo le faʻatulagaina o fuifui.

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

O se taunuuga, o le fale o le rocket o le a ave oe i le lumanaʻi lumanaʻi o BigData o loʻo faʻaalia i ou luma. Ae tatou te leʻi fai atu "tatou o," seʻi o tatou agai i lalo o le pulou.

Meafaigaluega mana'oga

I luga o lana upega tafaʻilagi, o loʻo taʻua ai e Cloudera ni faʻasalalauga eseese. O mataupu faavae lautele e fausia ai o loʻo faʻaalia i le faʻataʻitaʻiga:

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai
MapReduce e mafai ona faanenefu lenei ata fa'amoemoe. Afai e te toe vaʻavaʻai i le ata mai le vaega muamua, e manino mai i le toetoe lava o tulaga uma, o le MapReduce galuega e mafai ona faʻafeiloaʻi se fagu pe a faitau faʻamatalaga mai le disk poʻo le fesoʻotaʻiga. O loʻo taʻua foi lea i le Cloudera blog. O se taunuuga, mo soʻo se faʻatusatusaga vave, e aofia ai le Spark, lea e masani ona faʻaaogaina mo faʻatusatusaga taimi moni, I / O saoasaoa e taua tele. O le mea lea, pe a faʻaaogaina Hadoop, e taua tele le faʻapipiʻiina o masini paleni ma vave, lea, e tuʻu malie, e leʻo faʻamautinoa i taimi uma i totonu o le ao.

Paleni i le tufatufaina atu o uta e maua e ala i le faʻaogaina o le Openstack virtualization i luga o 'auʻaunaga faʻatasi ma PPU mamana tele-core. O fa'amaumauga o fa'amaumauga o lo'o tu'uina atu a latou lava alagā'oa ma tisiki fa'apitoa. I la tatou faaiuga Atos Codex Data Lake Engine E maua le tele o le virtualization, o le mea lea tatou te manuia ai i tulaga uma o le faʻatinoga (o le aʻafiaga o fesoʻotaʻiga fesoʻotaʻiga e faʻaitiitia) ma i le TCO (faʻapipiʻi faʻapitoa faʻapitoa e faʻaumatia).

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai
A faʻaaogaina BullSequana S200 'auʻaunaga, matou te maua se uta tutusa, e aunoa ma ni faʻamaufaʻailoga. Ole la'ititi la'ititi e aofia ai 3 BullSequana S200 'au'auna, ta'itasi ma lua JBODs, fa'aopoopo S200s fa'aopoopo o lo'o iai fa'amaumauga fa'amaumauga e fa'afeso'ota'i fa'atasi. O se faʻataʻitaʻiga lea o le uta i le suʻega TeraGen:

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

O suʻega faʻatasi ai ma faʻamaumauga eseese ma tau faʻasologa o loʻo faʻaalia ai iʻuga tutusa i tulaga o le tufatufaina o uta i le va o nodes fuifui. O lo'o i lalo le kalafi o le tufatufaga o avanoa fa'apipi'i e ala i su'ega fa'atinoga.

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

Fa'atatauga na faia e fa'avae i luga ole la'ititi la'ititi o le 3 BullSequana S200 servers. E aofia ai 9 faʻamaumauga faʻamaumauga ma 3 matai pona, faʻapea foʻi ma masini faʻapolopolo faʻaagaga i le tulaga o le faʻapipiʻiina o puipuiga e faʻavae i luga o OpenStack Virtualization. TeraSort i'uga o su'ega: poloka lapo'a 512 MB toe fa'atusa e tutusa ma le tolu ma fa'ailoga e 23,1 minute.

E fa'afefea ona fa'alauteleina le faiga? E i ai ituaiga eseese o faʻaopoopoga avanoa mo Data Lake Engine:

  • Nodes fa'amaumauga: mo ta'i 40 TB o avanoa fa'aoga
  • Nodes au'ili'ili ma le mafai ona fa'apipi'i se GPU
  • O isi filifiliga e faʻatatau i manaʻoga pisinisi (mo se faʻataʻitaʻiga, pe a e manaʻomia Kafka ma mea faapena)

O le a le mea faʻapitoa e uiga i Cloudera ma le auala e kuka ai

O le Atos Codex Data Lake Engine e aofia uma ai le 'auʻaunaga lava latou ma polokalama faʻapipiʻi muamua, e aofia ai se pusa Cloudera laiseneina; Hadoop lava ia, OpenStack ma masini komepiuta e faʻavae i luga o le RedHat Enterprise Linux kernel, faʻasologa o faʻamaumauga ma faiga faʻapipiʻi (e aofia ai le faʻaogaina o se node faʻapolopolo ma Cloudera BDR - Faʻasaʻo ma Faʻalavelave Faʻafuaseʻi). O le Atos Codex Data Lake Engine na avea ma vaifofo faʻamalama muamua e faʻamaonia Cloudera.

Afai e te fiafia i faʻamatalaga, matou te fiafia e tali a matou fesili i faʻamatalaga.

puna: www.habr.com

Faaopoopo i ai se faamatalaga