Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Soko la kompyuta iliyosambazwa na data kubwa, kulingana na takwimu, inakua kwa 18-19% kwa mwaka. Hii ina maana kwamba suala la kuchagua programu kwa madhumuni haya linabaki kuwa muhimu. Katika chapisho hili, tutaanza na kwa nini kompyuta iliyosambazwa inahitajika, kwenda kwa undani zaidi kuhusu kuchagua programu, kuzungumza juu ya kutumia Hadoop kutumia Cloudera, na hatimaye kuzungumza juu ya kuchagua maunzi na jinsi inavyoathiri utendaji kwa njia tofauti.

Nini ni maalum kuhusu Cloudera na jinsi ya kupika
Kwa nini kompyuta iliyosambazwa inahitajika katika biashara ya kawaida? Kila kitu hapa ni rahisi na ngumu kwa wakati mmoja. Rahisi - kwa sababu katika hali nyingi tunafanya mahesabu rahisi kwa kila kitengo cha habari. Ni ngumu kwa sababu kuna habari nyingi kama hizo. Wengi sana. Kama matokeo, inahitajika kuchakata terabaiti za data katika nyuzi 1000. Kwa hivyo, matukio ya matumizi ni ya ulimwengu wote: mahesabu yanaweza kutumika popote ni muhimu kuzingatia idadi kubwa ya metriki kwenye safu kubwa zaidi ya data.

Moja ya mifano ya hivi karibuni: mnyororo wa pizzeria Dodo Pizza kuamua kulingana na uchanganuzi wa hifadhidata ya agizo la wateja, kwamba wakati wa kuchagua pizza iliyo na topping nasibu, kwa kawaida watumiaji hufanya kazi wakiwa na seti sita tu za msingi za viungo pamoja na kadhaa za nasibu. Kwa mujibu wa hili, pizzeria ilirekebisha ununuzi wake. Kwa kuongezea, aliweza kupendekeza vyema bidhaa za ziada zinazotolewa kwa watumiaji wakati wa hatua ya kuagiza, ambayo iliongeza faida.

Mfano mmoja zaidi: uchambuzi bidhaa ziliruhusu duka la H&M kupunguza urval katika maduka ya mtu binafsi kwa 40%, huku ikidumisha viwango vya mauzo. Hii ilipatikana kwa kuwatenga vitu vilivyouzwa vibaya, na msimu ulizingatiwa katika mahesabu.

Uchaguzi wa zana

Kiwango cha sekta ya aina hii ya kompyuta ni Hadoop. Kwa nini? Kwa sababu Hadoop ni mfumo bora, ulio na kumbukumbu vizuri (Habr huyohuyo hutoa makala mengi ya kina juu ya mada hii), ambayo inaambatana na seti nzima ya huduma na maktaba. Unaweza kuingiza seti kubwa za data iliyopangwa na isiyo na muundo, na mfumo yenyewe utaisambaza kati ya nguvu za kompyuta. Zaidi ya hayo, uwezo huu huu unaweza kuongezwa au kuzimwa wakati wowote - uboreshaji huo huo wa mlalo katika hatua.

Mnamo 2017, kampuni ya ushauri yenye ushawishi ya Gartner alihitimishakwamba Hadoop hivi karibuni itapitwa na wakati. Sababu ni banal kabisa: wachambuzi wanaamini kwamba makampuni yatahamia kwa wingi kwenye wingu, kwani huko wataweza kulipa wanapotumia nguvu za kompyuta. Jambo la pili muhimu ambalo linaweza "kuzika" Hadoop ni kasi yake. Kwa sababu chaguo kama Apache Spark au Google Cloud DataFlow ni haraka kuliko MapReduce, ambayo ni msingi wa Hadoop.

Hadoop hutegemea nguzo kadhaa, zinazojulikana zaidi ni teknolojia za MapReduce (mfumo wa kusambaza data kwa hesabu kati ya seva) na mfumo wa faili wa HDFS. Mwisho huo umeundwa mahsusi kwa kuhifadhi habari iliyosambazwa kati ya nodi za nguzo: kila kizuizi cha saizi iliyowekwa kinaweza kuwekwa kwenye nodi kadhaa, na kwa shukrani kwa kurudia, mfumo unakabiliwa na kushindwa kwa nodi za kibinafsi. Badala ya jedwali la faili, seva maalum inayoitwa NameNode hutumiwa.

Mchoro ulio hapa chini unaonyesha jinsi MapReduce inavyofanya kazi. Katika hatua ya kwanza, data imegawanywa kulingana na kigezo fulani, katika hatua ya pili inasambazwa kulingana na nguvu ya kompyuta, na katika hatua ya tatu hesabu hufanyika.

Nini ni maalum kuhusu Cloudera na jinsi ya kupika
MapReduce iliundwa awali na Google kwa mahitaji yake ya utafutaji. Kisha MapReduce ilienda nambari ya bure, na Apache akachukua mradi huo. Kweli, Google polepole ilihamia suluhisho zingine. Jambo la kufurahisha: Google kwa sasa ina mradi unaoitwa Google Cloud Dataflow, uliowekwa kama hatua inayofuata baada ya Hadoop, kama mbadala wake wa haraka.

Uangalizi wa karibu unaonyesha kuwa Utiririshaji wa Data wa Wingu la Google unatokana na tofauti ya Apache Beam, huku Apache Beam inajumuisha mfumo ulioandikwa vizuri wa Apache Spark, ambao huturuhusu kuzungumza juu ya karibu kasi sawa ya utekelezaji wa suluhisho. Naam, Apache Spark inafanya kazi kikamilifu kwenye mfumo wa faili wa HDFS, ambayo inaruhusu kupelekwa kwenye seva za Hadoop.

Ongeza hapa idadi ya hati na suluhisho zilizotengenezwa tayari za Hadoop na Spark dhidi ya Utiririshaji wa Data wa Wingu wa Google, na chaguo la zana inakuwa dhahiri. Zaidi ya hayo, wahandisi wanaweza kuamua wenyewe ni kanuni gani - ya Hadoop au Spark - wanapaswa kukimbia, wakizingatia kazi, uzoefu na sifa.

Wingu au seva ya ndani

Mwenendo kuelekea mabadiliko ya jumla kwa wingu umetoa hata neno la kupendeza kama vile Hadoop-as-a-service. Katika hali kama hiyo, usimamizi wa seva zilizounganishwa umekuwa muhimu sana. Kwa sababu, ole, licha ya umaarufu wake, Hadoop safi ni zana ngumu ya kusanidi, kwani mengi yanapaswa kufanywa kwa mkono. Kwa mfano, sanidi seva kibinafsi, fuatilia utendaji wao, na usanidi kwa uangalifu vigezo vingi. Kwa ujumla, kazi ni ya amateur na kuna nafasi kubwa ya kuharibu mahali fulani au kukosa kitu.

Kwa hiyo, vifaa mbalimbali vya usambazaji, ambavyo hapo awali vina vifaa vya urahisi vya kupeleka na utawala, vimekuwa maarufu sana. Mojawapo ya usambazaji maarufu zaidi unaounga mkono Spark na hurahisisha kila kitu ni Cloudera. Ina matoleo ya kulipwa na ya bure - na katika mwisho utendaji wote wa msingi unapatikana, bila kupunguza idadi ya nodes.

Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Wakati wa kusanidi, Kidhibiti cha Cloudera kitaunganisha kupitia SSH kwa seva zako. Jambo la kufurahisha: wakati wa kusanikisha, ni bora kutaja kuwa inafanywa na kinachojulikana vifurushi: vifurushi maalum, ambayo kila mmoja ina vipengele vyote muhimu vilivyoundwa kufanya kazi na kila mmoja. Kimsingi hili ni toleo lililoboreshwa la msimamizi wa kifurushi.

Baada ya usakinishaji, tunapokea kiweko cha usimamizi wa nguzo, ambapo unaweza kuona telemetry ya nguzo, huduma zilizosakinishwa, pamoja na kwamba unaweza kuongeza/kuondoa rasilimali na kuhariri usanidi wa nguzo.

Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Kama matokeo, jumba la roketi ambalo litakupeleka kwenye mustakabali mzuri wa BigData linaonekana mbele yako. Lakini kabla ya kusema "hebu twende," hebu tuende chini ya kofia.

Mahitaji ya vifaa

Kwenye tovuti yake, Cloudera inataja usanidi tofauti unaowezekana. Kanuni za jumla ambazo zinajengwa zinaonyeshwa kwenye kielelezo:

Nini ni maalum kuhusu Cloudera na jinsi ya kupika
MapReduce inaweza kutia ukungu picha hii yenye matumaini. Ikiwa unatazama tena mchoro kutoka kwa sehemu ya awali, inakuwa wazi kuwa karibu na matukio yote, kazi ya MapReduce inaweza kukutana na chupa wakati wa kusoma data kutoka kwa diski au kutoka kwenye mtandao. Hili pia limebainishwa katika blogu ya Cloudera. Matokeo yake, kwa mahesabu yoyote ya haraka, ikiwa ni pamoja na kupitia Spark, ambayo mara nyingi hutumiwa kwa mahesabu ya wakati halisi, kasi ya I/O ni muhimu sana. Kwa hiyo, wakati wa kutumia Hadoop, ni muhimu sana kwamba nguzo ni pamoja na mashine za usawa na za haraka, ambazo, kuiweka kwa upole, hazihakikishiwa kila wakati katika miundombinu ya wingu.

Usawa katika usambazaji wa mzigo unapatikana kupitia matumizi ya uboreshaji wa Openstack kwenye seva zilizo na CPU zenye nguvu nyingi. Node za data zimetengwa rasilimali zao za processor na disks maalum. Katika uamuzi wetu Atos Codex Data Lake Engine Uboreshaji mpana unapatikana, ndiyo sababu tunafaidika katika suala la utendakazi (athari za miundombinu ya mtandao zimepunguzwa) na katika TCO (seva za ziada za kimwili huondolewa).

Nini ni maalum kuhusu Cloudera na jinsi ya kupika
Tunapotumia seva za BullSequana S200, tunapata mzigo unaofanana sana, usio na vikwazo. Usanidi wa chini unajumuisha seva 3 za BullSequana S200, kila moja ikiwa na JBOD mbili, pamoja na S200 za ziada zilizo na nodi nne za data zimeunganishwa kwa hiari. Hapa kuna mfano wa mzigo kwenye jaribio la TeraGen:

Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Majaribio yenye kiasi tofauti cha data na thamani za urudufishaji huonyesha matokeo sawa katika suala la usambazaji wa mzigo kati ya nodi za nguzo. Chini ni grafu ya usambazaji wa upatikanaji wa disk kwa vipimo vya utendaji.

Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Hesabu zilifanywa kulingana na usanidi wa chini kabisa wa seva 3 za BullSequana S200. Inajumuisha nodi 9 za data na nodi 3 kuu, pamoja na mashine pepe zilizohifadhiwa katika kesi ya kupelekwa kwa ulinzi kulingana na Virtualization ya OpenStack. Matokeo ya jaribio la TeraSort: ukubwa wa block 512 MB replication sawa na tatu kwa usimbaji fiche ni dakika 23,1.

Mfumo unawezaje kupanuliwa? Kuna aina tofauti za viendelezi vinavyopatikana kwa Data Lake Engine:

  • Nodi za data: kwa kila TB 40 ya nafasi inayoweza kutumika
  • Nodi za uchanganuzi zenye uwezo wa kusakinisha GPU
  • Chaguzi zingine kulingana na mahitaji ya biashara (kwa mfano, ikiwa unahitaji Kafka na kadhalika)

Nini ni maalum kuhusu Cloudera na jinsi ya kupika

Atos Codex Data Lake Engine inajumuisha seva zenyewe na programu iliyosakinishwa awali, ikiwa ni pamoja na kifaa chenye leseni cha Cloudera; Hadoop yenyewe, OpenStack yenye mashine pepe kulingana na RedHat Enterprise Linux kernel, urudufu wa data na mifumo ya chelezo (ikiwa ni pamoja na kutumia nodi ya chelezo na Cloudera BDR - Hifadhi Nakala na Urejeshaji Maafa). Atos Codex Data Lake Engine ikawa suluhisho la kwanza la uboreshaji kuthibitishwa cloudera.

Ikiwa una nia ya maelezo, tutafurahi kujibu maswali yetu katika maoni.

Chanzo: mapenzi.com

Kuongeza maoni