Soko la kompyuta iliyosambazwa na data kubwa, kulingana na
Kwa nini kompyuta iliyosambazwa inahitajika katika biashara ya kawaida? Kila kitu hapa ni rahisi na ngumu kwa wakati mmoja. Rahisi - kwa sababu katika hali nyingi tunafanya mahesabu rahisi kwa kila kitengo cha habari. Ni ngumu kwa sababu kuna habari nyingi kama hizo. Wengi sana. Kama matokeo, inahitajika
Moja ya mifano ya hivi karibuni: mnyororo wa pizzeria Dodo Pizza
Mfano mmoja zaidi:
Uchaguzi wa zana
Kiwango cha sekta ya aina hii ya kompyuta ni Hadoop. Kwa nini? Kwa sababu Hadoop ni mfumo bora, ulio na kumbukumbu vizuri (Habr huyohuyo hutoa makala mengi ya kina juu ya mada hii), ambayo inaambatana na seti nzima ya huduma na maktaba. Unaweza kuingiza seti kubwa za data iliyopangwa na isiyo na muundo, na mfumo yenyewe utaisambaza kati ya nguvu za kompyuta. Zaidi ya hayo, uwezo huu huu unaweza kuongezwa au kuzimwa wakati wowote - uboreshaji huo huo wa mlalo katika hatua.
Mnamo 2017, kampuni ya ushauri yenye ushawishi ya Gartner
Hadoop hutegemea nguzo kadhaa, zinazojulikana zaidi ni teknolojia za MapReduce (mfumo wa kusambaza data kwa hesabu kati ya seva) na mfumo wa faili wa HDFS. Mwisho huo umeundwa mahsusi kwa kuhifadhi habari iliyosambazwa kati ya nodi za nguzo: kila kizuizi cha saizi iliyowekwa kinaweza kuwekwa kwenye nodi kadhaa, na kwa shukrani kwa kurudia, mfumo unakabiliwa na kushindwa kwa nodi za kibinafsi. Badala ya jedwali la faili, seva maalum inayoitwa NameNode hutumiwa.
Mchoro ulio hapa chini unaonyesha jinsi MapReduce inavyofanya kazi. Katika hatua ya kwanza, data imegawanywa kulingana na kigezo fulani, katika hatua ya pili inasambazwa kulingana na nguvu ya kompyuta, na katika hatua ya tatu hesabu hufanyika.
MapReduce iliundwa awali na Google kwa mahitaji yake ya utafutaji. Kisha MapReduce ilienda nambari ya bure, na Apache akachukua mradi huo. Kweli, Google polepole ilihamia suluhisho zingine. Jambo la kufurahisha: Google kwa sasa ina mradi unaoitwa Google Cloud Dataflow, uliowekwa kama hatua inayofuata baada ya Hadoop, kama mbadala wake wa haraka.
Uangalizi wa karibu unaonyesha kuwa Utiririshaji wa Data wa Wingu la Google unatokana na tofauti ya Apache Beam, huku Apache Beam inajumuisha mfumo ulioandikwa vizuri wa Apache Spark, ambao huturuhusu kuzungumza juu ya karibu kasi sawa ya utekelezaji wa suluhisho. Naam, Apache Spark inafanya kazi kikamilifu kwenye mfumo wa faili wa HDFS, ambayo inaruhusu kupelekwa kwenye seva za Hadoop.
Ongeza hapa idadi ya hati na suluhisho zilizotengenezwa tayari za Hadoop na Spark dhidi ya Utiririshaji wa Data wa Wingu wa Google, na chaguo la zana inakuwa dhahiri. Zaidi ya hayo, wahandisi wanaweza kuamua wenyewe ni kanuni gani - ya Hadoop au Spark - wanapaswa kukimbia, wakizingatia kazi, uzoefu na sifa.
Wingu au seva ya ndani
Mwenendo kuelekea mabadiliko ya jumla kwa wingu umetoa hata neno la kupendeza kama vile Hadoop-as-a-service. Katika hali kama hiyo, usimamizi wa seva zilizounganishwa umekuwa muhimu sana. Kwa sababu, ole, licha ya umaarufu wake, Hadoop safi ni zana ngumu ya kusanidi, kwani mengi yanapaswa kufanywa kwa mkono. Kwa mfano, sanidi seva kibinafsi, fuatilia utendaji wao, na usanidi kwa uangalifu vigezo vingi. Kwa ujumla, kazi ni ya amateur na kuna nafasi kubwa ya kuharibu mahali fulani au kukosa kitu.
Kwa hiyo, vifaa mbalimbali vya usambazaji, ambavyo hapo awali vina vifaa vya urahisi vya kupeleka na utawala, vimekuwa maarufu sana. Mojawapo ya usambazaji maarufu zaidi unaounga mkono Spark na hurahisisha kila kitu ni Cloudera. Ina matoleo ya kulipwa na ya bure - na katika mwisho utendaji wote wa msingi unapatikana, bila kupunguza idadi ya nodes.
Wakati wa kusanidi, Kidhibiti cha Cloudera kitaunganisha kupitia SSH kwa seva zako. Jambo la kufurahisha: wakati wa kusanikisha, ni bora kutaja kuwa inafanywa na kinachojulikana vifurushi: vifurushi maalum, ambayo kila mmoja ina vipengele vyote muhimu vilivyoundwa kufanya kazi na kila mmoja. Kimsingi hili ni toleo lililoboreshwa la msimamizi wa kifurushi.
Baada ya usakinishaji, tunapokea kiweko cha usimamizi wa nguzo, ambapo unaweza kuona telemetry ya nguzo, huduma zilizosakinishwa, pamoja na kwamba unaweza kuongeza/kuondoa rasilimali na kuhariri usanidi wa nguzo.
Kama matokeo, jumba la roketi ambalo litakupeleka kwenye mustakabali mzuri wa BigData linaonekana mbele yako. Lakini kabla ya kusema "hebu twende," hebu tuende chini ya kofia.
Mahitaji ya vifaa
Kwenye tovuti yake, Cloudera inataja usanidi tofauti unaowezekana. Kanuni za jumla ambazo zinajengwa zinaonyeshwa kwenye kielelezo:
MapReduce inaweza kutia ukungu picha hii yenye matumaini. Ikiwa unatazama tena mchoro kutoka kwa sehemu ya awali, inakuwa wazi kuwa karibu na matukio yote, kazi ya MapReduce inaweza kukutana na chupa wakati wa kusoma data kutoka kwa diski au kutoka kwenye mtandao. Hili pia limebainishwa katika blogu ya Cloudera. Matokeo yake, kwa mahesabu yoyote ya haraka, ikiwa ni pamoja na kupitia Spark, ambayo mara nyingi hutumiwa kwa mahesabu ya wakati halisi, kasi ya I/O ni muhimu sana. Kwa hiyo, wakati wa kutumia Hadoop, ni muhimu sana kwamba nguzo ni pamoja na mashine za usawa na za haraka, ambazo, kuiweka kwa upole, hazihakikishiwa kila wakati katika miundombinu ya wingu.
Usawa katika usambazaji wa mzigo unapatikana kupitia matumizi ya uboreshaji wa Openstack kwenye seva zilizo na CPU zenye nguvu nyingi. Node za data zimetengwa rasilimali zao za processor na disks maalum. Katika uamuzi wetu Atos Codex Data Lake Engine Uboreshaji mpana unapatikana, ndiyo sababu tunafaidika katika suala la utendakazi (athari za miundombinu ya mtandao zimepunguzwa) na katika TCO (seva za ziada za kimwili huondolewa).
Tunapotumia seva za BullSequana S200, tunapata mzigo unaofanana sana, usio na vikwazo. Usanidi wa chini unajumuisha seva 3 za BullSequana S200, kila moja ikiwa na JBOD mbili, pamoja na S200 za ziada zilizo na nodi nne za data zimeunganishwa kwa hiari. Hapa kuna mfano wa mzigo kwenye jaribio la TeraGen:
Majaribio yenye kiasi tofauti cha data na thamani za urudufishaji huonyesha matokeo sawa katika suala la usambazaji wa mzigo kati ya nodi za nguzo. Chini ni grafu ya usambazaji wa upatikanaji wa disk kwa vipimo vya utendaji.
Hesabu zilifanywa kulingana na usanidi wa chini kabisa wa seva 3 za BullSequana S200. Inajumuisha nodi 9 za data na nodi 3 kuu, pamoja na mashine pepe zilizohifadhiwa katika kesi ya kupelekwa kwa ulinzi kulingana na Virtualization ya OpenStack. Matokeo ya jaribio la TeraSort: ukubwa wa block 512 MB replication sawa na tatu kwa usimbaji fiche ni dakika 23,1.
Mfumo unawezaje kupanuliwa? Kuna aina tofauti za viendelezi vinavyopatikana kwa Data Lake Engine:
- Nodi za data: kwa kila TB 40 ya nafasi inayoweza kutumika
- Nodi za uchanganuzi zenye uwezo wa kusakinisha GPU
- Chaguzi zingine kulingana na mahitaji ya biashara (kwa mfano, ikiwa unahitaji Kafka na kadhalika)
Atos Codex Data Lake Engine inajumuisha seva zenyewe na programu iliyosakinishwa awali, ikiwa ni pamoja na kifaa chenye leseni cha Cloudera; Hadoop yenyewe, OpenStack yenye mashine pepe kulingana na RedHat Enterprise Linux kernel, urudufu wa data na mifumo ya chelezo (ikiwa ni pamoja na kutumia nodi ya chelezo na Cloudera BDR - Hifadhi Nakala na Urejeshaji Maafa). Atos Codex Data Lake Engine ikawa suluhisho la kwanza la uboreshaji kuthibitishwa
Ikiwa una nia ya maelezo, tutafurahi kujibu maswali yetu katika maoni.
Chanzo: mapenzi.com