Шта је посебно код Цлоудере и како је кувати

Тржиште дистрибуираног рачунарства и великих података, према статистика, расте 18-19% годишње. То значи да питање избора софтвера за ове сврхе остаје релевантно. У овом посту ћемо почети од тога зашто нам је потребно дистрибуирано рачунарство, детаљније ћемо се задржати на избору софтвера, причаћемо о коришћењу Хадооп-а са Цлоудером, а на крају ћемо говорити о избору хардвера и како то утиче на перформансе на различите начине.

Шта је посебно код Цлоудере и како је кувати
Зашто нам је потребно дистрибуирано рачунарство у обичном пословању? Све је једноставно и компликовано у исто време. Једноставно – јер у већини случајева вршимо релативно једноставне прорачуне по јединици информација. Тешко - јер таквих информација има много. Толико. Као последица тога, човек мора обрадити терабајте података у 1000 нити. Дакле, случајеви употребе су прилично универзални: прорачуни се могу применити где год је потребно да се узме у обзир велики број метрика на још већем низу података.

Један недавни пример: Додо Пизза одлучан на основу анализе базе поруџбина купаца, да када бирају пицу са произвољним додацима, корисници обично раде са само шест основних сетова састојака плус неколико насумичних. Сходно томе, пицерија је прилагодила куповину. Поред тога, био је у могућности да боље препоручи додатне производе понуђене у фази наручивања корисницима, што је повећало профит.

Још један пример: анализа роба је омогућила Х&М-у да смањи асортиман у појединачним продавницама за 40%, уз одржавање нивоа продаје. Ово је постигнуто искључивањем лоше продајних позиција, а у прорачунима је узета у обзир сезоналност.

Избор алата

Индустријски стандард за ову врсту рачунарства је Хадооп. Зашто? Зато што је Хадооп одличан, добро документован оквир (исти Хабр даје много детаљних чланака о овој теми), који је праћен читавим скупом услужних програма и библиотека. Можете поднети огромне скупове структурираних и неструктурираних података као улаз, а сам систем ће их дистрибуирати између рачунарске снаге. Штавише, ови исти капацитети се могу повећати или онемогућити у било ком тренутку – иста хоризонтална скалабилност у акцији.

У 2017. утицајна консултантска компанија Гартнер закључиода ће Хадооп ускоро застарети. Разлог је прилично баналан: аналитичари верују да ће компаније масовно мигрирати у облак, јер ће тамо моћи да плаћају на основу коришћења рачунарске снаге. Други важан фактор који је наводно способан да "закопа" Хадооп је брзина рада. Зато што су опције као што су Апацхе Спарк или Гоогле Цлоуд ДатаФлов брже од МапРедуце основног Хадооп-а.

Хадооп почива на неколико стубова, од којих су најзначајнији МапРедуце технологије (систем за дистрибуцију података за прорачуне између сервера) и ХДФС систем датотека. Потоњи је посебно дизајниран за складиштење информација распоређених између чворова кластера: сваки блок фиксне величине може се поставити на неколико чворова, а захваљујући репликацији, систем је отпоран на кварове појединачних чворова. Уместо табеле датотека, користи се посебан сервер под називом НамеНоде.

Илустрација испод показује како МапРедуце функционише. У првој фази подаци се деле према одређеном атрибуту, у другој фази се дистрибуирају по рачунарској снази, у трећој фази се одвија прорачун.

Шта је посебно код Цлоудере и како је кувати
МапРедуце је првобитно креирао Гоогле за потребе своје претраге. Затим је МапРедуце ушао у бесплатни код, а Апацхе је преузео пројекат. Па, Гоогле је постепено прешао на друга решења. Занимљива нијанса: у овом тренутку Гоогле има пројекат под називом Гоогле Цлоуд Датафлов, позициониран као следећи корак после Хадооп-а, као његова брза замена.

Пажљивији поглед показује да је Гоогле Цлоуд Датафлов заснован на варијацији Апацхе Беам-а, док Апацхе Беам укључује добро документовани оквир Апацхе Спарк, који нам омогућава да говоримо о скоро истој брзини извршавања решења. Па, Апацхе Спарк добро функционише на ХДФС систему датотека, што вам омогућава да га примените на Хадооп серверима.

Додајте овде обим документације и готова решења за Хадооп и Спарк против Гоогле Цлоуд Датафлов-а и избор алата постаје очигледан. Штавише, инжењери могу сами да одлуче који ће код – под Хадооп-ом или Спарк-ом – извршити, фокусирајући се на задатак, искуство и квалификације.

Цлоуд или локални сервер

Тренд ка општем преласку на облак чак је довео до тако занимљивог термина као што је Хадооп-као-услуга. У таквом сценарију, администрација повезаних сервера је постала веома важна. Јер, авај, упркос својој популарности, чисти Хадооп је прилично тежак алат за конфигурисање, пошто морате много да урадите ручно. На пример, можете појединачно да конфигуришете сервере, надгледате њихове перформансе и фино подесите многе параметре. Уопште, радите за аматера и постоји велика шанса да негде зезнете или нешто пропустите.

Стога су различите дистрибуције постале веома популарне, које су у почетку опремљене погодним алатима за примену и администрацију. Једна од популарнијих дистрибуција која подржава Спарк и олакшава ствари је Цлоудера. Има и плаћену и бесплатну верзију - ау овој другој је доступна сва главна функционалност и без ограничења броја чворова.

Шта је посебно код Цлоудере и како је кувати

Током подешавања, Цлоудера Манагер ће се повезати преко ССХ-а са вашим серверима. Занимљива ствар: приликом инсталирања, боље је навести да се врши тзв парцеле: специјални пакети, од којих сваки садржи све потребне компоненте конфигурисане да раде једна са другом. У ствари, ово је тако побољшана верзија менаџера пакета.

Након инсталације добијамо конзолу за управљање кластерима, где можете видети телеметрију за кластере, инсталиране услуге, плус можете додати / уклонити ресурсе и уредити конфигурацију кластера.

Шта је посебно код Цлоудере и како је кувати

Као резултат, пред вама се појављује сечење те ракете, која ће вас одвести у светлу будућност БигДата. Али пре него што кажемо „идемо“, пређимо напред испод хаубе.

хардверски захтеви

На својој веб страници, Цлоудера помиње различите могуће конфигурације. Општи принципи по којима су изграђени приказани су на илустрацији:

Шта је посебно код Цлоудере и како је кувати
МапРедуце може да замагли ову оптимистичну слику. Ако поново погледамо дијаграм у претходном одељку, постаје јасно да у скоро свим случајевима, МапРедуце посао може наићи на уско грло приликом читања података са диска или мреже. Ово је такође забележено на блогу Цлоудера. Као резултат тога, за све брзе прорачуне, укључујући и преко Спарк-а, који се често користи за прорачуне у реалном времену, И/О брзина је веома важна. Због тога је при коришћењу Хадооп-а веома важно да уравнотежене и брзе машине уђу у кластер, што, благо речено, није увек обезбеђено у инфраструктури облака.

Равнотежа у расподели оптерећења се постиже коришћењем Опенстацк виртуелизације на серверима са моћним вишејезгарним ЦПУ-има. Чворовима података се додељују сопствени ресурси процесора и одређени дискови. У нашем решењу Атос Цодек Дата Лаке Енгине постигнута је широка виртуелизација, због чега побеђујемо и у погледу перформанси (утицај мрежне инфраструктуре је минимизиран) и ТЦО (елиминисани су додатни физички сервери).

Шта је посебно код Цлоудере и како је кувати
У случају коришћења БуллСекуана С200 сервера, добијамо веома уједначено оптерећење, лишено неких уских грла. Минимална конфигурација укључује 3 БуллСекуана С200 сервера, сваки са два ЈБОД-а, плус додатни С200 који садрже четири дата чвора су опционо повезани. Ево примера оптерећења у ТераГен тесту:

Шта је посебно код Цлоудере и како је кувати

Тестови са различитим количинама података и вредностима репликације показују исте резултате у погледу расподеле оптерећења међу чворовима кластера. Испод је графикон дистрибуције приступа диску према тестовима перформанси.

Шта је посебно код Цлоудере и како је кувати

Прорачуни су засновани на минималној конфигурацији од 3 БуллСекуана С200 сервера. Садржи 9 чворова података и 3 главна чвора, као и резервисане виртуелне машине у случају постављања заштите засноване на ОпенСтацк виртуелизацији. Резултат ТераСорт теста: величина блока од 512 МБ фактора репликације три са шифровањем је 23,1 минута.

Како се систем може проширити? Доступне су различите врсте проширења за Дата Лаке Енгине:

  • Чворови података: за сваких 40 ТБ корисног простора
  • Аналитички чворови са могућношћу инсталирања ГПУ-а
  • Друге опције у зависности од пословних потреба (на пример, ако вам треба Кафка и сл.)

Шта је посебно код Цлоудере и како је кувати

Атос Цодек Дата Лаке Енгине комплекс укључује и саме сервере и унапред инсталиран софтвер, укључујући Цлоудера комплет са лиценцом; Сам Хадооп, ОпенСтацк са виртуелним машинама заснованим на РедХат Ентерприсе Линук кернелу, системима за репликацију података и резервне копије (укључујући коришћење резервног чвора и Цлоудера БДР - Бацкуп анд Дисастер Рецовери). Атос Цодек Дата Лаке Енгине је прво решење за виртуелизацију које је сертификовано Цлоудера.

Ако сте заинтересовани за детаље, радо ћемо одговорити на наша питања у коментарима.

Извор: ввв.хабр.цом

Додај коментар