Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

ылайык бөлүштүрүлгөн эсептөө жана чоң маалыматтардын рыногу статистика, жылына 18-19% өсүүдө. Бул бул максаттар үчүн программалык камсыздоону тандоо маселеси актуалдуу бойдон калууда дегенди билдирет. Бул постто биз эмне үчүн бөлүштүрүлгөн эсептөөлөр керек экендигинен баштайбыз, программалык камсыздоону тандоого кененирээк токтолобуз, Hadoop менен Cloudera колдонуу жөнүндө сүйлөшөбүз, акырында аппараттык камсыздоону тандоо жана анын иштешине кандай таасир тийгизери жөнүндө сүйлөшөбүз. ар кандай жолдор менен.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек
Кадимки бизнесте бөлүштүрүлгөн эсептөө эмне үчүн керек? Баары жөнөкөй жана ошол эле учурда татаал. Жөнөкөй - анткени көпчүлүк учурларда биз маалымат бирдигине салыштырмалуу жөнөкөй эсептөөлөрдү жүргүзөбүз. Кыйын - анткени мындай маалыматтар көп. Абдан көп. Натыйжада, бир керек 1000 жипте терабайт маалыматтарды иштетүү. Ошентип, колдонуу учурлары абдан универсалдуу: эсептөөлөр андан да чоңураак маалымат массивинде көп сандагы метрикаларды эске алуу талап кылынган жерде колдонулушу мүмкүн.

Акыркы бир мисал: Додо пицца аныкталган кардарлардын заказ базасынын анализинин негизинде, пиццаны ыктыярдуу кошулмалар менен тандап жатканда, колдонуучулар, адатта, ингредиенттердин алты гана негизги топтому жана бир нече кокустуктар менен иштешет. Демек, пиццерия сатып алууларды жөнгө салган. Мындан тышкары, ал колдонуучуларга заказ этабында сунушталган кошумча өнүмдөрдү жакшыраак сунуштай алды, бул кирешени көбөйттү.

Дагы бир мисал: талдоо товарлар H&Mге жеке дүкөндөрдө ассортиментти 40% кыскартууга мүмкүндүк берди, ошол эле учурда сатуунун деңгээлин сактайт. Буга начар сатылып жаткан позицияларды алып салуу менен жетишилди, ал эми эсептерде сезондуулук эске алынды.

Курал тандоо

Мындай эсептөө үчүн тармактык стандарт Hadoop болуп саналат. Неге? Анткени Hadoop - бул эң сонун, жакшы документтештирилген алкак (ошол эле Хабр бул тема боюнча көптөгөн деталдуу макалаларды берет), ал коммуналдык кызматтардын жана китепканалардын бүтүндөй топтому менен коштолот. Сиз структураланган жана структураланбаган маалыматтардын чоң топтомун киргизүү катары бере аласыз жана система өзү аларды эсептөө күчү ортосунда бөлүштүрөт. Мындан тышкары, ошол эле мүмкүнчүлүктөр каалаган убакта көбөйтүлүшү же өчүрүлүшү мүмкүн - ошол эле горизонталдык масштабдуулук аракетте.

2017-жылы таасирдүү консалтинг компаниясы Gartner түзүлгөнHadoop жакында эскирип калат. Себеп абдан баналдык: аналитиктер компаниялар массалык түрдө булутка өтүшөт деп эсептешет, анткени ал жерде алар эсептөө күчүн колдонуунун негизинде төлөй алышат. Hadoopду "көмүүгө" жөндөмдүү болгон экинчи маанилүү фактор - бул иштин ылдамдыгы. Анткени Apache Spark же Google Cloud DataFlow сыяктуу параметрлер MapReduce негизги Hadoop'ко караганда ылдамыраак.

Hadoop бир нече мамыларга таянат, алардын эң көрүнүктүүлөрү MapReduce технологиялары (серверлердин ортосунда эсептөөлөр үчүн маалыматтарды бөлүштүрүү системасы) жана HDFS файл системасы. Акыркысы кластердик түйүндөр арасында бөлүштүрүлгөн маалыматты сактоо үчүн атайын иштелип чыккан: белгиленген өлчөмдөгү ар бир блок бир нече түйүндөргө жайгаштырылышы мүмкүн жана репликациянын аркасында система айрым түйүндөрдөгү бузулууларга туруктуу. Файлдык таблицанын ордуна NameNode деп аталган атайын сервер колдонулат.

Төмөндөгү сүрөт MapReduce кантип иштээрин көрсөтүп турат. Биринчи этапта маалыматтар белгилүү бир атрибут боюнча бөлүнөт, экинчи этапта эсептөө күчү менен бөлүштүрүлөт, үчүнчү этапта эсептөө жүрөт.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек
MapReduce алгач Google тарабынан издөө муктаждыктары үчүн түзүлгөн. Андан кийин MapReduce акысыз кодго кирип, Apache долбоорду өзүнө алды. Ооба, Google акырындык менен башка чечимдерге өттү. Кызыктуу нюанс: учурда Google'дун Google Cloud Dataflow аттуу долбоору бар, аны тез алмаштыруу катары Hadoopдон кийинки кадам катары жайгашкан.

Жакшылап карап көрсөк, Google Cloud Dataflow Apache Beamдин вариациясына негизделген, ал эми Apache Beam жакшы документтештирилген Apache Spark алкагын камтыйт, ал бизге чечимди аткаруунун дээрлик бирдей ылдамдыгы жөнүндө сүйлөшүүгө мүмкүндүк берет. Ооба, Apache Spark HDFS файл тутумунда жакшы иштейт, бул аны Hadoop серверлеринде жайылтууга мүмкүндүк берет.

Бул жерге Google Cloud Dataflow'ка каршы Hadoop жана Spark үчүн документтердин көлөмүн жана даяр чечимдерди кошуңуз, ошондо куралды тандоо айкын болот. Андан тышкары, инженерлер кайсы кодду Hadoop же Spark аркылуу аткарарын өздөрү чечишип, тапшырмага, тажрыйбага жана квалификацияга басым жасай алышат.

Булут же жергиликтүү сервер

Булутка жалпы өтүү тенденциясы атүгүл Hadoop-кызмат катары кызыктуу терминди пайда кылды. Мындай сценарийде туташкан серверлерди башкаруу абдан маанилүү болуп калды. Анткени, тилекке каршы, анын популярдуулугуна карабастан, таза Hadoop - бул конфигурациялоо өтө кыйын курал, анткени сиз кол менен көп нерсени жасашыңыз керек. Мисалы, сиз серверлерди өзүнчө конфигурациялай аласыз, алардын иштешин көзөмөлдөй аласыз жана көптөгөн параметрлерди тактай аласыз. Жалпысынан алганда, үйрөнчүк үчүн иштөө жана бир жерде бурмалоо же бир нерсени өткөрүп жиберүү үчүн чоң мүмкүнчүлүк бар.

Ошондуктан, башында ыңгайлуу жайгаштыруу жана башкаруу куралдары менен жабдылган ар кандай бөлүштүрүү абдан популярдуу болуп калды. Sparkти колдогон жана нерселерди жеңилдеткен популярдуу дистрибьюциялардын бири бул Cloudera. Анын акы төлөнүүчү жана акысыз версиялары бар - жана акыркысында бардык негизги функциялар жеткиликтүү жана түйүндөрдүн санын чектебестен.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

Орнотуу учурунда Cloudera Manager серверлериңизге SSH аркылуу туташат. Кызыктуу жагдай: орнотуп жатканда, ал деп аталган тарабынан жүзөгө ашырылат деп көрсөтүү үчүн жакшы посылкалар: атайын пакеттер, алардын ар бири бири-бири менен иштөө үчүн конфигурацияланган бардык керектүү компоненттерди камтыйт. Чынында, бул пакет менеджеринин жакшыртылган версиясы.

Орнотуудан кийин биз кластердик башкаруу консолун алабыз, анда сиз кластерлер үчүн телеметрияны, орнотулган кызматтарды көрө аласыз, ошондой эле ресурстарды кошуп/жок кыла аласыз жана кластердин конфигурациясын түзөтө аласыз.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

Натыйжада, ал ракетанын кесилиши сиздин алдыңызда пайда болот, бул сизди BigDataнын жаркын келечегине алып барат. Бирок, «кеттик» дегенден мурун, капоттун астынан алдыга карай ылдамдык менен карайлы.

аппараттык талаптар

Алардын веб-сайтында Cloudera ар кандай мүмкүн болгон конфигурацияларды айтат. Аларды куруунун жалпы принциптери сүрөттө көрсөтүлгөн:

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек
MapReduce бул оптимисттик сүрөттү бүдөмүктөтө алат. Мурунку бөлүмдөгү диаграмманы кайрадан карасак, дээрлик бардык учурларда MapReduce жумушу дисктен же тармактан маалыматтарды окуп жатканда кыйынчылыкка дуушар болоору айкын болот. Бул Cloudera блогунда да белгиленген. Натыйжада, ар кандай тез эсептөөлөр үчүн, анын ичинде Spark аркылуу, ал көп учурда реалдуу убакыт эсептөөлөрү үчүн колдонулат, I / O ылдамдыгы абдан маанилүү. Ошондуктан, Hadoop колдонуп жатканда, балансталган жана тез машиналар кластерге кирүү абдан маанилүү, бул, жумшак айтканда, булут инфраструктурасында дайыма эле камсыз боло бербейт.

Жүктөлүштү бөлүштүрүүдө баланс күчтүү көп ядролуу процессорлору бар серверлерде Openstack виртуализациясын колдонуу аркылуу ишке ашат. Маалымат түйүндөрүнө өздөрүнүн процессор ресурстары жана белгилүү дисктери бөлүнөт. Биздин чечимде Atos Codex Data Lake Engine кеңири виртуалдаштырууга жетишилди, ошондуктан биз өндүрүмдүүлүк жагынан да (тармактык инфраструктуранын таасири минималдуу) жана ТКО (кошумча физикалык серверлер жок кылынат) боюнча жеңебиз.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек
BullSequana S200 серверлерин колдонгон учурда, биз кээ бир тоскоолдуктарсыз өтө бирдей жүктү алабыз. Минималдуу конфигурацияда 3 BullSequana S200 сервери камтылган, алардын ар бири эки JBOD менен, ошондой эле төрт маалымат түйүндөрүн камтыган кошумча S200s кошумча түрдө туташтырылган. Бул жерде TeraGen сынагындагы мисал жүктөө:

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

Ар кандай маалымат көлөмү жана репликация маанилери менен тесттер кластердик түйүндөр боюнча жүктү бөлүштүрүү жагынан бирдей натыйжаларды көрсөтөт. Төмөндө дискке кирүү мүмкүнчүлүгүн аткаруу тесттери боюнча бөлүштүрүүнүн графиги келтирилген.

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

Эсептөөлөр 3 BullSequana S200 серверинин минималдуу конфигурациясына негизделген. Ал 9 маалымат түйүндөрүн жана 3 башкы түйүндөрдү, ошондой эле OpenStack Virtualization негизинде коргоону жайылтууда резервдик виртуалдык машиналарды камтыйт. TeraSort тестинин натыйжасы: 512 МБ блоктун көлөмү, шифрлөө менен үч репликация фактору 23,1 мүнөт.

Системаны кантип кеңейтсе болот? Data Lake Engine үчүн ар кандай кеңейтүүлөр бар:

  • Маалымат түйүндөрү: ар бир 40 ТБ колдонууга жарамдуу мейкиндик үчүн
  • GPU орнотуу мүмкүнчүлүгү бар аналитикалык түйүндөр
  • Бизнес муктаждыктарына жараша башка параметрлер (мисалы, сизге Кафка жана ушул сыяктуулар керек болсо)

Cloudera кандай өзгөчөлүгү бар жана аны кантип даярдоо керек

Atos Codex Data Lake Engine комплекси серверлердин өзүн жана алдын ала орнотулган программалык камсыздоону, анын ичинде лицензиясы бар Cloudera комплектин камтыйт; Hadoop өзү, RedHat Enterprise Linux ядросуна негизделген виртуалдык машиналары бар OpenStack, маалыматтарды репликациялоо жана резервдик көчүрүү системалары (анын ичинде резервдик түйүн жана Cloudera BDR - Камдык көчүрмөнү жана кырсыкты калыбына келтирүү). Atos Codex Data Lake Engine сертификатталган биринчи виртуалдаштыруу чечими болуп саналат cloudera.

Эгерде сизди чоо-жайы кызыктырса, биз суроолорубузга комментарийлерде жооп берүүгө даярбыз.

Source: www.habr.com

Комментарий кошуу