ылайык бөлүштүрүлгөн эсептөө жана чоң маалыматтардын рыногу
Кадимки бизнесте бөлүштүрүлгөн эсептөө эмне үчүн керек? Баары жөнөкөй жана ошол эле учурда татаал. Жөнөкөй - анткени көпчүлүк учурларда биз маалымат бирдигине салыштырмалуу жөнөкөй эсептөөлөрдү жүргүзөбүз. Кыйын - анткени мындай маалыматтар көп. Абдан көп. Натыйжада, бир керек
Акыркы бир мисал: Додо пицца
Дагы бир мисал:
Курал тандоо
Мындай эсептөө үчүн тармактык стандарт Hadoop болуп саналат. Неге? Анткени Hadoop - бул эң сонун, жакшы документтештирилген алкак (ошол эле Хабр бул тема боюнча көптөгөн деталдуу макалаларды берет), ал коммуналдык кызматтардын жана китепканалардын бүтүндөй топтому менен коштолот. Сиз структураланган жана структураланбаган маалыматтардын чоң топтомун киргизүү катары бере аласыз жана система өзү аларды эсептөө күчү ортосунда бөлүштүрөт. Мындан тышкары, ошол эле мүмкүнчүлүктөр каалаган убакта көбөйтүлүшү же өчүрүлүшү мүмкүн - ошол эле горизонталдык масштабдуулук аракетте.
2017-жылы таасирдүү консалтинг компаниясы Gartner
Hadoop бир нече мамыларга таянат, алардын эң көрүнүктүүлөрү MapReduce технологиялары (серверлердин ортосунда эсептөөлөр үчүн маалыматтарды бөлүштүрүү системасы) жана HDFS файл системасы. Акыркысы кластердик түйүндөр арасында бөлүштүрүлгөн маалыматты сактоо үчүн атайын иштелип чыккан: белгиленген өлчөмдөгү ар бир блок бир нече түйүндөргө жайгаштырылышы мүмкүн жана репликациянын аркасында система айрым түйүндөрдөгү бузулууларга туруктуу. Файлдык таблицанын ордуна NameNode деп аталган атайын сервер колдонулат.
Төмөндөгү сүрөт MapReduce кантип иштээрин көрсөтүп турат. Биринчи этапта маалыматтар белгилүү бир атрибут боюнча бөлүнөт, экинчи этапта эсептөө күчү менен бөлүштүрүлөт, үчүнчү этапта эсептөө жүрөт.
MapReduce алгач Google тарабынан издөө муктаждыктары үчүн түзүлгөн. Андан кийин MapReduce акысыз кодго кирип, Apache долбоорду өзүнө алды. Ооба, Google акырындык менен башка чечимдерге өттү. Кызыктуу нюанс: учурда Google'дун Google Cloud Dataflow аттуу долбоору бар, аны тез алмаштыруу катары Hadoopдон кийинки кадам катары жайгашкан.
Жакшылап карап көрсөк, Google Cloud Dataflow Apache Beamдин вариациясына негизделген, ал эми Apache Beam жакшы документтештирилген Apache Spark алкагын камтыйт, ал бизге чечимди аткаруунун дээрлик бирдей ылдамдыгы жөнүндө сүйлөшүүгө мүмкүндүк берет. Ооба, Apache Spark HDFS файл тутумунда жакшы иштейт, бул аны Hadoop серверлеринде жайылтууга мүмкүндүк берет.
Бул жерге Google Cloud Dataflow'ка каршы Hadoop жана Spark үчүн документтердин көлөмүн жана даяр чечимдерди кошуңуз, ошондо куралды тандоо айкын болот. Андан тышкары, инженерлер кайсы кодду Hadoop же Spark аркылуу аткарарын өздөрү чечишип, тапшырмага, тажрыйбага жана квалификацияга басым жасай алышат.
Булут же жергиликтүү сервер
Булутка жалпы өтүү тенденциясы атүгүл Hadoop-кызмат катары кызыктуу терминди пайда кылды. Мындай сценарийде туташкан серверлерди башкаруу абдан маанилүү болуп калды. Анткени, тилекке каршы, анын популярдуулугуна карабастан, таза Hadoop - бул конфигурациялоо өтө кыйын курал, анткени сиз кол менен көп нерсени жасашыңыз керек. Мисалы, сиз серверлерди өзүнчө конфигурациялай аласыз, алардын иштешин көзөмөлдөй аласыз жана көптөгөн параметрлерди тактай аласыз. Жалпысынан алганда, үйрөнчүк үчүн иштөө жана бир жерде бурмалоо же бир нерсени өткөрүп жиберүү үчүн чоң мүмкүнчүлүк бар.
Ошондуктан, башында ыңгайлуу жайгаштыруу жана башкаруу куралдары менен жабдылган ар кандай бөлүштүрүү абдан популярдуу болуп калды. Sparkти колдогон жана нерселерди жеңилдеткен популярдуу дистрибьюциялардын бири бул Cloudera. Анын акы төлөнүүчү жана акысыз версиялары бар - жана акыркысында бардык негизги функциялар жеткиликтүү жана түйүндөрдүн санын чектебестен.
Орнотуу учурунда Cloudera Manager серверлериңизге SSH аркылуу туташат. Кызыктуу жагдай: орнотуп жатканда, ал деп аталган тарабынан жүзөгө ашырылат деп көрсөтүү үчүн жакшы посылкалар: атайын пакеттер, алардын ар бири бири-бири менен иштөө үчүн конфигурацияланган бардык керектүү компоненттерди камтыйт. Чынында, бул пакет менеджеринин жакшыртылган версиясы.
Орнотуудан кийин биз кластердик башкаруу консолун алабыз, анда сиз кластерлер үчүн телеметрияны, орнотулган кызматтарды көрө аласыз, ошондой эле ресурстарды кошуп/жок кыла аласыз жана кластердин конфигурациясын түзөтө аласыз.
Натыйжада, ал ракетанын кесилиши сиздин алдыңызда пайда болот, бул сизди BigDataнын жаркын келечегине алып барат. Бирок, «кеттик» дегенден мурун, капоттун астынан алдыга карай ылдамдык менен карайлы.
аппараттык талаптар
Алардын веб-сайтында Cloudera ар кандай мүмкүн болгон конфигурацияларды айтат. Аларды куруунун жалпы принциптери сүрөттө көрсөтүлгөн:
MapReduce бул оптимисттик сүрөттү бүдөмүктөтө алат. Мурунку бөлүмдөгү диаграмманы кайрадан карасак, дээрлик бардык учурларда MapReduce жумушу дисктен же тармактан маалыматтарды окуп жатканда кыйынчылыкка дуушар болоору айкын болот. Бул Cloudera блогунда да белгиленген. Натыйжада, ар кандай тез эсептөөлөр үчүн, анын ичинде Spark аркылуу, ал көп учурда реалдуу убакыт эсептөөлөрү үчүн колдонулат, I / O ылдамдыгы абдан маанилүү. Ошондуктан, Hadoop колдонуп жатканда, балансталган жана тез машиналар кластерге кирүү абдан маанилүү, бул, жумшак айтканда, булут инфраструктурасында дайыма эле камсыз боло бербейт.
Жүктөлүштү бөлүштүрүүдө баланс күчтүү көп ядролуу процессорлору бар серверлерде Openstack виртуализациясын колдонуу аркылуу ишке ашат. Маалымат түйүндөрүнө өздөрүнүн процессор ресурстары жана белгилүү дисктери бөлүнөт. Биздин чечимде Atos Codex Data Lake Engine кеңири виртуалдаштырууга жетишилди, ошондуктан биз өндүрүмдүүлүк жагынан да (тармактык инфраструктуранын таасири минималдуу) жана ТКО (кошумча физикалык серверлер жок кылынат) боюнча жеңебиз.
BullSequana S200 серверлерин колдонгон учурда, биз кээ бир тоскоолдуктарсыз өтө бирдей жүктү алабыз. Минималдуу конфигурацияда 3 BullSequana S200 сервери камтылган, алардын ар бири эки JBOD менен, ошондой эле төрт маалымат түйүндөрүн камтыган кошумча S200s кошумча түрдө туташтырылган. Бул жерде TeraGen сынагындагы мисал жүктөө:
Ар кандай маалымат көлөмү жана репликация маанилери менен тесттер кластердик түйүндөр боюнча жүктү бөлүштүрүү жагынан бирдей натыйжаларды көрсөтөт. Төмөндө дискке кирүү мүмкүнчүлүгүн аткаруу тесттери боюнча бөлүштүрүүнүн графиги келтирилген.
Эсептөөлөр 3 BullSequana S200 серверинин минималдуу конфигурациясына негизделген. Ал 9 маалымат түйүндөрүн жана 3 башкы түйүндөрдү, ошондой эле OpenStack Virtualization негизинде коргоону жайылтууда резервдик виртуалдык машиналарды камтыйт. TeraSort тестинин натыйжасы: 512 МБ блоктун көлөмү, шифрлөө менен үч репликация фактору 23,1 мүнөт.
Системаны кантип кеңейтсе болот? Data Lake Engine үчүн ар кандай кеңейтүүлөр бар:
- Маалымат түйүндөрү: ар бир 40 ТБ колдонууга жарамдуу мейкиндик үчүн
- GPU орнотуу мүмкүнчүлүгү бар аналитикалык түйүндөр
- Бизнес муктаждыктарына жараша башка параметрлер (мисалы, сизге Кафка жана ушул сыяктуулар керек болсо)
Atos Codex Data Lake Engine комплекси серверлердин өзүн жана алдын ала орнотулган программалык камсыздоону, анын ичинде лицензиясы бар Cloudera комплектин камтыйт; Hadoop өзү, RedHat Enterprise Linux ядросуна негизделген виртуалдык машиналары бар OpenStack, маалыматтарды репликациялоо жана резервдик көчүрүү системалары (анын ичинде резервдик түйүн жана Cloudera BDR - Камдык көчүрмөнү жана кырсыкты калыбына келтирүү). Atos Codex Data Lake Engine сертификатталган биринчи виртуалдаштыруу чечими болуп саналат
Эгерде сизди чоо-жайы кызыктырса, биз суроолорубузга комментарийлерде жооп берүүгө даярбыз.
Source: www.habr.com