Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Бозори компютерҳои тақсимшуда ва маълумоти калон, мувофиқи он омор, соле 18—19 фоиз меафзояд. Ин маънои онро дорад, ки масъалаи интихоби нармафзор барои ин мақсадҳо муҳим боқӣ мемонад. Дар ин паём, мо аз он сар мекунем, ки чаро компютерҳои тақсимшуда лозим аст, дар бораи интихоби нармафзор муфассалтар маълумот диҳем, дар бораи истифодаи Hadoop бо истифода аз Cloudera сӯҳбат кунем ва дар ниҳоят дар бораи интихоби сахтафзор сӯҳбат кунем ва чӣ гуна он ба кор бо роҳҳои гуногун таъсир мерасонад.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан
Чаро компютерҳои тақсимшуда дар тиҷорати муқаррарӣ лозиманд? Дар ин ҷо ҳама чиз оддӣ ва ҳамзамон мураккаб аст. Содда - зеро дар аксари мавридҳо мо барои як воҳиди иттилоот ҳисобҳои нисбатан содда анҷом медиҳем. Ин мушкил аст, зеро чунин маълумот зиёд аст. Ин қадар зиёд. Дар натиҷа, зарур аст коркарди терабайтҳои маълумот дар 1000 ришта. Ҳамин тариқ, ҳолатҳои истифода хеле универсалӣ мебошанд: ҳисобҳоро дар ҳама ҷо истифода бурдан мумкин аст, ки барои ба назар гирифтани миқдори зиёди ченакҳо дар массиви боз ҳам калонтари додаҳо зарур аст.

Яке аз мисолҳои охирин: занҷири пиццерии Dodo Pizza муайян кард дар асоси таҳлили махзани фармоиши муштариён, ки ҳангоми интихоби пицца бо болопӯши тасодуфӣ, корбарон одатан танҳо бо шаш маҷмӯи асосии компонентҳо ва якчанд ҷузъҳои тасодуфӣ кор мекунанд. Мувофиқи ин, пиццерия хариди худро танзим кард. Илова бар ин, вай тавонист маҳсулоти иловагиро дар марҳилаи фармоиш ба корбарон беҳтар тавсия диҳад, ки фоидаро зиёд кард.

Боз як мисол: таҳлил ашёи маҳсулот ба мағозаи H&M имкон дод, ки ассортиментро дар мағозаҳои алоҳида 40% кам карда, сатҳи фурӯшро нигоҳ дорад. Ин аз хисоби аз рун молхои бад фурухташуда ба даст оварда шуд, мавсимй дар хисобу китоб ба назар гирифта шуд.

Интихоби асбоб

Стандарти саноатӣ барои ин намуди ҳисоббарорӣ Hadoop мебошад. Чаро? Азбаски Hadoop як чаҳорчӯбаи аъло ва ҳуҷҷатгузорӣ аст (ҳамон Habr мақолаҳои муфассалро дар ин мавзӯъ пешниҳод мекунад), ки бо маҷмӯи пурраи хидматҳо ва китобхонаҳо ҳамроҳ мешавад. Шумо метавонед маҷмӯи бузурги маълумоти сохторӣ ва сохторнашударо ворид кунед ва худи система онро дар байни қудрати ҳисоббарорӣ тақсим мекунад. Ғайр аз он, ин қобилиятҳо метавонанд дар вақти дилхоҳ афзоиш ё ғайрифаъол карда шаванд - ҳамон миқёси уфуқӣ дар амал.

Дар соли 2017 ширкати бонуфузи консалтингии Gartner хулоса кардандки Hadoop ба зудӣ кӯҳна мешавад. Сабаби хеле ғайриоддӣ аст: таҳлилгарон боварӣ доранд, ки ширкатҳо ба таври оммавӣ ба абр муҳоҷират мекунанд, зеро дар он ҷо онҳо метавонанд ҳангоми истифодаи қудрати ҳисоббарорӣ пардохт кунанд. Омили дуввуми муҳиме, ки метавонад Hadoop-ро "дафн кунад" суръати он аст. Зеро имконоти монанди Apache Spark ё Google Cloud DataFlow нисбат ба MapReduce, ки дар асоси Hadoop ҷойгир аст, тезтаранд.

Hadoop ба якчанд сутунҳо такя мекунад, ки барҷастатарини онҳо технологияҳои MapReduce (системаи тақсими маълумот барои ҳисобҳо байни серверҳо) ва системаи файлии HDFS мебошанд. Охирин махсус барои нигоҳ доштани иттилооте, ки дар байни гиреҳҳои кластер тақсим карда шудааст, тарҳрезӣ шудааст: ҳар як блоки андозаи муқарраршуда метавонад дар якчанд гиреҳ ҷойгир карда шавад ва ба шарофати такрорӣ, система ба нокомии гиреҳҳои алоҳида тобовар аст. Ба ҷои ҷадвали файлҳо сервери махсус бо номи NameNode истифода мешавад.

Тасвири зер нишон медиҳад, ки чӣ тавр MapReduce кор мекунад. Дар мархилаи якум маълумот аз руи меъёри муайян таксим карда мешавад, дар мархилаи дуюм аз руи иктидори хисоббарор таксим карда мешавад ва дар мархилаи сеюм хисобу китоб сурат мегирад.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан
MapReduce дар ибтидо аз ҷониби Google барои эҳтиёҷоти ҷустуҷӯи худ сохта шудааст. Сипас MapReduce рамзи ройгон гирифт ва Apache лоиҳаро ба ӯҳда гирифт. Хуб, Google тадриҷан ба ҳалли дигар гузашт. Маълумоти ҷолиб: Google дар айни замон лоиҳаи Google Cloud Dataflow дорад, ки ҳамчун қадами навбатӣ пас аз Hadoop ҳамчун ивазкунандаи зуд ҷойгир карда шудааст.

Андешидани амиқ нишон медиҳад, ки Google Cloud Dataflow ба як варианти Apache Beam асос ёфтааст, дар ҳоле ки Apache Beam чаҳорчӯбаи хуб ҳуҷҷатшудаи Apache Spark-ро дар бар мегирад, ки ба мо имкон медиҳад, ки дар бораи тақрибан як суръати иҷрои қарорҳо сӯҳбат кунем. Хуб, Apache Spark дар системаи файлии HDFS комилан кор мекунад, ки имкон медиҳад он дар серверҳои Hadoop ҷойгир карда шавад.

Дар ин ҷо ҳаҷми ҳуҷҷатҳо ва қарорҳои омода барои Hadoop ва Spark нисбат ба Google Cloud Dataflow илова кунед ва интихоби асбоб аён мегардад. Ғайр аз он, муҳандисон метавонанд худашон муайян кунанд, ки кадом код - барои Hadoop ё Spark - онҳо бояд кор кунанд, бо таваҷҷӯҳ ба вазифа, таҷриба ва тахассус.

Сервери абрӣ ё маҳаллӣ

Тамоюли гузариш ба абр ҳатто як истилоҳи ҷолибро ба мисли Hadoop-as-a-service ба вуҷуд овард. Дар чунин сенария маъмурияти серверҳои пайваст хеле муҳим гардид. Зеро, мутаассифона, сарфи назар аз маъруфияти худ, Hadoop-и холис як асбоби хеле душвор барои танзим кардан аст, зеро бисёр корҳоро дастӣ кардан лозим аст. Масалан, серверҳоро ба таври инфиродӣ танзим кунед, кори онҳоро назорат кунед ва бисёр параметрҳоро бодиққат танзим кунед. Умуман, кор барои ҳаваскор аст ва имкони бесарусомонӣ ё гум кардани чизе вуҷуд дорад.

Аз ин рӯ, маҷмӯаҳои гуногуни тақсимот, ки дар аввал бо асбобҳои мувофиқи ҷойгиркунӣ ва маъмурӣ муҷаҳҳаз шудаанд, хеле маъмул гаштанд. Яке аз паҳнкунии маъмултарин, ки Spark-ро дастгирӣ мекунад ва ҳама чизро осон мекунад, Cloudera мебошад. Он ҳам версияҳои пулакӣ ва ҳам ройгон дорад - ва дар охирин ҳама функсияҳои асосӣ бидуни маҳдудияти шумораи гиреҳҳо дастрасанд.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Ҳангоми насбкунӣ, Cloudera Manager тавассути SSH ба серверҳои шумо пайваст мешавад. Як нуктаи ҷолиб: ҳангоми насб кардан беҳтар аст, ки муайян кунед, ки он аз ҷониби ба ном иҷро карда мешавад парселҳо: бастаҳои махсус, ки ҳар яки онҳо дорои тамоми ҷузъҳои зарурӣ барои кор бо ҳамдигар танзим карда шудаанд. Аслан ин версияи такмилёфтаи менеҷери бастаҳост.

Пас аз насб, мо консоли идоракунии кластерро мегирем, ки дар он шумо метавонед телеметрияи кластер, хидматҳои насбшударо бубинед, инчунин шумо метавонед захираҳоро илова/нест кардан ва конфигуратсияи кластерро таҳрир кунед.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Дар натиҷа, кабинаи мушак, ки шуморо ба ояндаи дурахшони BigData мебарад, дар пеши шумо пайдо мешавад. Аммо пеш аз он ки мо "биёед" гӯем, биёед дар зери сарпӯш ҳаракат кунем.

Талаботи сахтафзор

Дар вебсайти худ, Cloudera конфигуратсияҳои гуногуни имконпазирро қайд мекунад. Принсипҳои умумӣ, ки тавассути онҳо онҳо сохта мешаванд, дар расм нишон дода шудаанд:

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан
MapReduce метавонад ин тасвири хушбинро хира кунад. Агар шумо бори дигар ба диаграммаи қисмати қаблӣ нигоҳ кунед, маълум мешавад, ки қариб дар ҳама ҳолатҳо кори MapReduce ҳангоми хондани маълумот аз диск ё шабака метавонад ба монеа дучор шавад. Ин инчунин дар блоги Cloudera қайд карда шудааст. Дар натиҷа, барои ҳама гуна ҳисобҳои зуд, аз ҷумла тавассути Spark, ки аксар вақт барои ҳисобҳои вақти воқеӣ истифода мешавад, суръати I/O хеле муҳим аст. Аз ин рӯ, ҳангоми истифодаи Hadoop, хеле муҳим аст, ки кластер мошинҳои мутавозин ва зудро дар бар гирад, ки ба нармӣ гӯем, на ҳамеша дар инфрасохтори абрӣ таъмин карда мешаванд.

Мувозинат дар тақсимоти сарборӣ тавассути истифодаи виртуализатсияи Openstack дар серверҳо бо CPU-ҳои пурқуввати бисёраслӣ ба даст оварда мешавад. Гиреҳҳои додаҳо захираҳои протсессори худ ва дискҳои мушаххасро ҷудо мекунанд. Дар карори мо Муҳаррики Atos Codex Data Lake Виртуализатсияи васеъ ба даст оварда шудааст, аз ин рӯ мо ҳам аз ҷиҳати самаранокӣ (таъсири инфрасохтори шабакавӣ кам карда мешавад) ва ҳам дар TCO (серверҳои физикии изофӣ нест карда мешаванд) манфиат мегирем.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан
Ҳангоми истифодаи серверҳои BullSequana S200, мо бори хеле якхела мегирем, ки бидуни баъзе монеаҳо. Конфигуратсияи ҳадди аққал 3 сервери BullSequana S200-ро дар бар мегирад, ки ҳар кадоми онҳо ду JBOD доранд ва иловаи S200-ҳои иловагии дорои чаҳор гиреҳи додаҳо ихтиёрӣ пайваст мешаванд. Ин аст як мисоли сарборӣ дар санҷиши TeraGen:

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Санҷишҳо бо ҳаҷми гуногуни маълумот ва арзишҳои такрорӣ дар робита ба тақсимоти сарборӣ байни гиреҳҳои кластер якхеларо нишон медиҳанд. Дар зер графики тақсимоти дастрасии диск тавассути санҷишҳои иҷроиш оварда шудааст.

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Ҳисобҳо дар асоси конфигуратсияи ҳадди ақали 3 сервери BullSequana S200 анҷом дода шуданд. Он 9 гиреҳи додаҳо ва 3 гиреҳи асосӣ, инчунин мошинҳои виртуалии ҳифзшударо дар сурати ҷойгиркунии муҳофизат дар асоси Virtualization OpenStack дар бар мегирад. Натиҷаи санҷиши TeraSort: андозаи блок 512 МБ омили такрорӣ ба се баробар бо рамзгузорӣ 23,1 дақиқа аст.

Чӣ тавр системаро васеъ кардан мумкин аст? Барои Data Lake Engine намудҳои гуногуни васеъшавӣ мавҷуданд:

  • Гиреҳҳои маълумот: барои ҳар 40 TB фазои истифодашаванда
  • Гиреҳҳои таҳлилӣ бо қобилияти насб кардани GPU
  • Вариантҳои дигар вобаста ба эҳтиёҷоти тиҷорат (масалан, агар ба шумо Кафка ва монанди инҳо лозим бошад)

Дар бораи Cloudera чӣ махсус аст ва чӣ гуна онро пухтан

Муҳаррики Atos Codex Data Lake ҳам худи серверҳо ва ҳам нармафзори қаблан насбшуда, аз ҷумла маҷмӯаи Cloudera иҷозатномадорро дар бар мегирад; Худи Hadoop, OpenStack бо мошинҳои виртуалӣ дар асоси ядрои RedHat Enterprise Linux, системаҳои такрорӣ ва нусхабардории маълумот (аз ҷумла бо истифода аз гиреҳи эҳтиётӣ ва Cloudera BDR - Backup and Recovery Disaster). Atos Codex Data Lake Engine аввалин ҳалли виртуализатсия шуд, ки сертификатсия шудааст булутера.

Агар шумо ба тафсилот таваҷҷӯҳ дошта бошед, мо омодаем ба саволҳои мо дар шарҳҳо ҷавоб диҳем.

Манбаъ: will.com

Илова Эзоҳ