Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Ọja fun pinpin iširo ati data nla, ni ibamu si eeka, ti wa ni dagba ni 18-19% fun odun. Eyi tumọ si pe ọrọ yiyan sọfitiwia fun awọn idi wọnyi jẹ pataki. Ninu ifiweranṣẹ yii, a yoo bẹrẹ pẹlu idi ti a nilo iširo pinpin, a yoo gbe ni alaye diẹ sii lori yiyan sọfitiwia, a yoo sọrọ nipa lilo Hadoop pẹlu Cloudera, ati nikẹhin a yoo sọrọ nipa yiyan ohun elo ati bii o ṣe ni ipa lori iṣẹ ṣiṣe. ni awọn ọna oriṣiriṣi.

Kini pataki nipa Cloudera ati bi o ṣe le ṣe
Kini idi ti a nilo iširo pinpin ni iṣowo lasan? Ohun gbogbo jẹ rọrun ati idiju ni akoko kanna. Rọrun - nitori ni ọpọlọpọ awọn ọran a ṣe awọn iṣiro ti o rọrun fun ẹyọkan ti alaye. O nira - nitori pe iru alaye pupọ wa. Opo yanturu. Bi abajade, ọkan ni lati ilana terabytes ti data ni 1000 awọn okun. Nitorinaa, awọn ọran lilo jẹ gbogbo agbaye: awọn iṣiro le ṣee lo nibikibi ti o nilo lati ṣe akiyesi nọmba nla ti awọn metiriki lori titobi data paapaa ti o tobi julọ.

Ọkan laipe apẹẹrẹ: Dodo Pizza pinnu da lori ohun onínọmbà ti awọn onibara ibere mimọ, pe nigbati o ba yan a pizza pẹlu lainidii toppings, awọn olumulo maa ṣiṣẹ pẹlu nikan mefa ipilẹ tosaaju ti awọn eroja pẹlu kan tọkọtaya ti ID. Gegebi bi, pizzeria ṣatunṣe awọn rira. Ni afikun, o ni anfani lati dara julọ ṣeduro awọn ọja afikun ti a funni ni ipele aṣẹ si awọn olumulo, eyiti o pọ si awọn ere.

Apẹẹrẹ diẹ sii: onínọmbà ọjà gba H&M laaye lati dinku akojọpọ oriṣiriṣi ni awọn ile itaja kọọkan nipasẹ 40%, lakoko ti o ṣetọju ipele ti tita. Eyi ni aṣeyọri nipasẹ yiyọkuro awọn ipo tita ti ko dara, ati pe a gba akoko akoko sinu awọn iṣiro naa.

Aṣayan irinṣẹ

Idiwọn ile-iṣẹ fun iru iširo yii jẹ Hadoop. Kí nìdí? Nitori Hadoop jẹ ẹya ti o tayọ, ilana ti o ni akọsilẹ daradara (Habr kanna n funni ni ọpọlọpọ awọn nkan alaye lori koko yii), eyiti o wa pẹlu gbogbo awọn ohun elo ati awọn ile-ikawe. O le fi awọn eto nla ti awọn mejeeji ti eleto ati data ti a ko ṣeto silẹ bi titẹ sii, ati pe eto funrararẹ yoo pin kaakiri laarin agbara iširo. Pẹlupẹlu, awọn agbara kanna le pọ si tabi alaabo nigbakugba - iwọn iwọn petele kanna ni iṣe.

Ni 2017, ile-iṣẹ ijumọsọrọ ti o ni ipa Gartner pariti Hadoop yoo laipe di atijo. Idi naa jẹ kuku banal: awọn atunnkanka gbagbọ pe awọn ile-iṣẹ yoo lọ lọpọlọpọ si awọsanma, nitori nibẹ ni wọn yoo ni anfani lati sanwo da lori lilo agbara iširo. Ohun pataki keji ti o yẹ ki o lagbara lati “sinkú” Hadoop ni iyara iṣẹ. Nitoripe awọn aṣayan bii Apache Spark tabi Google Cloud DataFlow yiyara ju MapReduce Hadoop ti o wa labẹ.

Hadoop wa lori ọpọlọpọ awọn ọwọn, eyiti o ṣe akiyesi julọ eyiti o jẹ awọn imọ-ẹrọ MapReduce (eto kan fun pinpin data fun awọn iṣiro laarin awọn olupin) ati eto faili HDFS. Awọn igbehin ti a ṣe ni pataki lati tọju alaye ti o pin laarin awọn apa iṣupọ: bulọọki kọọkan ti iwọn ti o wa titi ni a le gbe sori awọn apa pupọ, ati ọpẹ si atunwi, eto naa jẹ sooro si awọn ikuna ti awọn apa kọọkan. Dipo tabili faili, olupin pataki kan ti a pe ni NameNode ti lo.

Apejuwe ni isalẹ fihan bi MapReduce ṣiṣẹ. Ni ipele akọkọ, data ti pin ni ibamu si awọn abuda kan, ni ipele keji o pin nipasẹ agbara iširo, ni ipele kẹta ti iṣiro naa waye.

Kini pataki nipa Cloudera ati bi o ṣe le ṣe
MapReduce jẹ ipilẹṣẹ nipasẹ Google fun awọn iwulo ti wiwa rẹ. Lẹhinna MapReduce lọ sinu koodu ọfẹ, Apache si gba iṣẹ naa. O dara, Google maa lọ si awọn ojutu miiran. Nuance ti o nifẹ: ni akoko yii, Google ni iṣẹ akanṣe kan ti a pe ni Google Cloud Dataflow, ti o wa ni ipo bi igbesẹ ti n tẹle lẹhin Hadoop, bi rirọpo iyara rẹ.

Wiwo isunmọ fihan pe Google Cloud Dataflow da lori iyatọ ti Apache Beam, lakoko ti Apache Beam pẹlu ilana Apache Spark ti o ni iwe-aṣẹ daradara, eyiti o gba wa laaye lati sọrọ nipa iyara iyara kanna ti ipaniyan ojutu. O dara, Apache Spark ṣiṣẹ daradara lori eto faili HDFS, eyiti o fun ọ laaye lati gbe lọ sori awọn olupin Hadoop.

Ṣafikun ibi ti iwọn iwe-ipamọ ati awọn solusan ti a ti ṣetan fun Hadoop ati Spark lodi si Google Cloud Dataflow, ati yiyan ọpa yoo han gbangba. Pẹlupẹlu, awọn onimọ-ẹrọ le pinnu fun ara wọn koodu wo - labẹ Hadoop tabi Spark - wọn yoo ṣiṣẹ, ni idojukọ iṣẹ-ṣiṣe, iriri ati awọn afijẹẹri.

Awọsanma tabi olupin agbegbe

Ilọsiwaju si ọna iyipada gbogbogbo si awọsanma paapaa ti funni ni iru ọrọ ti o nifẹ si bi Hadoop-as-a-iṣẹ. Ni iru oju iṣẹlẹ yii, iṣakoso ti awọn olupin ti a ti sopọ ti di pataki pupọ. Nitori, alas, laibikita olokiki rẹ, Hadoop mimọ jẹ ohun elo ti o nira pupọ lati tunto, nitori o ni lati ṣe pupọ nipasẹ ọwọ. Fun apẹẹrẹ, o le tunto awọn olupin ni ẹyọkan, ṣe atẹle iṣẹ wọn, ati tunse ọpọlọpọ awọn aye. Ni gbogbogbo, ṣiṣẹ fun magbowo kan ati pe aye nla wa lati dabaru ni ibikan tabi padanu nkankan.

Nitorinaa, awọn ipinpinpin oriṣiriṣi ti di olokiki pupọ, eyiti o ni ipese ni ibẹrẹ pẹlu imuṣiṣẹ irọrun ati awọn irinṣẹ iṣakoso. Ọkan ninu awọn pinpin olokiki diẹ sii ti o ṣe atilẹyin Spark ati jẹ ki awọn nkan rọrun ni Cloudera. O ni awọn ẹya isanwo ati awọn ẹya ọfẹ - ati ni igbehin, gbogbo iṣẹ ṣiṣe akọkọ wa, ati laisi opin nọmba awọn apa.

Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Lakoko iṣeto, Oluṣakoso Cloudera yoo sopọ nipasẹ SSH si awọn olupin rẹ. Ojuami ti o nifẹ: nigbati fifi sori ẹrọ, o dara lati pato pe o ṣee ṣe nipasẹ ohun ti a pe awọn idii: awọn idii pataki, ọkọọkan wọn ni gbogbo awọn paati pataki ti a tunto lati ṣiṣẹ pẹlu ara wọn. Ni otitọ, eyi jẹ ẹya ilọsiwaju ti oluṣakoso package.

Lẹhin fifi sori ẹrọ, a gba console iṣakoso iṣupọ kan, nibiti o ti le rii telemetry fun awọn iṣupọ, awọn iṣẹ ti a fi sii, pẹlu o le ṣafikun / yọ awọn orisun kuro ki o ṣatunkọ iṣeto iṣupọ.

Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Bi abajade, gige ti rocket yẹn han ni iwaju rẹ, eyiti yoo mu ọ lọ si ọjọ iwaju didan ti BigData. Ṣugbọn ki a to sọ "jẹ ki a lọ", jẹ ki a yara siwaju labẹ awọn Hood.

hardware ibeere

Lori oju opo wẹẹbu wọn, Cloudera n mẹnuba awọn atunto ti o ṣeeṣe ti o yatọ. Awọn ipilẹ gbogbogbo nipasẹ eyiti a ṣe agbekalẹ wọn ni a fihan ninu apejuwe:

Kini pataki nipa Cloudera ati bi o ṣe le ṣe
MapReduce le ṣe blur aworan ireti yii. Wiwo lẹẹkansi ni aworan atọka ni apakan ti tẹlẹ, o han gbangba pe ni gbogbo awọn ọran, iṣẹ MapReduce le kọlu igo kan nigbati kika data lati disk tabi nẹtiwọọki. Eyi tun ṣe akiyesi lori bulọọgi Cloudera. Bi abajade, fun eyikeyi awọn iṣiro iyara, pẹlu nipasẹ Spark, eyiti a lo nigbagbogbo fun awọn iṣiro akoko gidi, iyara I / O ṣe pataki pupọ. Nitorinaa, nigba lilo Hadoop, o ṣe pataki pupọ pe awọn ẹrọ iwọntunwọnsi ati awọn ẹrọ iyara wọ inu iṣupọ, eyiti, lati fi sii ni irẹlẹ, ko nigbagbogbo pese ni awọn amayederun awọsanma.

Iwontunwonsi ni pinpin fifuye jẹ aṣeyọri nipasẹ lilo ti Opentack ipa lori awọn olupin pẹlu awọn CPUs olona-mojuto to lagbara. Awọn apa data jẹ ipin awọn orisun ero isise tiwọn ati awọn disiki kan. Ninu ipinnu wa Atos Codex Data Lake Engine Aṣeyọri agbara jakejado, eyiti o jẹ idi ti a ṣẹgun mejeeji ni awọn ofin ti iṣẹ (ipa ti awọn amayederun nẹtiwọọki ti dinku) ati TCO (awọn olupin ti ara miiran ti yọkuro).

Kini pataki nipa Cloudera ati bi o ṣe le ṣe
Ninu ọran ti lilo awọn olupin BullSequana S200, a gba ẹru aṣọ kan pupọ, laisi diẹ ninu awọn igo. Iṣeto ti o kere julọ pẹlu awọn olupin BullSequana S3 200, ọkọọkan pẹlu awọn JBOD meji, pẹlu afikun S200s ti o ni awọn apa data mẹrin ti sopọ ni yiyan. Eyi ni apẹẹrẹ fifuye ninu idanwo TeraGen:

Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Awọn idanwo pẹlu awọn iwọn data oriṣiriṣi ati awọn iye isọdọtun ṣe afihan awọn abajade kanna ni awọn ofin ti pinpin ẹru kọja awọn apa iṣupọ. Ni isalẹ ni aworan kan ti pinpin wiwọle disk nipasẹ awọn idanwo iṣẹ.

Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Awọn iṣiro da lori iṣeto ti o kere ju ti awọn olupin 3 BullSequana S200. O pẹlu awọn apa data 9 ati awọn apa titunto si 3, bakanna bi awọn ẹrọ foju ti o wa ni ipamọ ni ọran ti imuṣiṣẹ ti aabo ti o da lori OpenStack Virtualization. Abajade idanwo TeraSort: Iwọn bulọọki 512 MB ti ifosiwewe isọdọtun ti mẹta pẹlu fifi ẹnọ kọ nkan jẹ iṣẹju 23,1.

Bawo ni eto naa ṣe le pọ si? Orisirisi awọn amugbooro wa fun Ẹrọ Adagun Data:

  • Awọn apa data: fun gbogbo 40 TB ti aaye lilo
  • Awọn apa atupale pẹlu agbara lati fi GPU kan sori ẹrọ
  • Awọn aṣayan miiran ti o da lori awọn iwulo iṣowo (fun apẹẹrẹ, ti o ba nilo Kafka ati bii)

Kini pataki nipa Cloudera ati bi o ṣe le ṣe

Atos Codex Data Lake Engine eka pẹlu mejeeji awọn olupin funrararẹ ati sọfitiwia ti a ti fi sii tẹlẹ, pẹlu ohun elo Cloudera pẹlu iwe-aṣẹ; Hadoop funrararẹ, OpenStack pẹlu awọn ẹrọ foju ti o da lori ekuro Linux Enterprise RedHat, ẹda data ati awọn ọna ṣiṣe afẹyinti (pẹlu lilo ipade afẹyinti ati Cloudera BDR - Afẹyinti ati Imularada Ajalu). Atos Codex Data Lake Engine jẹ ojuutu ipalọlọ akọkọ lati jẹ ifọwọsi awọsanma.

Ti o ba nifẹ si awọn alaye, a yoo dun lati dahun awọn ibeere wa ninu awọn asọye.

orisun: www.habr.com

Fi ọrọìwòye kun