Kas ir īpaŔs Cloudera un kā to pagatavot

Izkliedētās skaitļoÅ”anas un lielo datu tirgus, saskaņā ar statistika, pieaug par 18-19% gadā. Tas nozÄ«mē, ka jautājums par programmatÅ«ras izvēli Å”iem mērÄ·iem joprojām ir aktuāls. Å ajā rakstā mēs sāksim ar to, kāpēc ir nepiecieÅ”ama izkliedētā skaitļoÅ”ana, sÄ«kāk aplÅ«kosim programmatÅ«ras izvēli, runāsim par Hadoop izmantoÅ”anu, izmantojot Cloudera, un visbeidzot runāsim par aparatÅ«ras izvēli un to, kā tā dažādos veidos ietekmē veiktspēju.

Kas ir īpaŔs Cloudera un kā to pagatavot
Kāpēc parastajā biznesā ir nepiecieÅ”ama izkliedētā skaitļoÅ”ana? Å eit viss ir vienkārÅ”s un vienlaikus sarežģīts. VienkārÅ”i - jo vairumā gadÄ«jumu mēs veicam salÄ«dzinoÅ”i vienkārÅ”us aprēķinus uz informācijas vienÄ«bu. Tas ir grÅ«ti, jo Ŕādas informācijas ir daudz. Tik daudz. Tā rezultātā tas ir nepiecieÅ”ams apstrādāt terabaitus datu 1000 pavedienos. Tādējādi lietoÅ”anas gadÄ«jumi ir diezgan universāli: aprēķinus var izmantot visur, kur nepiecieÅ”ams ņemt vērā lielu skaitu metrikas vēl lielākā datu masÄ«vā.

Viens no jaunākajiem piemēriem: picēriju tÄ«kls Dodo Pizza definēts pamatojoties uz klientu pasÅ«tÄ«jumu datu bāzes analÄ«zi, ka, izvēloties picu ar nejauÅ”u piedevu, lietotāji parasti strādā tikai ar seÅ”iem pamata sastāvdaļu komplektiem un pāris nejauŔām sastāvdaļām. AtbilstoÅ”i tam picērija koriģēja savus iepirkumus. Turklāt viņa varēja labāk ieteikt papildu produktus, kas tika piedāvāti lietotājiem pasÅ«tÄ«Å”anas posmā, kas palielināja peļņu.

Vēl viens piemērs: analÄ«zi preču preces ļāva H&M veikalam samazināt sortimentu atseviŔķos veikalos par 40%, vienlaikus saglabājot pārdoÅ”anas apjomus. Tas panākts, izslēdzot slikti pārdotās preces, un aprēķinos ņemta vērā sezonalitāte.

Instrumenta izvēle

Šāda veida skaitļoÅ”anas nozares standarts ir Hadoop. Kāpēc? Tā kā Hadoop ir lielisks, labi dokumentēts ietvars (tas pats Habr sniedz daudz detalizētu rakstu par Å”o tēmu), kam ir pievienots vesels utilÄ«tu un bibliotēku komplekts. Varat ievadÄ«t milzÄ«gas gan strukturētu, gan nestrukturētu datu kopas, un pati sistēma tos sadalÄ«s starp skaitļoÅ”anas jaudu. Turklāt Ŕīs paÅ”as jaudas var palielināt vai atspējot jebkurā laikā ā€” tā pati horizontālā mērogojamÄ«ba darbÄ«bā.

2017. gadā ietekmÄ«gais konsultāciju uzņēmums Gartner secinājaka Hadoop drÄ«z novecos. Iemesls ir diezgan banāls: analÄ«tiÄ·i uzskata, ka uzņēmumi masveidā migrēs uz mākoni, jo tur viņi varēs maksāt, izmantojot skaitļoÅ”anas jaudu. Otrs svarÄ«gais faktors, kas it kā var ā€œapglabātā€ Hadoop, ir tā ātrums. Tā kā tādas iespējas kā Apache Spark vai Google Cloud DataFlow ir ātrākas nekā MapReduce, kas ir Hadoop pamatā.

Hadoop balstās uz vairākiem pÄ«lāriem, no kuriem visievērojamākie ir MapReduce tehnoloÄ£ijas (sistēma datu izplatÄ«Å”anai aprēķiniem starp serveriem) un HDFS failu sistēma. Pēdējais ir Ä«paÅ”i izstrādāts informācijas glabāŔanai, kas sadalÄ«ta starp klastera mezgliem: katru fiksēta izmēra bloku var novietot uz vairākiem mezgliem, un, pateicoties replikācijai, sistēma ir izturÄ«ga pret atseviŔķu mezglu kļūmēm. Failu tabulas vietā tiek izmantots Ä«paÅ”s serveris ar nosaukumu NameNode.

Tālāk redzamajā ilustrācijā parādÄ«ts, kā MapReduce darbojas. Pirmajā posmā dati tiek sadalÄ«ti pēc noteikta kritērija, otrajā posmā tie tiek sadalÄ«ti pēc skaitļoÅ”anas jaudas, un treÅ”ajā posmā notiek aprēķins.

Kas ir īpaŔs Cloudera un kā to pagatavot
MapReduce sākotnēji izveidoja Google savām meklÄ“Å”anas vajadzÄ«bām. Tad MapReduce ieguva bezmaksas kodu, un Apache pārņēma projektu. Google pakāpeniski pārgāja uz citiem risinājumiem. Interesants sÄ«kums: Google paÅ”laik ir projekts ar nosaukumu Google Cloud Dataflow, kas tiek pozicionēts kā nākamais solis pēc Hadoop, kā ātrs tā aizstājējs.

Paskatoties tuvāk, redzams, ka Google Cloud Dataflow pamatā ir Apache Beam variācija, savukārt Apache Beam ietver labi dokumentētu Apache Spark ietvaru, kas ļauj runāt par gandrīz vienādu risinājumu izpildes ātrumu. Apache Spark lieliski darbojas HDFS failu sistēmā, kas ļauj to izvietot Hadoop serveros.

Pievienojiet Å”eit dokumentācijas apjomu un gatavus risinājumus Hadoop un Spark salÄ«dzinājumā ar Google Cloud Dataflow, un rÄ«ka izvēle kļūs acÄ«mredzama. Turklāt inženieri paÅ”i var izlemt, kurÅ” kods ā€” Hadoop vai Spark ā€” viņiem jādarbojas, koncentrējoties uz uzdevumu, pieredzi un kvalifikāciju.

Mākonis vai vietējais serveris

Tendence uz vispārēju pāreju uz mākoni ir pat radÄ«jusi tik interesantu terminu kā Hadoop-as-a-service. Šādā scenārijā pievienoto serveru administrÄ“Å”ana kļuva ļoti svarÄ«ga. Diemžēl, neskatoties uz savu popularitāti, tÄ«rais Hadoop ir diezgan grÅ«ti konfigurējams rÄ«ks, jo daudz kas ir jādara manuāli. Piemēram, konfigurējiet serverus atseviŔķi, uzraugiet to veiktspēju un rÅ«pÄ«gi konfigurējiet daudzus parametrus. Vispār darbs ir amatierim un ir liela iespēja kaut kur saputroties vai kaut ko nokavēt.

Tāpēc ļoti populāri ir kļuvuÅ”i dažādi izplatÄ«Å”anas komplekti, kas sākotnēji ir aprÄ«koti ar ērtiem izvietoÅ”anas un administrÄ“Å”anas rÄ«kiem. Viens no populārākajiem izplatÄ«jumiem, kas atbalsta Spark un padara visu vienkārÅ”u, ir Cloudera. Tam ir gan maksas, gan bezmaksas versijas - un pēdējā ir pieejama visa pamata funkcionalitāte, neierobežojot mezglu skaitu.

Kas ir īpaŔs Cloudera un kā to pagatavot

IestatÄ«Å”anas laikā Cloudera Manager izveidos savienojumu ar jÅ«su serveriem, izmantojot SSH. Interesants punkts: instalējot, labāk norādÄ«t, ka to veic tā sauktais parseļi: Ä«paÅ”as pakotnes, no kurām katra satur visus nepiecieÅ”amos komponentus, kas konfigurēti darbam viens ar otru. BÅ«tÄ«bā Ŕī ir uzlabota pakotņu pārvaldnieka versija.

Pēc instalÄ“Å”anas saņemam klasteru pārvaldÄ«bas konsoli, kurā var redzēt klasteru telemetriju, instalētos pakalpojumus, kā arÄ« pievienot/noņemt resursus un rediģēt klastera konfigurāciju.

Kas ir īpaŔs Cloudera un kā to pagatavot

Rezultātā jÅ«su priekŔā parādās raÄ·etes kabÄ«ne, kas jÅ«s ievedÄ«s BigData gaiÅ”ajā nākotnē. Bet, pirms sakām ā€œejamā€, pacelsimies zem pārsega.

Aparatūras prasības

Cloudera savā vietnē min dažādas iespējamās konfigurācijas. Vispārējie principi, pēc kuriem tie tiek veidoti, ir parādīti attēlā:

Kas ir īpaŔs Cloudera un kā to pagatavot
MapReduce var aizmiglot Å”o optimistisko attēlu. Ja vēlreiz aplÅ«kojat diagrammu no iepriekŔējās sadaļas, kļūst skaidrs, ka gandrÄ«z visos gadÄ«jumos MapReduce darbs var saskarties ar vājo vietu, lasot datus no diska vai tÄ«kla. Tas atzÄ«mēts arÄ« Cloudera emuārā. Rezultātā jebkuriem ātriem aprēķiniem, tostarp izmantojot Spark, ko bieži izmanto reāllaika aprēķiniem, I/O ātrums ir ļoti svarÄ«gs. Tāpēc, lietojot Hadoop, ir ļoti svarÄ«gi, lai klasterÄ« bÅ«tu sabalansētas un ātras maŔīnas, kas, maigi izsakoties, ne vienmēr tiek nodroÅ”ināts mākoņu infrastruktÅ«rā.

LÄ«dzsvars slodzes sadalÄ«jumā tiek panākts, izmantojot Openstack virtualizāciju serveros ar jaudÄ«giem daudzkodolu CPU. Datu mezgliem tiek pieŔķirti savi procesora resursi un konkrēti diski. MÅ«su lēmumā Atos Codex Data Lake Engine Tiek panākta plaÅ”a virtualizācija, tāpēc mēs gÅ«stam labumu gan veiktspējā (tÄ«kla infrastruktÅ«ras ietekme tiek samazināta lÄ«dz minimumam), gan TCO (tiek likvidēti papildu fiziskie serveri).

Kas ir īpaŔs Cloudera un kā to pagatavot
Lietojot BullSequana S200 serverus, mēs iegūstam ļoti vienmērīgu slodzi, kurā nav zināmu vājo vietu. Minimālajā konfigurācijā ir iekļauti 3 BullSequana S200 serveri, katrs ar diviem JBOD, kā arī papildu S200 ar četriem datu mezgliem ir pēc izvēles pievienoti. Šeit ir slodzes piemērs TeraGen testā:

Kas ir īpaŔs Cloudera un kā to pagatavot

Testi ar dažādiem datu apjomiem un replikācijas vērtībām parāda vienādus rezultātus attiecībā uz slodzes sadalījumu starp klastera mezgliem. Zemāk ir grafiks par diska piekļuves sadalījumu pēc veiktspējas pārbaudēm.

Kas ir īpaŔs Cloudera un kā to pagatavot

Aprēķini tika veikti, pamatojoties uz minimālo 3 BullSequana S200 serveru konfigurāciju. Tas ietver 9 datu mezglus un 3 galvenos mezglus, kā arÄ« rezervētas virtuālās maŔīnas aizsardzÄ«bas izvietoÅ”anas gadÄ«jumā, pamatojoties uz OpenStack virtualizāciju. TeraSort testa rezultāts: bloka lielums 512 MB replikācijas koeficients, kas vienāds ar trÄ«s ar Å”ifrÄ“Å”anu, ir 23,1 minÅ«te.

Kā sistēmu var paplaÅ”ināt? Programmai Data Lake Engine ir pieejami dažādi paplaÅ”inājumu veidi:

  • Datu mezgli: par katriem 40 TB izmantojamās vietas
  • AnalÄ«tiskie mezgli ar iespēju instalēt GPU
  • Citas iespējas atkarÄ«bā no biznesa vajadzÄ«bām (piemēram, ja jums nepiecieÅ”ama Kafka un tamlÄ«dzÄ«gi)

Kas ir īpaŔs Cloudera un kā to pagatavot

Atos Codex Data Lake Engine ietver gan paÅ”us serverus, gan iepriekÅ” instalētu programmatÅ«ru, tostarp licencētu Cloudera komplektu; Pats Hadoop, OpenStack ar virtuālajām maŔīnām, kuru pamatā ir RedHat Enterprise Linux kodols, datu replikācijas un dublÄ“Å”anas sistēmas (tostarp izmantojot rezerves mezglu un Cloudera BDR ā€” dublÄ“Å”anu un avāriju atkopÅ”anu). Atos Codex Data Lake Engine kļuva par pirmo virtualizācijas risinājumu, kas tika sertificēts Kloudera.

Ja jūs interesē sīkāka informācija, mēs ar prieku atbildēsim uz mūsu jautājumiem komentāros.

Avots: www.habr.com

Pievieno komentāru