Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Bazara ji bo komputera belavkirî û daneyên mezin, li gorî îstatîstîk, her sal ji %18-19 mezin dibe. Ev tê vê wateyê ku mijara hilbijartina nermalavê ji bo van armancan têkildar dimîne. Di vê postê de, em ê dest pê bikin ka çima pêdivî ye ku hesabkirina belavkirî hewce bike, di derbarê hilbijartina nermalavê de bêtir hûrgulî biçin, li ser karanîna Hadoop bi karanîna Cloudera biaxivin, û di dawiyê de li ser hilbijartina hardware û çawa ew bi awayên cihêreng bandorê li performansê dike biaxivin.

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike
Çima di karsaziya birêkûpêk de komputera belavkirî hewce ye? Li vir her tişt di heman demê de hêsan û tevlihev e. Hêsan - ji ber ku di pir rewşan de em li ser yekîneya agahdariyê hesabên hêsan pêk tînin. Zehmet e ji ber ku gelek agahdarî hene. Gelek. Wekî encamek, pêdivî ye di 1000 mijaran de terabytes daneyan pêvajoyê bikin. Ji ber vê yekê, dozên karanîna pir gerdûnî ne: hesab dikarin li her deverê ku hewce be ku hejmareke mezin ji metrîkan li ser komek daneya hê mezintir were hesibandin.

Yek ji mînakên vê dawiyê: zincîra pizzeriya Dodo Pizza diyar kirin li ser bingeha analîzek databasa danûstendina xerîdar, ku dema ku pizzayek bi çîpek rasthatî hilbijêrin, bikarhêner bi gelemperî tenê bi şeş komên bingehîn ên malzemeyan û çendekên random tevdigerin. Li gorî vê, pizzeryayê kirîna xwe sererast kir. Digel vê yekê, wê karibû hilberên din ên ku di qonaxa fermanê de ji bikarhêneran re hatine pêşkêş kirin çêtir pêşniyar bike, ku ev jî qezenc zêde kir.

Mînakek din: analîz Tiştên hilberê destûr da ku firotgeha H&M di heman demê de astên firotanê diparêze, berhevoka di firotgehên kesane de% 40 kêm bike. Ev yek bi derxistina tiştên ku kêm têne firotin hate bidestxistin û di hesaban de demsalî hate hesibandin.

Hilbijartina amûrê

Pîşesaziya standard ji bo vê celebê hesabkirinê Hadoop e. Çima? Ji ber ku Hadoop çarçoveyek hêja, baş-belgekirî ye (eynî Habr li ser vê mijarê gelek gotarên hûrgulî peyda dike), ku bi tevahî karûbar û pirtûkxaneyan ve girêdayî ye. Hûn dikarin komek mezin a daneya birêkûpêk û nesazkirî têkevin, û pergal bixwe dê wê di nav hêza hesabkirinê de belav bike. Digel vê yekê, van heman kapasîteyên di her kêliyê de dikarin werin zêdekirin an neçalak kirin - di çalakiyê de heman pîvana horizontî.

Di sala 2017 de, pargîdaniya şêwirmendiya bandorker Gartner encam daku Hadoop di demek nêzîk de dê kevin bibe. Sedem pir banal e: analîst bawer dikin ku pargîdan dê bi girseyî ber bi ewr ve koç bikin, ji ber ku li wir ew ê bikaribin drav bidin ji ber ku ew hêza hesabkirinê bikar tînin. Faktora duyemîn a girîng a ku tê texmîn kirin ku Hadoop "veşêre" leza wê ye. Ji ber ku vebijarkên mîna Apache Spark an Google Cloud DataFlow ji MapReduce, ku di binê Hadoop de ye, zûtir in.

Hadoop li ser gelek stûnan radiweste, ya herî berbiçav teknolojiyên MapReduce (pergalek ji bo belavkirina daneyan ji bo hesabên di navbera serveran de) û pergala pelê HDFS ne. Ya paşîn bi taybetî ji bo hilanîna agahdariya ku di navbera girêkên komê de hatî belav kirin hatî sêwirandin: her blokek bi pîvanek sabît dikare li ser çend girêkan were danîn, û bi spasiya dubarekirinê, pergal ji têkçûna girêkên kesane re berxwedêr e. Li şûna tabloya pelan, serverek taybetî ya bi navê NameNode tê bikar anîn.

Nîşana jêrîn nîşan dide ka MapReduce çawa dixebite. Di qonaxa yekem de, dane li gorî pîvanek diyarkirî têne dabeş kirin, di qonaxa duyemîn de li gorî hêza hesabkirinê têne dabeş kirin, û di qonaxa sêyemîn de hesab tê kirin.

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike
MapReduce di destpêkê de ji hêla Google ve ji bo hewcedariyên lêgerîna xwe hate afirandin. Dûv re MapReduce kodek belaş çû, û Apache projeyê girt. Welê, Google hêdî hêdî koçî çareseriyên din kir. Tiştek balkêş: Google naha projeyek bi navê Google Cloud Dataflow heye, ku wekî gava paşîn piştî Hadoop-ê, wekî cîhgirek bilez ji bo wê cîh digire.

Nêrînek nêzîk nîşan dide ku Google Cloud Dataflow li ser bingeha guhertoyek Apache Beam-ê ye, dema ku Apache Beam çarçoveyek baş-belgekirî ya Apache Spark-ê vedihewîne, ku dihêle em hema hema li ser heman leza darvekirinê ya çareseriyan biaxivin. Welê, Apache Spark bi rengek bêkêmasî li ser pergala pelê HDFS-ê dixebite, ku dihêle ku ew li ser serverên Hadoop-ê were bicîh kirin.

Ji bo Hadoop û Spark beramberî Google Cloud Dataflow, hêjmara belge û çareseriyên amade li vir zêde bikin, û bijartina amûrê diyar dibe. Wekî din, endezyar dikarin bi xwe biryar bidin ka kîjan kod - ji bo Hadoop an Spark - divê ew bimeşînin, li ser peywir, ezmûn û jêhatîbûnê bisekinin.

Cloud an server herêmî

Meyla ber bi veguheztina gelemperî ber bi ewr ve tewra têgehek balkêş a wekî Hadoop-as-a-xizmetê jî derxistiye holê. Di senaryoyek weha de, rêveberiya serverên girêdayî pir girîng bû. Ji ber ku, mixabin, tevî populerbûna wê, Hadoop-a safî ji bo mîhengkirinê amûrek pir dijwar e, ji ber ku divê pir tişt bi destan were kirin. Mînakî, pêşkêşkeran bi ferdî mîheng bikin, performansa wan bişopînin, û bi baldarî gelek parametreyan mîheng bikin. Bi gelemperî, kar ji bo amatorek e û şansek mezin heye ku meriv li cîhek tevlihev bike an tiştek winda bike.

Ji ber vê yekê, kîtên belavkirinê yên cihêreng, yên ku di destpêkê de bi amûrên birêkûpêk û rêveberiyê rehet têne saz kirin, pir populer bûne. Yek ji belavokên herî populer ên ku Spark piştgirî dike û her tiştî hêsan dike Cloudera ye. Ew hem guhertoyên drav û hem jî belaş hene - û di ya paşîn de hemî fonksiyonên bingehîn peyda dibin, bêyî ku hejmara girêkan sînordar bikin.

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Di dema sazkirinê de, Rêvebirê Cloudera dê bi navgîniya SSH ve bi serverên we ve girêbide. Xalek balkêş: dema sazkirinê, çêtir e ku meriv diyar bike ku ew ji hêla tê gotin ve were kirin parsels: pakêtên taybetî, ku her yek ji wan hemî hêmanên pêwîst hene ku ji bo ku bi hev re bixebitin hatine mîheng kirin. Di bingeh de ev guhertoyek çêtir a rêveberê pakêtê ye.

Piştî sazkirinê, em konsolek rêveberiya komê distînin, li wir hûn dikarin telemetrîya komê, karûbarên sazkirî bibînin, her weha hûn dikarin çavkaniyan lê zêde bikin/rakin û veavakirina komê biguherînin.

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Wekî encamek, kabîneya rokêtê ya ku dê we bibe paşeroja geş a BigData li pêş we xuya dike. Lê berî ku em bibêjin "em herin", em di bin kavilê de bimeşin.

pêdiviyên Hardware

Li ser malpera xwe, Cloudera behsa mîhengên cûda yên gengaz dike. Prensîbên gelemperî yên ku ew bi wan têne çêkirin di nîgarê de têne destnîşan kirin:

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike
MapReduce dikare vê wêneya xweşbîn xira bike. Ger hûn dîsa li şemaya beşa berê binihêrin, diyar dibe ku hema hema di hemî rewşan de, karek MapReduce dikare dema ku daneya ji dîskê an ji torê dixwîne bi tengasiyekê re rû bi rû bimîne. Ev di bloga Cloudera de jî tê destnîşan kirin. Wekî encamek, ji bo her hesabên bilez, tevî Spark, ku pir caran ji bo hesabên rast-dem tê bikar anîn, leza I/O pir girîng e. Ji ber vê yekê, dema ku Hadoop bikar tînin, pir girîng e ku komê makîneyên hevseng û bilez dihewîne, ku, bi nermî bêje, her gav di binesaziya ewr de nayê piştrast kirin.

Balansa di belavkirina barkirinê de bi karanîna virtualîzasyona Openstack-ê li ser pêşkêşkerên bi CPU-yên pir-bingehîn ên hêzdar tê bidestxistin. Nokên daneyê çavkaniyên xwe yên pêvajo û dîskên taybetî têne veqetandin. Di biryara me de Atos Codex Data Lake Engine Virtualîzasyona berfireh tê bidestxistin, ji ber vê yekê em hem di warê performansê de sûd werdigirin (bandora binesaziya torê kêm dibe) hem jî di TCO de (pêşkêşkerên laşî yên zêde têne rakirin).

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike
Dema ku serverên BullSequana S200 bikar tînin, em barek pir yekgirtî distînin, ji hin tengasiyan bêpar. Veavakirina hindiktirîn 3 pêşkêşkerên BullSequana S200, her yek bi du JBOD-an, plus S200-ên din ên ku çar girêkên daneyê hene vebijarkî ve girêdayî ne. Li vir mînakek barkirina di ceribandina TeraGen de ye:

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Testên bi cildên daneya cihêreng û nirxên dubarekirinê di warê belavkirina barkirinê de di navbera girêkên komê de heman encaman destnîşan dikin. Li jêr grafiyek belavkirina gihîştina dîskê ji hêla ceribandinên performansê ve heye.

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Hesab li ser bingeha mîhengek herî kêm a 3 pêşkêşkerên BullSequana S200 hatine kirin. Ew 9 girêkên daneyê û 3 girêkên sereke, û hem jî makîneyên virtual parastî yên di doza bicîhkirina parastinê de li ser bingeha Virtualîzasyona OpenStack vedihewîne. Encama testa TeraSort: Mezinahiya blokê 512 MB faktora dubarekirinê ya ku bi şîfrekirinê re wekhev e 23,1 hûrdem e.

Pergal çawa dikare berfireh bibe? Ji bo Data Lake Engine cûreyên cûda yên dirêjkirinê hene:

  • Nodên daneyê: ji bo her 40 TB cîhê bikêrhatî
  • Nodên analîtîk ên bi şiyana sazkirina GPU
  • Vebijarkên din ên ku li gorî hewcedariyên karsaziyê ve girêdayî ne (mînak, heke hûn hewceyê Kafka û yên mîna wan in)

Di derbarê Cloudera de çi taybetî ye û meriv wê çawa çêdike

Atos Codex Data Lake Engine hem pêşkêşkerên xwe û hem jî nermalava pêş-sazkirî, di nav de kîtek Cloudera ya lîsanskirî jî vedihewîne; Hadoop bi xwe, OpenStack bi makîneyên virtual re ku li ser bingeha kernel RedHat Enterprise Linux-ê, dubarekirina daneyan û pergalên hilanînê (tevî karanîna girêkek hilanînê û Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine bû yekem çareseriya virtualbûnê ya ku hate pejirandin Cloudera.

Heke hûn bi hûrguliyan re eleqedar dibin, em ê kêfxweş bibin ku di şîroveyan de bersiva pirsên me bidin.

Source: www.habr.com

Add a comment