Bazara ji bo komputera belavkirî û daneyên mezin, li gorî
Çima di karsaziya birêkûpêk de komputera belavkirî hewce ye? Li vir her tişt di heman demê de hêsan û tevlihev e. Hêsan - ji ber ku di pir rewşan de em li ser yekîneya agahdariyê hesabên hêsan pêk tînin. Zehmet e ji ber ku gelek agahdarî hene. Gelek. Wekî encamek, pêdivî ye
Yek ji mînakên vê dawiyê: zincîra pizzeriya Dodo Pizza
Mînakek din:
Hilbijartina amûrê
Pîşesaziya standard ji bo vê celebê hesabkirinê Hadoop e. Çima? Ji ber ku Hadoop çarçoveyek hêja, baş-belgekirî ye (eynî Habr li ser vê mijarê gelek gotarên hûrgulî peyda dike), ku bi tevahî karûbar û pirtûkxaneyan ve girêdayî ye. Hûn dikarin komek mezin a daneya birêkûpêk û nesazkirî têkevin, û pergal bixwe dê wê di nav hêza hesabkirinê de belav bike. Digel vê yekê, van heman kapasîteyên di her kêliyê de dikarin werin zêdekirin an neçalak kirin - di çalakiyê de heman pîvana horizontî.
Di sala 2017 de, pargîdaniya şêwirmendiya bandorker Gartner
Hadoop li ser gelek stûnan radiweste, ya herî berbiçav teknolojiyên MapReduce (pergalek ji bo belavkirina daneyan ji bo hesabên di navbera serveran de) û pergala pelê HDFS ne. Ya paşîn bi taybetî ji bo hilanîna agahdariya ku di navbera girêkên komê de hatî belav kirin hatî sêwirandin: her blokek bi pîvanek sabît dikare li ser çend girêkan were danîn, û bi spasiya dubarekirinê, pergal ji têkçûna girêkên kesane re berxwedêr e. Li şûna tabloya pelan, serverek taybetî ya bi navê NameNode tê bikar anîn.
Nîşana jêrîn nîşan dide ka MapReduce çawa dixebite. Di qonaxa yekem de, dane li gorî pîvanek diyarkirî têne dabeş kirin, di qonaxa duyemîn de li gorî hêza hesabkirinê têne dabeş kirin, û di qonaxa sêyemîn de hesab tê kirin.
MapReduce di destpêkê de ji hêla Google ve ji bo hewcedariyên lêgerîna xwe hate afirandin. Dûv re MapReduce kodek belaş çû, û Apache projeyê girt. Welê, Google hêdî hêdî koçî çareseriyên din kir. Tiştek balkêş: Google naha projeyek bi navê Google Cloud Dataflow heye, ku wekî gava paşîn piştî Hadoop-ê, wekî cîhgirek bilez ji bo wê cîh digire.
Nêrînek nêzîk nîşan dide ku Google Cloud Dataflow li ser bingeha guhertoyek Apache Beam-ê ye, dema ku Apache Beam çarçoveyek baş-belgekirî ya Apache Spark-ê vedihewîne, ku dihêle em hema hema li ser heman leza darvekirinê ya çareseriyan biaxivin. Welê, Apache Spark bi rengek bêkêmasî li ser pergala pelê HDFS-ê dixebite, ku dihêle ku ew li ser serverên Hadoop-ê were bicîh kirin.
Ji bo Hadoop û Spark beramberî Google Cloud Dataflow, hêjmara belge û çareseriyên amade li vir zêde bikin, û bijartina amûrê diyar dibe. Wekî din, endezyar dikarin bi xwe biryar bidin ka kîjan kod - ji bo Hadoop an Spark - divê ew bimeşînin, li ser peywir, ezmûn û jêhatîbûnê bisekinin.
Cloud an server herêmî
Meyla ber bi veguheztina gelemperî ber bi ewr ve tewra têgehek balkêş a wekî Hadoop-as-a-xizmetê jî derxistiye holê. Di senaryoyek weha de, rêveberiya serverên girêdayî pir girîng bû. Ji ber ku, mixabin, tevî populerbûna wê, Hadoop-a safî ji bo mîhengkirinê amûrek pir dijwar e, ji ber ku divê pir tişt bi destan were kirin. Mînakî, pêşkêşkeran bi ferdî mîheng bikin, performansa wan bişopînin, û bi baldarî gelek parametreyan mîheng bikin. Bi gelemperî, kar ji bo amatorek e û şansek mezin heye ku meriv li cîhek tevlihev bike an tiştek winda bike.
Ji ber vê yekê, kîtên belavkirinê yên cihêreng, yên ku di destpêkê de bi amûrên birêkûpêk û rêveberiyê rehet têne saz kirin, pir populer bûne. Yek ji belavokên herî populer ên ku Spark piştgirî dike û her tiştî hêsan dike Cloudera ye. Ew hem guhertoyên drav û hem jî belaş hene - û di ya paşîn de hemî fonksiyonên bingehîn peyda dibin, bêyî ku hejmara girêkan sînordar bikin.
Di dema sazkirinê de, Rêvebirê Cloudera dê bi navgîniya SSH ve bi serverên we ve girêbide. Xalek balkêş: dema sazkirinê, çêtir e ku meriv diyar bike ku ew ji hêla tê gotin ve were kirin parsels: pakêtên taybetî, ku her yek ji wan hemî hêmanên pêwîst hene ku ji bo ku bi hev re bixebitin hatine mîheng kirin. Di bingeh de ev guhertoyek çêtir a rêveberê pakêtê ye.
Piştî sazkirinê, em konsolek rêveberiya komê distînin, li wir hûn dikarin telemetrîya komê, karûbarên sazkirî bibînin, her weha hûn dikarin çavkaniyan lê zêde bikin/rakin û veavakirina komê biguherînin.
Wekî encamek, kabîneya rokêtê ya ku dê we bibe paşeroja geş a BigData li pêş we xuya dike. Lê berî ku em bibêjin "em herin", em di bin kavilê de bimeşin.
pêdiviyên Hardware
Li ser malpera xwe, Cloudera behsa mîhengên cûda yên gengaz dike. Prensîbên gelemperî yên ku ew bi wan têne çêkirin di nîgarê de têne destnîşan kirin:
MapReduce dikare vê wêneya xweşbîn xira bike. Ger hûn dîsa li şemaya beşa berê binihêrin, diyar dibe ku hema hema di hemî rewşan de, karek MapReduce dikare dema ku daneya ji dîskê an ji torê dixwîne bi tengasiyekê re rû bi rû bimîne. Ev di bloga Cloudera de jî tê destnîşan kirin. Wekî encamek, ji bo her hesabên bilez, tevî Spark, ku pir caran ji bo hesabên rast-dem tê bikar anîn, leza I/O pir girîng e. Ji ber vê yekê, dema ku Hadoop bikar tînin, pir girîng e ku komê makîneyên hevseng û bilez dihewîne, ku, bi nermî bêje, her gav di binesaziya ewr de nayê piştrast kirin.
Balansa di belavkirina barkirinê de bi karanîna virtualîzasyona Openstack-ê li ser pêşkêşkerên bi CPU-yên pir-bingehîn ên hêzdar tê bidestxistin. Nokên daneyê çavkaniyên xwe yên pêvajo û dîskên taybetî têne veqetandin. Di biryara me de Atos Codex Data Lake Engine Virtualîzasyona berfireh tê bidestxistin, ji ber vê yekê em hem di warê performansê de sûd werdigirin (bandora binesaziya torê kêm dibe) hem jî di TCO de (pêşkêşkerên laşî yên zêde têne rakirin).
Dema ku serverên BullSequana S200 bikar tînin, em barek pir yekgirtî distînin, ji hin tengasiyan bêpar. Veavakirina hindiktirîn 3 pêşkêşkerên BullSequana S200, her yek bi du JBOD-an, plus S200-ên din ên ku çar girêkên daneyê hene vebijarkî ve girêdayî ne. Li vir mînakek barkirina di ceribandina TeraGen de ye:
Testên bi cildên daneya cihêreng û nirxên dubarekirinê di warê belavkirina barkirinê de di navbera girêkên komê de heman encaman destnîşan dikin. Li jêr grafiyek belavkirina gihîştina dîskê ji hêla ceribandinên performansê ve heye.
Hesab li ser bingeha mîhengek herî kêm a 3 pêşkêşkerên BullSequana S200 hatine kirin. Ew 9 girêkên daneyê û 3 girêkên sereke, û hem jî makîneyên virtual parastî yên di doza bicîhkirina parastinê de li ser bingeha Virtualîzasyona OpenStack vedihewîne. Encama testa TeraSort: Mezinahiya blokê 512 MB faktora dubarekirinê ya ku bi şîfrekirinê re wekhev e 23,1 hûrdem e.
Pergal çawa dikare berfireh bibe? Ji bo Data Lake Engine cûreyên cûda yên dirêjkirinê hene:
- Nodên daneyê: ji bo her 40 TB cîhê bikêrhatî
- Nodên analîtîk ên bi şiyana sazkirina GPU
- Vebijarkên din ên ku li gorî hewcedariyên karsaziyê ve girêdayî ne (mînak, heke hûn hewceyê Kafka û yên mîna wan in)
Atos Codex Data Lake Engine hem pêşkêşkerên xwe û hem jî nermalava pêş-sazkirî, di nav de kîtek Cloudera ya lîsanskirî jî vedihewîne; Hadoop bi xwe, OpenStack bi makîneyên virtual re ku li ser bingeha kernel RedHat Enterprise Linux-ê, dubarekirina daneyan û pergalên hilanînê (tevî karanîna girêkek hilanînê û Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine bû yekem çareseriya virtualbûnê ya ku hate pejirandin
Heke hûn bi hûrguliyan re eleqedar dibin, em ê kêfxweş bibin ku di şîroveyan de bersiva pirsên me bidin.
Source: www.habr.com