Jebkura liela datu darbÄ«ba prasa lielu skaitļoÅ”anas jaudu. Tipiska datu pÄrvietoÅ”ana no datu bÄzes uz Hadoop var ilgt nedÄļas vai maksÄt tikpat daudz kÄ lidmaŔīnas spÄrns. Vai nevÄlaties gaidÄ«t un tÄrÄt naudu? LÄ«dzsvarojiet slodzi dažÄdÄs platformÄs. Viens no veidiem ir nospiežamÄ optimizÄcija.
Es jautÄju Krievijas vadoÅ”ajam Informatica produktu izstrÄdes un administrÄÅ”anas trenerim Aleksejam AnaÅjevam pastÄstÄ«t par nospiežamo optimizÄcijas funkciju Informatica Big Data Management (BDM). Vai esat kÄdreiz iemÄcÄ«jies strÄdÄt ar Informatica produktiem? VisticamÄk, Aleksejs jums pastÄstÄ«ja PowerCenter pamatus un paskaidroja, kÄ izveidot kartÄjumus.
Aleksejs AnaÅjevs, DIS Group apmÄcÄ«bu vadÄ«tÄjs
Kas ir pushdown?
Daudzi no jums jau ir iepazinuÅ”ies ar Informatica Big Data Management (BDM). Produkts var integrÄt lielus datus no dažÄdiem avotiem, pÄrvietot tos starp dažÄdÄm sistÄmÄm, nodroÅ”ina Ärtu piekļuvi tiem, ļauj tos profilÄt un daudz ko citu.
LabÄs rokÄs BDM var radÄ«t brÄ«numus: uzdevumi tiks izpildÄ«ti Ätri un ar minimÄliem skaitļoÅ”anas resursiem.
Vai jÅ«s arÄ« to vÄlaties? Uzziniet, kÄ izmantot nospiežamo funkciju BDM, lai sadalÄ«tu skaitļoÅ”anas slodzi dažÄdÄs platformÄs. Pushdown tehnoloÄ£ija ļauj pÄrvÄrst kartÄÅ”anu skriptÄ un atlasÄ«t vidi, kurÄ Å”is skripts darbosies. Å Ä« izvÄle ļauj apvienot dažÄdu platformu stiprÄs puses un sasniegt to maksimÄlo veiktspÄju.
Lai konfigurÄtu skripta izpildes vidi, ir jÄizvÄlas nospiežamÄs lejupielÄdes veids. Skriptu var pilnÄ«bÄ palaist Hadoop vai daļÄji izplatÄ«t starp avotu un izlietni. Ir 4 iespÄjamie pushdown veidi. KartÄÅ”ana nav jÄpÄrvÄrÅ” par skriptu (vietÄjo). KartÄÅ”anu var veikt pÄc iespÄjas vairÄk avotÄ (avotÄ) vai pilnÄ«bÄ avotÄ (pilnÄ). KartÄÅ”anu var pÄrvÄrst arÄ« par Hadoop skriptu (nav).
Pushdown optimizÄcija
NorÄdÄ«tos 4 veidus var kombinÄt dažÄdos veidos ā pushdown var optimizÄt konkrÄtÄm sistÄmas vajadzÄ«bÄm. PiemÄram, bieži vien ir pareizÄk iegÅ«t datus no datu bÄzes, izmantojot tÄs iespÄjas. Un dati tiks pÄrveidoti, izmantojot Hadoop, lai nepÄrslogotu paÅ”u datu bÄzi.
ApskatÄ«sim gadÄ«jumu, kad datu bÄzÄ atrodas gan avots, gan galamÄrÄ·is, un var izvÄlÄties transformÄcijas izpildes platformu: atkarÄ«bÄ no iestatÄ«jumiem tÄ bÅ«s Informatica, datu bÄzes serveris vai Hadoop. Å Äds piemÄrs ļaus visprecÄ«zÄk izprast Ŕī mehÄnisma darbÄ«bas tehnisko pusi. Dabiski, ka reÄlajÄ dzÄ«vÄ Å”Äda situÄcija nerodas, taÄu tÄ ir vislabÄk piemÄrota funkcionalitÄtes demonstrÄÅ”anai.
Å emsim kartÄÅ”anu, lai nolasÄ«tu divas tabulas vienÄ Oracle datu bÄzÄ. Un lai lasÄ«Å”anas rezultÄti tiek ierakstÄ«ti tabulÄ tajÄ paÅ”Ä datubÄzÄ. KartÄÅ”anas shÄma bÅ«s Å”Äda:
Informatica BDM 10.2.1 kartÄÅ”anas veidÄ tas izskatÄs Å”Ädi:
Pushdown veids ā vietÄjais
Ja izvÄlamies nospiežamo native veidu, kartÄÅ”ana tiks veikta Informatica serverÄ«. Dati tiks nolasÄ«ti no Oracle servera, pÄrsÅ«tÄ«ti uz Informatica serveri, pÄrveidoti tur un pÄrsÅ«tÄ«ti uz Hadoop. Citiem vÄrdiem sakot, mÄs iegÅ«sim normÄlu ETL procesu.
Pushdown veids ā avots
IzvÄloties avota veidu, mÄs iegÅ«stam iespÄju izplatÄ«t mÅ«su procesu starp datu bÄzes serveri (DB) un Hadoop. Kad process tiek izpildÄ«ts ar Å”o iestatÄ«jumu, datu bÄzei tiks nosÅ«tÄ«ti pieprasÄ«jumi izgÅ«t datus no tabulÄm. Un pÄrÄjais tiks veikts Hadoop darbÄ«bu veidÄ.
Izpildes diagramma izskatÄ«sies Å”Ädi:
TÄlÄk ir sniegts izpildlaika vides iestatÄ«Å”anas piemÄrs.
Å ajÄ gadÄ«jumÄ kartÄÅ”ana tiks veikta divos posmos. TÄ iestatÄ«jumos mÄs redzÄsim, ka tas ir pÄrvÄrties par skriptu, kas tiks nosÅ«tÄ«ts avotam. TurklÄt tabulu apvienoÅ”ana un datu pÄrveidoÅ”ana tiks veikta avota ignorÄta vaicÄjuma veidÄ.
TÄlÄk esoÅ”ajÄ attÄlÄ redzama optimizÄta kartÄÅ”ana BDM un atkÄrtoti definÄts avota vaicÄjums.
Hadoop loma Å”ajÄ konfigurÄcijÄ tiks samazinÄta lÄ«dz datu plÅ«smas pÄrvaldÄ«bai - tÄs organizÄÅ”anai. VaicÄjuma rezultÄts tiks nosÅ«tÄ«ts uz Hadoop. Kad nolasÄ«Å”ana ir pabeigta, fails no Hadoop tiks ierakstÄ«ts izlietnÄ.
Pushdown veids ā pilns
Atlasot pilnu veidu, kartÄÅ”ana pilnÄ«bÄ pÄrvÄrtÄ«sies par datu bÄzes vaicÄjumu. Un pieprasÄ«juma rezultÄts tiks nosÅ«tÄ«ts Hadoop. Å Äda procesa diagramma ir parÄdÄ«ta zemÄk.
TÄlÄk ir parÄdÄ«ts iestatÄ«Å”anas piemÄrs.
RezultÄtÄ mÄs iegÅ«sim optimizÄtu kartÄÅ”anu, kas ir lÄ«dzÄ«ga iepriekÅ”Äjai. VienÄ«gÄ atŔķirÄ«ba ir tÄ, ka visa loÄ£ika tiek pÄrsÅ«tÄ«ta uz uztvÄrÄju, ignorÄjot tÄs ievietoÅ”anu. TÄlÄk ir parÄdÄ«ts optimizÄtas kartÄÅ”anas piemÄrs.
Å eit, tÄpat kÄ iepriekÅ”ÄjÄ gadÄ«jumÄ, Hadoop spÄlÄ diriÄ£enta lomu. Bet Å”eit avots tiek izlasÄ«ts pilnÄ«bÄ, un tad datu apstrÄdes loÄ£ika tiek veikta uztvÄrÄja lÄ«menÄ«.
Pushdown veids ir nulle
PÄdÄjÄ iespÄja ir nospieÅ”anas veids, kurÄ mÅ«su kartÄÅ”ana pÄrvÄrtÄ«sies par Hadoop skriptu.
OptimizÄtÄ kartÄÅ”ana tagad izskatÄ«sies Å”Ädi:
Å eit dati no avota failiem vispirms tiks nolasÄ«ti pakalpojumÄ Hadoop. PÄc tam, izmantojot viÅa paÅ”a lÄ«dzekļus, Å”ie divi faili tiks apvienoti. PÄc tam dati tiks konvertÄti un augÅ”upielÄdÄti datu bÄzÄ.
Izprotot nospiežamÄs optimizÄcijas principus, jÅ«s varat ļoti efektÄ«vi organizÄt daudzus procesus darbam ar lielajiem datiem. TÄdÄjÄdi pavisam nesen viens liels uzÅÄmums tikai dažu nedÄļu laikÄ no krÄtuves Hadoop lejupielÄdÄja lielus datus, kurus tas iepriekÅ” bija apkopojis vairÄkus gadus.
Avots: www.habr.com