Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Jebkura liela datu darbÄ«ba prasa lielu skaitļoÅ”anas jaudu. Tipiska datu pārvietoÅ”ana no datu bāzes uz Hadoop var ilgt nedēļas vai maksāt tikpat daudz kā lidmaŔīnas spārns. Vai nevēlaties gaidÄ«t un tērēt naudu? LÄ«dzsvarojiet slodzi dažādās platformās. Viens no veidiem ir nospiežamā optimizācija.

Es jautāju Krievijas vadoÅ”ajam Informatica produktu izstrādes un administrÄ“Å”anas trenerim Aleksejam Anaņjevam pastāstÄ«t par nospiežamo optimizācijas funkciju Informatica Big Data Management (BDM). Vai esat kādreiz iemācÄ«jies strādāt ar Informatica produktiem? Visticamāk, Aleksejs jums pastāstÄ«ja PowerCenter pamatus un paskaidroja, kā izveidot kartējumus.

Aleksejs Anaņjevs, DIS Group apmācību vadītājs

Kas ir pushdown?

Daudzi no jums jau ir iepazinuÅ”ies ar Informatica Big Data Management (BDM). Produkts var integrēt lielus datus no dažādiem avotiem, pārvietot tos starp dažādām sistēmām, nodroÅ”ina ērtu piekļuvi tiem, ļauj tos profilēt un daudz ko citu.
Labās rokās BDM var radīt brīnumus: uzdevumi tiks izpildīti ātri un ar minimāliem skaitļoŔanas resursiem.

Vai jÅ«s arÄ« to vēlaties? Uzziniet, kā izmantot nospiežamo funkciju BDM, lai sadalÄ«tu skaitļoÅ”anas slodzi dažādās platformās. Pushdown tehnoloÄ£ija ļauj pārvērst kartÄ“Å”anu skriptā un atlasÄ«t vidi, kurā Å”is skripts darbosies. Å Ä« izvēle ļauj apvienot dažādu platformu stiprās puses un sasniegt to maksimālo veiktspēju.

Lai konfigurētu skripta izpildes vidi, ir jāizvēlas nospiežamās lejupielādes veids. Skriptu var pilnÄ«bā palaist Hadoop vai daļēji izplatÄ«t starp avotu un izlietni. Ir 4 iespējamie pushdown veidi. KartÄ“Å”ana nav jāpārvērÅ” par skriptu (vietējo). KartÄ“Å”anu var veikt pēc iespējas vairāk avotā (avotā) vai pilnÄ«bā avotā (pilnā). KartÄ“Å”anu var pārvērst arÄ« par Hadoop skriptu (nav).

Pushdown optimizācija

NorādÄ«tos 4 veidus var kombinēt dažādos veidos ā€“ pushdown var optimizēt konkrētām sistēmas vajadzÄ«bām. Piemēram, bieži vien ir pareizāk iegÅ«t datus no datu bāzes, izmantojot tās iespējas. Un dati tiks pārveidoti, izmantojot Hadoop, lai nepārslogotu paÅ”u datu bāzi.

ApskatÄ«sim gadÄ«jumu, kad datu bāzē atrodas gan avots, gan galamērÄ·is, un var izvēlēties transformācijas izpildes platformu: atkarÄ«bā no iestatÄ«jumiem tā bÅ«s Informatica, datu bāzes serveris vai Hadoop. Šāds piemērs ļaus visprecÄ«zāk izprast Ŕī mehānisma darbÄ«bas tehnisko pusi. Dabiski, ka reālajā dzÄ«vē Ŕāda situācija nerodas, taču tā ir vislabāk piemērota funkcionalitātes demonstrÄ“Å”anai.

Ņemsim kartÄ“Å”anu, lai nolasÄ«tu divas tabulas vienā Oracle datu bāzē. Un lai lasÄ«Å”anas rezultāti tiek ierakstÄ«ti tabulā tajā paŔā datubāzē. KartÄ“Å”anas shēma bÅ«s Ŕāda:

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Informatica BDM 10.2.1 kartÄ“Å”anas veidā tas izskatās Ŕādi:

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Pushdown veids ā€” vietējais

Ja izvēlamies nospiežamo native veidu, kartÄ“Å”ana tiks veikta Informatica serverÄ«. Dati tiks nolasÄ«ti no Oracle servera, pārsÅ«tÄ«ti uz Informatica serveri, pārveidoti tur un pārsÅ«tÄ«ti uz Hadoop. Citiem vārdiem sakot, mēs iegÅ«sim normālu ETL procesu.

Pushdown veids ā€“ avots

Izvēloties avota veidu, mēs iegÅ«stam iespēju izplatÄ«t mÅ«su procesu starp datu bāzes serveri (DB) un Hadoop. Kad process tiek izpildÄ«ts ar Å”o iestatÄ«jumu, datu bāzei tiks nosÅ«tÄ«ti pieprasÄ«jumi izgÅ«t datus no tabulām. Un pārējais tiks veikts Hadoop darbÄ«bu veidā.
Izpildes diagramma izskatīsies Ŕādi:

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Tālāk ir sniegts izpildlaika vides iestatÄ«Å”anas piemērs.

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Å ajā gadÄ«jumā kartÄ“Å”ana tiks veikta divos posmos. Tā iestatÄ«jumos mēs redzēsim, ka tas ir pārvērties par skriptu, kas tiks nosÅ«tÄ«ts avotam. Turklāt tabulu apvienoÅ”ana un datu pārveidoÅ”ana tiks veikta avota ignorēta vaicājuma veidā.
Tālāk esoÅ”ajā attēlā redzama optimizēta kartÄ“Å”ana BDM un atkārtoti definēts avota vaicājums.

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Hadoop loma Å”ajā konfigurācijā tiks samazināta lÄ«dz datu plÅ«smas pārvaldÄ«bai - tās organizÄ“Å”anai. Vaicājuma rezultāts tiks nosÅ«tÄ«ts uz Hadoop. Kad nolasÄ«Å”ana ir pabeigta, fails no Hadoop tiks ierakstÄ«ts izlietnē.

Pushdown veids ā€“ pilns

Atlasot pilnu veidu, kartÄ“Å”ana pilnÄ«bā pārvērtÄ«sies par datu bāzes vaicājumu. Un pieprasÄ«juma rezultāts tiks nosÅ«tÄ«ts Hadoop. Šāda procesa diagramma ir parādÄ«ta zemāk.

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Tālāk ir parādÄ«ts iestatÄ«Å”anas piemērs.

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Rezultātā mēs iegÅ«sim optimizētu kartÄ“Å”anu, kas ir lÄ«dzÄ«ga iepriekŔējai. VienÄ«gā atŔķirÄ«ba ir tā, ka visa loÄ£ika tiek pārsÅ«tÄ«ta uz uztvērēju, ignorējot tās ievietoÅ”anu. Tālāk ir parādÄ«ts optimizētas kartÄ“Å”anas piemērs.

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Å eit, tāpat kā iepriekŔējā gadÄ«jumā, Hadoop spēlē diriÄ£enta lomu. Bet Å”eit avots tiek izlasÄ«ts pilnÄ«bā, un tad datu apstrādes loÄ£ika tiek veikta uztvērēja lÄ«menÄ«.

Pushdown veids ir nulle

Pēdējā iespēja ir nospieÅ”anas veids, kurā mÅ«su kartÄ“Å”ana pārvērtÄ«sies par Hadoop skriptu.

Optimizētā kartÄ“Å”ana tagad izskatÄ«sies Ŕādi:

Kā lēti un ātri pārvietot, augÅ”upielādēt un integrēt ļoti lielus datus? Kas ir nospiežamā optimizācija?

Å eit dati no avota failiem vispirms tiks nolasÄ«ti pakalpojumā Hadoop. Pēc tam, izmantojot viņa paÅ”a lÄ«dzekļus, Å”ie divi faili tiks apvienoti. Pēc tam dati tiks konvertēti un augÅ”upielādēti datu bāzē.

Izprotot nospiežamās optimizācijas principus, jÅ«s varat ļoti efektÄ«vi organizēt daudzus procesus darbam ar lielajiem datiem. Tādējādi pavisam nesen viens liels uzņēmums tikai dažu nedēļu laikā no krātuves Hadoop lejupielādēja lielus datus, kurus tas iepriekÅ” bija apkopojis vairākus gadus.

Avots: www.habr.com

Pievieno komentāru