Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Bet kokia didelių duomenų operacija reikalauja daug skaičiavimo galios. Įprastas duomenų perkėlimas iš duomenų bazės į „Hadoop“ gali užtrukti kelias savaites arba kainuoti tiek pat, kiek lėktuvo sparnas. Nenorite laukti ir leisti pinigų? Subalansuokite apkrovą įvairiose platformose. Vienas iš būdų yra optimizavimas žemyn.

Paprašiau Rusijos pirmaujančio informatikos produktų kūrimo ir administravimo trenerio Aleksejaus Ananyevo pakalbėti apie „Informatica Big Data Management“ (BDM) optimizavimo funkciją „pushdown“. Ar kada nors išmokote dirbti su Informatikos produktais? Greičiausiai Aleksejus papasakojo jums „PowerCenter“ pagrindus ir paaiškino, kaip sukurti žemėlapius.

Aleksejus Ananyevas, DIS grupės mokymų vadovas

Kas yra pastūmimas?

Daugelis iš jūsų jau yra susipažinę su „Informatica Big Data Management“ (BDM). Produktas gali integruoti didelius duomenis iš skirtingų šaltinių, perkelti juos tarp skirtingų sistemų, suteikia lengvą prieigą prie jų, leidžia profiliuoti ir dar daugiau.
Tinkamose rankose BDM gali padaryti stebuklus: užduotys bus atliktos greitai ir su minimaliais skaičiavimo ištekliais.

Ar tu irgi to nori? Išmokite naudoti BDM nuspaudimo funkciją, kad paskirstytumėte skaičiavimo apkrovą skirtingose ​​platformose. Pushdown technologija leidžia paversti atvaizdavimą scenarijumi ir pasirinkti aplinką, kurioje šis scenarijus veiks. Šis pasirinkimas leidžia derinti skirtingų platformų stipriąsias puses ir pasiekti maksimalų jų našumą.

Norėdami sukonfigūruoti scenarijaus vykdymo aplinką, turite pasirinkti išspaudimo tipą. Scenarijus gali būti visiškai paleistas naudojant „Hadoop“ arba iš dalies paskirstytas šaltiniui ir kriauklei. Yra 4 galimi nuspaudimo tipai. Atvaizdavimo nereikia paversti scenarijumi (savuoju). Atvaizdavimas gali būti atliekamas kiek įmanoma šaltiniu (šaltiniu) arba visiškai šaltiniu (visu). Susiejimą taip pat galima paversti „Hadoop“ scenarijumi (nėra).

Optimizavimas žemyn

Išvardinti 4 tipai gali būti derinami įvairiais būdais – pushdown gali būti optimizuotas pagal specifinius sistemos poreikius. Pavyzdžiui, dažnai tikslingiau išgauti duomenis iš duomenų bazės naudojant jos galimybes. Ir duomenys bus konvertuojami naudojant Hadoop, kad nebūtų perkrauta pati duomenų bazė.

Panagrinėkime atvejį, kai duomenų bazėje yra ir šaltinis, ir paskirties vieta, o transformacijos vykdymo platformą galima pasirinkti: priklausomai nuo nustatymų, tai bus Informatica, duomenų bazės serveris arba Hadoop. Toks pavyzdys leis tiksliausiai suprasti techninę šio mechanizmo veikimo pusę. Natūralu, kad realiame gyvenime tokia situacija nekyla, tačiau ji geriausiai tinka funkcionalumui demonstruoti.

Paimkime atvaizdavimą, kad nuskaitytų dvi lenteles vienoje „Oracle“ duomenų bazėje. Ir tegul skaitymo rezultatai įrašomi į lentelę toje pačioje duomenų bazėje. Žemėlapio schema bus tokia:

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Informatica BDM 10.2.1 atvaizdavimo forma atrodo taip:

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Pushdown tipas – gimtoji

Jei pasirinksime išstumiamą vietinį tipą, atvaizdavimas bus atliktas Informatica serveryje. Duomenys bus nuskaitomi iš Oracle serverio, perkeliami į Informatica serverį, ten transformuojami ir perkeliami į Hadoop. Kitaip tariant, gausime įprastą ETL procesą.

Pushdown tipas – šaltinis

Renkantis šaltinio tipą, gauname galimybę paskirstyti savo procesą tarp duomenų bazės serverio (DB) ir Hadoop. Kai procesas vykdomas naudojant šį parametrą, duomenų nuskaitymo iš lentelių užklausos bus siunčiamos į duomenų bazę. O visa kita bus atliekama „Hadoop“ žingsniais.
Vykdymo schema atrodys taip:

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Toliau pateikiamas vykdymo aplinkos nustatymo pavyzdys.

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Tokiu atveju kartografavimas bus atliekamas dviem etapais. Jo nustatymuose pamatysime, kad jis virto scenarijumi, kuris bus išsiųstas į šaltinį. Be to, lentelių derinimas ir duomenų transformavimas bus vykdomas kaip nepaisoma užklausa šaltinyje.
Žemiau esančiame paveikslėlyje matome optimizuotą BDM atvaizdavimą ir iš naujo apibrėžtą šaltinio užklausą.

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

„Hadoop“ vaidmuo šioje konfigūracijoje bus sumažintas iki duomenų srauto valdymo – jo orkestravimo. Užklausos rezultatas bus išsiųstas Hadoop. Kai skaitymas bus baigtas, failas iš Hadoop bus įrašytas į kriauklę.

Pushdown tipas – pilnas

Kai pasirenkate visą tipą, atvaizdavimas visiškai virsta duomenų bazės užklausa. Ir užklausos rezultatas bus išsiųstas Hadoop. Tokio proceso schema pateikiama žemiau.

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Sąrankos pavyzdys parodytas žemiau.

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Dėl to gausime optimizuotą atvaizdavimą, panašų į ankstesnį. Vienintelis skirtumas yra tas, kad visa logika perduodama imtuvui nepaisant jo įterpimo. Toliau pateikiamas optimizuoto atvaizdavimo pavyzdys.

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Čia, kaip ir ankstesniu atveju, „Hadoop“ atlieka dirigento vaidmenį. Bet čia šaltinis perskaitomas visas, o tada imtuvo lygmeniu atliekama duomenų apdorojimo logika.

Pushdown tipas yra nulinis

Na, paskutinė parinktis yra išspaudžiamasis tipas, kuriame mūsų atvaizdavimas pavirs Hadoop scenarijumi.

Optimizuotas žemėlapis dabar atrodys taip:

Kaip pigiai ir greitai perkelti, įkelti ir integruoti labai didelius duomenis? Kas yra išstumiamas optimizavimas?

Čia duomenys iš šaltinio failų pirmiausia bus skaitomi „Hadoop“. Tada, naudodamas savo priemones, šie du failai bus sujungti. Po to duomenys bus konvertuojami ir įkeliami į duomenų bazę.

Suprasdami „pushdown“ optimizavimo principus, galite labai efektyviai organizuoti daugelį darbo su dideliais duomenimis procesų. Taigi visai neseniai viena didelė įmonė vos per kelias savaites iš saugyklos į „Hadoop“ atsisiuntė didelius duomenis, kuriuos anksčiau rinko kelerius metus.

Šaltinis: www.habr.com

Добавить комментарий