Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Vsaka operacija z velikimi podatki zahteva veliko računalniške moči. Običajna selitev podatkov iz baze podatkov v Hadoop lahko traja tedne ali stane toliko kot krilo letala. Ne želite čakati in zapravljati denarja? Uravnotežite obremenitev med različnimi platformami. Eden od načinov je potisna optimizacija.

Vodilnega ruskega trenerja za razvoj in administracijo izdelkov Informatica, Alexeya Ananyeva, sem prosil, naj govori o funkciji potisne optimizacije v Informatica Big Data Management (BDM). Ste se kdaj naučili delati z izdelki Informatica? Najverjetneje je bil Alexey tisti, ki vam je povedal osnove PowerCenterja in razložil, kako zgraditi preslikave.

Alexey Ananyev, vodja usposabljanja v skupini DIS

Kaj je pushdown?

Mnogi od vas že poznate Informatica Big Data Management (BDM). Izdelek lahko integrira velike podatke iz različnih virov, jih premika med različnimi sistemi, omogoča enostaven dostop do njih, omogoča profiliranje in še veliko več.
V pravih rokah lahko BDM dela čudeže: naloge bodo opravljene hitro in z minimalnimi računalniškimi viri.

Si tudi ti želiš tega? Naučite se uporabljati funkcijo pushdown v BDM za porazdelitev računalniške obremenitve med različnimi platformami. Pushdown tehnologija vam omogoča, da preslikavo spremenite v skript in izberete okolje, v katerem se bo ta skript izvajal. Ta izbira vam omogoča, da združite prednosti različnih platform in dosežete njihovo največjo zmogljivost.

Če želite konfigurirati okolje za izvajanje skripta, morate izbrati vrsto potisnega navzdol. Skript je mogoče v celoti zagnati na Hadoop ali delno porazdeliti med izvor in ponor. Obstajajo 4 možne vrste potiska. Kartiranja ni treba spremeniti v skript (izvorni). Preslikavo lahko izvajamo čim bolj na izvoru (source) ali popolnoma na izvoru (full). Preslikavo je mogoče spremeniti tudi v skript Hadoop (brez).

Pushdown optimizacija

Naštete 4 tipe je mogoče kombinirati na različne načine - pushdown je mogoče optimizirati za specifične potrebe sistema. Na primer, pogosto je bolj primerno izvleči podatke iz baze podatkov z uporabo njenih lastnih zmogljivosti. In podatki bodo pretvorjeni s pomočjo Hadoopa, da ne bi preobremenili same baze podatkov.

Poglejmo si primer, ko sta tako izvor kot cilj v bazi podatkov in je mogoče izbrati platformo za izvajanje transformacije: odvisno od nastavitev bo to Informatica, strežnik baze podatkov ali Hadoop. Takšen primer vam bo omogočil najbolj natančno razumevanje tehnične strani delovanja tega mehanizma. Seveda se v resničnem življenju ta situacija ne pojavi, vendar je najbolj primerna za prikaz funkcionalnosti.

Vzemimo preslikavo za branje dveh tabel v eni zbirki podatkov Oracle. In naj bodo rezultati branja zabeleženi v tabeli v isti bazi podatkov. Shema preslikave bo takšna:

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

V obliki preslikave na Informatica BDM 10.2.1 izgleda takole:

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Vrsta potisnega navzdol – izvorni

Če izberemo izvorni tip pushdown, bo preslikava izvedena na strežniku Informatica. Podatki bodo prebrani s strežnika Oracle, preneseni na strežnik Informatica, tam transformirani in preneseni v Hadoop. Z drugimi besedami, dobili bomo običajen proces ETL.

Pushdown vrsta – vir

Pri izbiri tipa vira dobimo možnost distribucije našega procesa med podatkovnim strežnikom (DB) in Hadoopom. Ko se postopek izvede s to nastavitvijo, bodo zahteve za pridobivanje podatkov iz tabel poslane v bazo podatkov. In ostalo bo izvedeno v obliki korakov na Hadoop.
Izvedbeni diagram bo videti takole:

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Spodaj je primer nastavitve izvajalnega okolja.

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

V tem primeru bo preslikava izvedena v dveh korakih. V njegovih nastavitvah bomo videli, da se je spremenil v skript, ki bo poslan viru. Poleg tega bo združevanje tabel in preoblikovanje podatkov izvedeno v obliki preglasene poizvedbe na izvoru.
Na spodnji sliki vidimo optimizirano preslikavo na BDM in na novo definirano poizvedbo na viru.

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Vloga Hadoopa v tej konfiguraciji bo zmanjšana na upravljanje pretoka podatkov – njegovo orkestriranje. Rezultat poizvedbe bo poslan v Hadoop. Ko je branje končano, bo datoteka iz Hadoopa zapisana v ponor.

Vrsta potiska – polna

Ko izberete celotno vrsto, se preslikava popolnoma spremeni v poizvedbo po bazi podatkov. In rezultat zahteve bo poslan v Hadoop. Diagram takega postopka je predstavljen spodaj.

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Spodaj je prikazan primer nastavitve.

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Kot rezultat bomo dobili optimizirano preslikavo, podobno prejšnji. Edina razlika je v tem, da se vsa logika prenese na sprejemnik v obliki preglasitve njegovega vstavljanja. Spodaj je predstavljen primer optimiziranega preslikave.

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Tukaj, kot v prejšnjem primeru, Hadoop igra vlogo dirigenta. Toda tukaj se vir prebere v celoti, nato pa se logika obdelave podatkov izvaja na ravni sprejemnika.

Vrsta potiska navzdol je ničelna

No, zadnja možnost je potisni tip, znotraj katerega se bo naše preslikavo spremenilo v skript Hadoop.

Optimizirano preslikavo bo zdaj videti takole:

Kako poceni in hitro premakniti, naložiti in integrirati zelo velike podatke? Kaj je potisna optimizacija?

Tukaj bodo podatki iz izvornih datotek najprej prebrani na Hadoop. Nato bo z lastnimi sredstvi ti dve datoteki združil. Po tem bodo podatki pretvorjeni in naloženi v bazo podatkov.

Z razumevanjem principov potisne optimizacije lahko zelo učinkovito organizirate številne procese za delo z velikimi podatki. Tako je pred kratkim eno veliko podjetje v samo nekaj tednih iz shrambe v Hadoop preneslo velike podatke, ki jih je pred tem zbiralo več let.

Vir: www.habr.com

Dodaj komentar