Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Svaka operacija velikih podataka zahtijeva mnogo računarske snage. Tipično premještanje podataka iz baze podataka u Hadoop može potrajati sedmicama ili koštati koliko i krilo aviona. Ne želite čekati i trošiti novac? Uravnotežite opterećenje na različitim platformama. Jedan od načina je optimizacija spuštanja.

Zamolio sam vodećeg ruskog trenera za razvoj i administraciju Informatica proizvoda, Alekseja Ananjeva, da govori o funkciji optimizacije spuštanja u Informatica Big Data Management (BDM). Jeste li ikada naučili raditi sa Informatica proizvodima? Najvjerovatnije, Alexey vam je rekao osnove PowerCenter-a i objasnio kako da napravite mapiranja.

Aleksej Ananjev, šef obuke u DIS Grupi

Šta je pushdown?

Mnogi od vas su već upoznati sa Informatičkim upravljanjem velikim podacima (BDM). Proizvod može integrirati velike podatke iz različitih izvora, premještati ih između različitih sistema, pruža im lak pristup, omogućava vam da ih profilirate i još mnogo toga.
U pravim rukama, BDM može učiniti čuda: zadaci će biti završeni brzo i uz minimalne računarske resurse.

Da li i ti to želiš? Naučite koristiti funkciju pushdown u BDM-u za raspodjelu računarskog opterećenja na različite platforme. Pushdown tehnologija vam omogućava da pretvorite mapiranje u skriptu i odaberete okruženje u kojem će se ova skripta izvoditi. Ovaj izbor vam omogućava da kombinujete prednosti različitih platformi i postignete njihove maksimalne performanse.

Da biste konfigurisali okruženje za izvršavanje skripte, potrebno je da izaberete tip padajućeg menija. Skripta se može pokrenuti u potpunosti na Hadoop-u ili djelomično distribuirana između izvora i sink-a. Postoje 4 moguća tipa potiskivanja. Mapiranje se ne mora pretvarati u skriptu (nativnu). Mapiranje se može izvesti što je više moguće na izvoru (izvoru) ili u potpunosti na izvoru (punom). Mapiranje se također može pretvoriti u Hadoop skriptu (nema).

Pushdown optimizacija

Navedena 4 tipa mogu se kombinovati na različite načine - pushdown se može optimizovati za specifične potrebe sistema. Na primjer, često je prikladnije izdvojiti podatke iz baze podataka koristeći njene vlastite mogućnosti. I podaci će se konvertovati pomoću Hadoop-a, kako ne bi preopteretili samu bazu podataka.

Razmotrimo slučaj kada su i izvor i odredište u bazi podataka, a platforma za izvršenje transformacije može se odabrati: u zavisnosti od postavki, to će biti Informatica, server baze podataka ili Hadoop. Takav primjer će vam omogućiti da najtočnije shvatite tehničku stranu rada ovog mehanizma. Naravno, u stvarnom životu ova situacija se ne pojavljuje, ali je najprikladnija za demonstriranje funkcionalnosti.

Uzmimo mapiranje za čitanje dvije tabele u jednoj Oracle bazi podataka. I neka rezultati čitanja budu zabilježeni u tabeli u istoj bazi podataka. Shema mapiranja će biti ovakva:

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

U obliku mapiranja na Informatici BDM 10.2.1 to izgleda ovako:

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Pushdown tip – izvorni

Ako odaberemo pushdown izvorni tip, tada će se mapiranje izvršiti na Informatica serveru. Podaci će biti pročitani sa Oracle servera, prebačeni na Informatica server, tamo transformisani i prebačeni u Hadoop. Drugim riječima, dobićemo normalan ETL proces.

Pushdown tip – izvor

Kada biramo izvorni tip, dobijamo priliku da distribuiramo naš proces između servera baze podataka (DB) i Hadoop-a. Kada se proces izvrši s ovom postavkom, zahtjevi za dohvaćanje podataka iz tabela će se poslati bazi podataka. A ostalo će biti izvedeno u obliku koraka na Hadoop-u.
Dijagram izvršenja će izgledati ovako:

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Ispod je primjer postavljanja okruženja za izvršavanje.

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

U ovom slučaju, mapiranje će se izvršiti u dva koraka. U njegovim postavkama vidjet ćemo da se pretvorio u skriptu koja će biti poslana izvoru. Štaviše, kombinovanje tabela i transformacija podataka će se izvesti u obliku zaobilaznog upita na izvoru.
Na slici ispod vidimo optimizovano mapiranje na BDM-u i redefinisani upit na izvoru.

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Uloga Hadoop-a u ovoj konfiguraciji će se svesti na upravljanje protokom podataka – njegovo orkestriranje. Rezultat upita će biti poslan u Hadoop. Kada se čitanje završi, fajl iz Hadoop-a će biti upisan u sinkronizaciju.

Pushdown tip – pun

Kada odaberete puni tip, mapiranje će se u potpunosti pretvoriti u upit baze podataka. I rezultat zahtjeva će biti poslan Hadoop-u. Dijagram takvog procesa je prikazan u nastavku.

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Primjer podešavanja je prikazan ispod.

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Kao rezultat, dobit ćemo optimizirano mapiranje slično prethodnom. Jedina razlika je u tome što se sva logika prenosi na prijemnik u obliku poništavanja njegovog umetanja. Primjer optimiziranog mapiranja je predstavljen u nastavku.

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Ovdje, kao iu prethodnom slučaju, Hadoop igra ulogu dirigenta. Ali ovdje se izvor čita u cijelosti, a zatim se logika obrade podataka izvodi na nivou prijemnika.

Tip spuštanja je null

Pa, posljednja opcija je pushdown tip, unutar kojeg će se naše mapiranje pretvoriti u Hadoop skriptu.

Optimizirano mapiranje će sada izgledati ovako:

Kako jeftino i brzo premjestiti, otpremiti i integrirati vrlo velike podatke? Šta je pushdown optimizacija?

Ovdje će se podaci iz izvornih datoteka prvo čitati na Hadoop-u. Zatim će se, korištenjem njegovih vlastitih sredstava, ove dvije datoteke spojiti. Nakon toga, podaci će biti konvertovani i učitani u bazu podataka.

Razumijevanjem principa pushdown optimizacije, možete vrlo efikasno organizirati mnoge procese za rad s velikim podacima. Tako je, sasvim nedavno, jedna velika kompanija, u samo nekoliko sedmica, preuzela velike podatke iz skladišta u Hadoop, koje je prethodno prikupljala nekoliko godina.

izvor: www.habr.com

Dodajte komentar