Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Orice operațiune de date mari necesită multă putere de calcul. O mutare tipică a datelor dintr-o bază de date în Hadoop poate dura săptămâni sau poate costa la fel de mult ca o aripă de avion. Nu vrei să aștepți și să cheltuiești bani? Echilibrați sarcina pe diferite platforme. O modalitate este optimizarea pushdown.

L-am rugat pe principalul trainer din Rusia pentru dezvoltarea și administrarea produselor Informatica, Alexey Ananyev, să vorbească despre funcția de optimizare pushdown din Informatica Big Data Management (BDM). Ați învățat vreodată să lucrați cu produsele Informatica? Cel mai probabil, Alexey a fost cel care ți-a spus elementele de bază ale PowerCenter și a explicat cum să construiești mapări.

Alexey Ananyev, șef de formare la DIS Group

Ce este pushdown?

Mulți dintre voi sunt deja familiarizați cu Informatica Big Data Management (BDM). Produsul poate integra date mari din diferite surse, le poate muta între sisteme diferite, oferă acces ușor la el, vă permite să le profilați și multe altele.
În mâinile potrivite, BDM poate face minuni: sarcinile vor fi finalizate rapid și cu resurse de calcul minime.

Vrei și tu asta? Învață să folosești funcția pushdown din BDM pentru a distribui sarcina de calcul pe diferite platforme. Tehnologia Pushdown vă permite să transformați maparea într-un script și să selectați mediul în care va rula acest script. Această alegere vă permite să combinați punctele forte ale diferitelor platforme și să obțineți performanța maximă a acestora.

Pentru a configura mediul de execuție a scriptului, trebuie să selectați tipul pushdown. Scriptul poate fi rulat în întregime pe Hadoop sau distribuit parțial între sursă și receptor. Există 4 tipuri de pushdown posibile. Maparea nu trebuie transformată într-un script (nativ). Maparea poate fi efectuată pe cât posibil pe sursă (sursă) sau complet pe sursă (complet). Maparea poate fi, de asemenea, transformată într-un script Hadoop (nici unul).

Optimizare pushdown

Cele 4 tipuri enumerate pot fi combinate în moduri diferite - pushdown poate fi optimizat pentru nevoile specifice ale sistemului. De exemplu, este adesea mai potrivit să extrageți date dintr-o bază de date folosind propriile capacități. Și datele vor fi convertite folosind Hadoop, pentru a nu supraîncărca baza de date în sine.

Să luăm în considerare cazul în care atât sursa, cât și destinația sunt în baza de date, iar platforma de execuție a transformării poate fi selectată: în funcție de setări, va fi Informatica, un server de baze de date sau Hadoop. Un astfel de exemplu vă va permite să înțelegeți cel mai precis partea tehnică a funcționării acestui mecanism. Desigur, în viața reală, această situație nu apare, dar este cea mai potrivită pentru demonstrarea funcționalității.

Să luăm maparea pentru a citi două tabele într-o singură bază de date Oracle. Și lăsați rezultatele citirii să fie înregistrate într-un tabel din aceeași bază de date. Schema de cartografiere va fi astfel:

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Sub formă de mapare pe Informatica BDM 10.2.1 arată astfel:

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Tip pushdown – nativ

Dacă selectăm tipul nativ pushdown, atunci maparea va fi efectuată pe serverul Informatica. Datele vor fi citite de pe serverul Oracle, transferate pe serverul Informatica, transformate acolo și transferate pe Hadoop. Cu alte cuvinte, vom obține un proces ETL normal.

Tip pushdown – sursă

Atunci când alegem tipul de sursă, avem posibilitatea de a ne distribui procesul între serverul de baze de date (DB) și Hadoop. Când un proces este executat cu această setare, solicitările de preluare a datelor din tabele vor fi trimise la baza de date. Iar restul va fi efectuat sub formă de pași pe Hadoop.
Diagrama de execuție va arăta astfel:

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Mai jos este un exemplu de configurare a mediului de rulare.

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

În acest caz, maparea va fi efectuată în doi pași. În setările sale vom vedea că s-a transformat într-un script care va fi trimis la sursă. Mai mult, combinarea tabelelor și transformarea datelor vor fi efectuate sub forma unei interogări suprascrise pe sursă.
În imaginea de mai jos, vedem o mapare optimizată pe BDM și o interogare redefinită pe sursă.

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Rolul Hadoop în această configurație se va reduce la gestionarea fluxului de date - orchestrarea acestuia. Rezultatul interogării va fi trimis către Hadoop. Odată ce citirea este finalizată, fișierul de la Hadoop va fi scris în chiuvetă.

Tip pushdown – complet

Când selectați tipul complet, maparea se va transforma complet într-o interogare de bază de date. Iar rezultatul solicitării va fi trimis către Hadoop. O diagramă a unui astfel de proces este prezentată mai jos.

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Un exemplu de configurare este prezentat mai jos.

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Ca rezultat, vom obține o mapare optimizată similară celei anterioare. Singura diferență este că toată logica este transferată receptorului sub formă de depășire a inserției sale. Un exemplu de mapare optimizată este prezentat mai jos.

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Aici, ca și în cazul precedent, Hadoop joacă rolul de dirijor. Dar aici sursa este citită în întregime, iar apoi logica de prelucrare a datelor este realizată la nivelul receptorului.

Tipul pushdown este nul

Ei bine, ultima opțiune este tipul pushdown, în cadrul căruia maparea noastră se va transforma într-un script Hadoop.

Maparea optimizată va arăta acum astfel:

Cum să mutați, să încărcați și să integrați date foarte mari ieftin și rapid? Ce este optimizarea pushdown?

Aici datele din fișierele sursă vor fi citite mai întâi pe Hadoop. Apoi, folosind propriile mijloace, aceste două fișiere vor fi combinate. După aceasta, datele vor fi convertite și încărcate în baza de date.

Înțelegând principiile optimizării pushdown, puteți organiza foarte eficient multe procese pentru lucrul cu big data. Astfel, destul de recent, o companie mare, în doar câteva săptămâni, a descărcat date mari din stocare în Hadoop, pe care le colectase anterior de câțiva ani.

Sursa: www.habr.com

Adauga un comentariu