Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

All grouss Daten Operatioun erfuerdert vill Rechenkraaft. Eng typesch Beweegung vun Daten aus enger Datebank op Hadoop kann Wochen daueren oder sou vill kaschten wéi e Fligerfligel. Wëllt Dir net waarden a Suen ausginn? Balancéiert d'Laascht iwwer verschidde Plattformen. Ee Wee ass Pushdown Optimiséierung.

Ech hunn de russesche féierende Trainer fir d'Entwécklung an d'Verwaltung vun Informatica Produkter, Alexey Ananyev, gefrot fir iwwer d'Pushdown Optimiséierungsfunktioun am Informatica Big Data Management (BDM) ze schwätzen. Hutt Dir jeemools geléiert mat Informatica Produkter ze schaffen? Wahrscheinlech war et den Alexey deen Iech d'Grondlage vum PowerCenter erzielt huet an erkläert huet wéi d'Mappings bauen.

Alexey Ananyev, Chef vum Training bei DIS Group

Wat ass Pushdown?

Vill vun iech si scho mat Informatica Big Data Management (BDM) vertraut. D'Produkt kann grouss Daten aus verschiddene Quellen integréieren, se tëscht verschiddene Systemer réckelen, suergt einfach Zougang zu hinnen, erlaabt Iech et ze profiléieren a vill méi.
An de richtegen Hänn kann BDM Wonner maachen: Aufgabe ginn séier a mat minimale Rechenressourcen ofgeschloss.

Wëllt dir dat och? Léiert d'Pushdown Feature an BDM ze benotzen fir d'Rechenbelaaschtung iwwer verschidde Plattformen ze verdeelen. Pushdown Technologie erlaabt Iech d'Mapping an e Skript ze maachen an d'Ëmfeld auswielen an deem dëst Skript leeft. Dëse Choix erlaabt Iech d'Stäerkte vu verschiddene Plattformen ze kombinéieren an hir maximal Leeschtung z'erreechen.

Fir d'Skriptausféierungsëmfeld ze konfiguréieren, musst Dir den Pushdown-Typ auswielen. De Skript kann ganz op Hadoop lafen oder deelweis tëscht der Quell a Spull verdeelt ginn. Et gi 4 méiglech Pushdown-Typen. Mapping muss net an e Skript ëmgewandelt ginn (native). Mapping kann sou vill wéi méiglech op der Quell (Quell) oder komplett op der Quell (voll) gemaach ginn. Mapping kann och an en Hadoop Skript ëmgewandelt ginn (keen).

Pushdown Optimisatioun

Déi opgelëscht 4 Aarte kënnen op verschidde Weeër kombinéiert ginn - Pushdown kann fir déi spezifesch Bedierfnesser vum System optimiséiert ginn. Zum Beispill ass et dacks méi ubruecht Daten aus enger Datebank ze extrahieren mat hiren eegene Fäegkeeten. An d'Donnéeë ginn mat Hadoop ëmgewandelt, fir d'Datebank selwer net ze iwwerlaascht.

Loosst eis de Fall betruechten wann d'Quell an d'Destinatioun an der Datebank sinn, an d'Transformatiounsausféierungsplattform ka gewielt ginn: ofhängeg vun den Astellunge wäert et Informatica, en Datebankserver oder Hadoop sinn. Esou e Beispill erlaabt Iech déi technesch Säit vun der Operatioun vun dësem Mechanismus am meeschte genee ze verstoen. Natierlech, am richtege Liewen ass dës Situatioun net entstanen, mä et ass am beschten gëeegent Funktionalitéit ze demonstréieren.

Loosst eis d'Mapping huelen fir zwee Dëscher an enger eenzeger Oracle Datebank ze liesen. A loosst d'Liesresultater an enger Tabell an der selwechter Datebank opgeholl ginn. De Mapping Schema wäert esou sinn:

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

A Form vu Mapping op Informatica BDM 10.2.1 gesäit et esou aus:

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

Pushdown Typ - gebierteg

Wa mir de Pushdown native Typ auswielen, da gëtt d'Mapping um Informatica Server ausgefouert. D'Donnéeë ginn vum Oracle Server gelies, op den Informatica Server transferéiert, do transforméiert an op Hadoop transferéiert. An anere Wierder, mir kréien en normale ETL Prozess.

Pushdown Typ - Quell

Wann Dir de Quelltyp auswielen, kréie mir d'Méiglechkeet eise Prozess tëscht dem Datebankserver (DB) an Hadoop ze verdeelen. Wann e Prozess mat dëser Astellung ausgefouert gëtt, ginn Ufroe fir Daten aus Dëscher ze recuperéieren an d'Datebank geschéckt. An de Rescht gëtt a Form vu Schrëtt op Hadoop gemaach.
D'Ausféierungsdiagramm wäert esou ausgesinn:

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

Drënner ass e Beispill fir d'Runtime Ëmfeld opzestellen.

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

An dësem Fall gëtt d'Mapping an zwee Schrëtt gemaach. A sengen Astellunge wäerte mir gesinn datt et an e Skript ëmgewandelt gouf deen un d'Quell geschéckt gëtt. Ausserdeem gëtt d'Kombinatioun vun Dëscher an d'Transformatioun vun Daten a Form vun enger iwwerschriwwener Ufro op der Quell gemaach.
Am Bild hei drënner gesi mir eng optimiséiert Kaart op der BDM, an eng neidefinéiert Ufro op der Quell.

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

D'Roll vun Hadoop an dëser Konfiguratioun gëtt reduzéiert fir de Flux vun Daten ze managen - orchestréieren. D'Resultat vun der Ufro gëtt op Hadoop geschéckt. Wann d'Liesen ofgeschloss ass, gëtt d'Datei vun Hadoop an de Spull geschriwwe ginn.

Pushdown Typ - voll

Wann Dir de ganzen Typ auswielt, gëtt d'Mapping komplett an eng Datebankufro ëmgewandelt. An d'Resultat vun der Ufro gëtt un Hadoop geschéckt. En Diagramm vun esou engem Prozess gëtt ënnendrënner presentéiert.

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

E Beispill Setup gëtt hei ënnen gewisen.

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

Als Resultat kréie mir eng optimiséiert Kaart ähnlech wéi déi virdrun. Deen eenzegen Ënnerscheed ass datt all d'Logik un den Empfänger transferéiert gëtt a Form vu seng Aféierung ze iwwerschreiden. E Beispill vun optimiséierter Mapping gëtt hei ënnen presentéiert.

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

Hei, wéi am Fall virdrun, spillt Hadoop d'Roll vum Dirigent. Awer hei gëtt d'Quell a senger Ganzheet gelies, an dann gëtt d'Dateveraarbechtungslogik um Empfängerniveau duerchgefouert.

Pushdown Typ ass null

Gutt, déi lescht Optioun ass den Pushdown-Typ, an deem eis Mapping an en Hadoop Skript gëtt.

Déi optimiséiert Mapping wäert elo esou ausgesinn:

Wéi réckelen, eropluede an integréieren ganz grouss Donnéeën bëlleg a séier? Wat ass Pushdown Optimiséierung?

Hei ginn d'Donnéeën aus de Quelldateien als éischt op Hadoop gelies. Dann, mat hiren eegene Mëttelen, ginn dës zwee Dateien kombinéiert. Duerno ginn d'Donnéeën ëmgewandelt an an d'Datebank eropgelueden.

Andeems Dir d'Prinzipien vun der Pushdown Optimiséierung versteet, kënnt Dir ganz effektiv vill Prozesser organiséieren fir mat Big Data ze schaffen. Sou huet eng grouss Firma an e puer Wochen also zimlech kierzlech grouss Daten aus der Späichere an Hadoop erofgelueden, déi se virdru fir e puer Joer gesammelt haten.

Source: will.com

Setzt e Commentaire