Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Elke operaasje mei grutte gegevens fereasket in protte kompjûterkrêft. In typyske ferhuzing fan gegevens fan in databank nei Hadoop kin wiken duorje of safolle kostje as in fleantúchfleugel. Wolle jo net wachtsje en jild útjaan? Balansearje de lading oer ferskate platfoarms. Ien manier is pushdown-optimalisaasje.

Ik frege de liedende trainer fan Ruslân foar de ûntwikkeling en administraasje fan Informatica-produkten, Alexey Ananyev, om te praten oer de pushdown-optimisaasjefunksje yn Informatica Big Data Management (BDM). Hawwe jo oait leard om te wurkjen mei Informatica-produkten? Meast wierskynlik wie it Alexey dy't jo de basis fan PowerCenter fertelde en útlein hoe't jo mappings bouwe.

Alexey Ananyev, haad fan training by DIS Group

Wat is pushdown?

In protte fan jo binne al bekend mei Informatica Big Data Management (BDM). It produkt kin grutte gegevens fan ferskate boarnen yntegrearje, ferpleatse tusken ferskate systemen, jout maklike tagong ta it, kinne jo profilearje it, en folle mear.
Yn 'e juste hannen kin BDM wûnders dwaan: taken wurde fluch foltôge en mei minimale kompjûterboarnen.

Wolle jo dat ek? Learje de pushdown-funksje yn BDM te brûken om de komputerlast oer ferskate platfoarms te fersprieden. Pushdown-technology lit jo mapping feroarje yn in skript en selektearje de omjouwing wêryn dit skript sil rinne. Dizze kar lit jo de sterke punten fan ferskate platfoarms kombinearje en har maksimale prestaasjes berikke.

Om de skriptútfieromjouwing te konfigurearjen, moatte jo it pushdown-type selektearje. It skript kin folslein útfierd wurde op Hadoop of foar in part ferdield tusken de boarne en sink. D'r binne 4 mooglike pushdown-typen. Mapping hoecht net feroare te wurden yn in skript (native). Mapping kin safolle mooglik útfierd wurde op 'e boarne (boarne) of folslein op 'e boarne (fol). Mapping kin ek feroare wurde yn in Hadoop-skript (gjin).

Pushdown optimisaasje

De neamde 4-typen kinne op ferskate manieren wurde kombineare - pushdown kin wurde optimalisearre foar de spesifike behoeften fan it systeem. Bygelyks is it faaks mear passend om gegevens út in databank te ekstrahearjen mei de eigen mooglikheden. En de gegevens wurde konvertearre mei Hadoop, om de databank sels net te oerladen.

Litte wy it gefal beskôgje as sawol de boarne as de bestimming yn 'e databank binne, en it transformaasje-útfierplatfoarm kin wurde selektearre: ôfhinklik fan 'e ynstellings sil it Informatica wêze, in databanktsjinner, of Hadoop. Sa'n foarbyld sil tastean jo de meast sekuer begripe de technyske kant fan de wurking fan dit meganisme. Fansels, yn it echte libben, dizze situaasje net ûntstean, mar it is it bêste geskikt foar demonstraasje fan funksjonaliteit.

Litte wy mapping nimme om twa tabellen te lêzen yn ien Oracle-database. En lit de lêsresultaten wurde opnommen yn in tabel yn deselde databank. It mappingskema sil sa wêze:

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Yn 'e foarm fan mapping op Informatica BDM 10.2.1 sjocht it der sa út:

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Pushdown-type - native

As wy it native type pushdown selektearje, dan sil de mapping wurde útfierd op 'e Informatica-tsjinner. De gegevens wurde lêzen fan 'e Oracle-tsjinner, oerbrocht nei de Informatica-tsjinner, dêr omfoarme en oerbrocht nei Hadoop. Mei oare wurden, wy sille in normaal ETL-proses krije.

Pushdown-type - boarne

By it kiezen fan it boarnetype krije wy de kâns om ús proses te fersprieden tusken de databanktsjinner (DB) en Hadoop. As in proses wurdt útfierd mei dizze ynstelling, fersiken om te heljen gegevens út tabellen wurde stjoerd nei de databank. En de rest wurdt útfierd yn 'e foarm fan stappen op Hadoop.
It útfieringsdiagram sil der sa útsjen:

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Hjirûnder is in foarbyld fan it ynstellen fan de runtime-omjouwing.

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Yn dit gefal sil mapping wurde útfierd yn twa stappen. Yn syn ynstellings sille wy sjen dat it is feroare yn in skript dat sil wurde stjoerd nei de boarne. Boppedat sil it kombinearjen fan tabellen en it transformearjen fan gegevens wurde útfierd yn 'e foarm fan in oerskreaune query op' e boarne.
Yn 'e ôfbylding hjirûnder sjogge wy in optimalisearre mapping op' e BDM, en in opnij definieare query op 'e boarne.

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

De rol fan Hadoop yn dizze konfiguraasje sil wurde fermindere ta it behearen fan de stream fan gegevens - it orkestrearjen. It resultaat fan 'e fraach wurdt stjoerd nei Hadoop. Sadree't it lêzen is foltôge, wurdt de triem fan Hadoop skreaun nei de wasktafel.

Pushdown type - fol

As jo ​​​​it folsleine type selektearje, sil mapping folslein feroarje yn in databankfraach. En it resultaat fan it fersyk wurdt stjoerd nei Hadoop. In diagram fan sa'n proses wurdt hjirûnder presintearre.

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

In foarbyld opset wurdt hjirûnder werjûn.

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

As gefolch krije wy in optimalisearre mapping fergelykber mei de foarige. It ienige ferskil is dat alle logika wurdt oerdroegen oan de ûntfanger yn 'e foarm fan oerskriuwen syn ynfoegje. In foarbyld fan optimalisearre mapping wurdt hjirûnder presintearre.

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Hadoop spilet hjir, lykas yn it foarige gefal, de rol fan dirigint. Mar hjir wurdt de boarne yn syn gehiel lêzen, en dan wurdt de logika foar gegevensferwurking útfierd op it ûntfangernivo.

Pushdown-type is nul

No, de lêste opsje is it pushdown-type, wêryn ús mapping sil feroarje yn in Hadoop-skript.

De optimalisearre mapping sil no der sa útsjen:

Hoe kinne jo heul grutte gegevens goedkeap en fluch ferpleatse, uploade en yntegrearje? Wat is pushdown-optimalisaasje?

Hjir sille de gegevens fan 'e boarnebestannen earst lêzen wurde op Hadoop. Dan, mei syn eigen middels, dizze twa triemmen wurde kombinearre. Hjirnei wurde de gegevens konvertearre en opladen nei de databank.

Troch de prinsipes fan pushdown-optimalisaasje te begripen, kinne jo in protte prosessen tige effektyf organisearje foar wurkjen mei grutte gegevens. Sa, frij koartlyn, ien grut bedriuw, yn mar in pear wiken, ynladen grutte gegevens út opslach yn Hadoop, dat hie earder sammele foar ferskate jierren.

Boarne: www.habr.com

Add a comment