Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Enige groot data-operasie vereis baie rekenaarkrag. 'n Tipiese skuif van data van 'n databasis na Hadoop kan weke duur of soveel kos as 'n vliegtuigvlerk. Wil jy nie wag en geld spandeer nie? Balanseer die vrag oor verskillende platforms. Een manier is pushdown-optimering.

Ek het Rusland se voorste afrigter vir die ontwikkeling en administrasie van Informatica-produkte, Alexey Ananyev, gevra om te praat oor die pushdown-optimeringsfunksie in Informatica Big Data Management (BDM). Het jy al ooit geleer om met Informatica-produkte te werk? Waarskynlik was dit Alexey wat jou die basiese beginsels van PowerCenter vertel het en verduidelik het hoe om kartering te bou.

Alexey Ananyev, hoof van opleiding by DIS Group

Wat is pushdown?

Baie van julle is reeds vertroud met Informatica Big Data Management (BDM). Die produk kan groot data van verskillende bronne integreer, dit tussen verskillende stelsels skuif, bied maklike toegang daartoe, laat jou toe om dit te profileer, en nog baie meer.
In die regte hande kan BDM wondere verrig: take sal vinnig en met minimale rekenaarhulpbronne voltooi word.

Wil jy dit ook hê? Leer om die afdrukfunksie in BDM te gebruik om die rekenaarlading oor verskillende platforms te versprei. Pushdown-tegnologie laat jou toe om kartering in 'n skrif te verander en die omgewing te kies waarin hierdie skrif sal loop. Hierdie keuse laat jou toe om die sterk punte van verskillende platforms te kombineer en hul maksimum prestasie te bereik.

Om die script uitvoering omgewing op te stel, moet jy die pushdown tipe kies. Die skrip kan geheel en al op Hadoop uitgevoer word of gedeeltelik tussen die bron en sink versprei word. Daar is 4 moontlike afdruktipes. Kartering hoef nie in 'n skrif (inheems) verander te word nie. Kartering kan soveel as moontlik op die bron (bron) of heeltemal op die bron (vol) uitgevoer word. Kartering kan ook in 'n Hadoop-skrif verander word (geen).

Afdrukoptimering

Die gelyste 4 tipes kan op verskillende maniere gekombineer word - pushdown kan geoptimaliseer word vir die spesifieke behoeftes van die stelsel. Byvoorbeeld, dit is dikwels meer gepas om data uit 'n databasis te onttrek deur sy eie vermoëns te gebruik. En die data sal met Hadoop omgeskakel word, om nie die databasis self te oorlaai nie.

Kom ons kyk na die geval wanneer beide die bron en die bestemming in die databasis is, en die transformasie-uitvoeringsplatform gekies kan word: afhangende van die instellings, sal dit Informatica, 'n databasisbediener of Hadoop wees. So 'n voorbeeld sal jou toelaat om die tegniese kant van die werking van hierdie meganisme die beste te verstaan. Natuurlik, in die werklike lewe kom hierdie situasie nie voor nie, maar dit is die beste geskik om funksionaliteit te demonstreer.

Kom ons neem kartering om twee tabelle in 'n enkele Oracle-databasis te lees. En laat die leesresultate in 'n tabel in dieselfde databasis aangeteken word. Die karteringskema sal soos volg wees:

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

In die vorm van kartering op Informatica BDM 10.2.1 lyk dit soos volg:

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Afdruktipe – inheems

As ons die afdruk-inheemse tipe kies, sal die kartering op die Informatica-bediener uitgevoer word. Die data sal vanaf die Oracle-bediener gelees word, na die Informatica-bediener oorgedra word, daar getransformeer en na Hadoop oorgedra word. Met ander woorde, ons sal 'n normale ETL-proses kry.

Afdruktipe – bron

Wanneer ons die brontipe kies, kry ons die geleentheid om ons proses tussen die databasisbediener (DB) en Hadoop te versprei. Wanneer 'n proses met hierdie instelling uitgevoer word, sal versoeke om data uit tabelle te haal na die databasis gestuur word. En die res sal in die vorm van stappe op Hadoop uitgevoer word.
Die uitvoeringsdiagram sal soos volg lyk:

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Hieronder is 'n voorbeeld van die opstel van die runtime-omgewing.

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

In hierdie geval sal kartering in twee stappe uitgevoer word. In sy instellings sal ons sien dat dit verander het in 'n skrif wat na die bron gestuur sal word. Boonop sal die kombinasie van tabelle en transformasie van data uitgevoer word in die vorm van 'n ignoreerde navraag op die bron.
In die prentjie hieronder sien ons 'n geoptimaliseerde kartering op die BDM, en 'n herdefinieerde navraag op die bron.

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Die rol van Hadoop in hierdie konfigurasie sal verminder word tot die bestuur van die vloei van data - orkestreer dit. Die resultaat van die navraag sal aan Hadoop gestuur word. Sodra die lees voltooi is, sal die lêer van Hadoop na die wasbak geskryf word.

Afdruktipe – vol

Wanneer jy die volledige tipe kies, sal kartering heeltemal verander in 'n databasisnavraag. En die resultaat van die versoek sal aan Hadoop gestuur word. 'n Diagram van so 'n proses word hieronder aangebied.

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

'n Voorbeeldopstelling word hieronder getoon.

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

As gevolg hiervan sal ons 'n geoptimaliseerde kartering kry soortgelyk aan die vorige. Die enigste verskil is dat al die logika na die ontvanger oorgedra word in die vorm van die invoeging daarvan. 'n Voorbeeld van geoptimaliseerde kartering word hieronder aangebied.

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Hier, soos in die vorige geval, speel Hadoop die rol van dirigent. Maar hier word die bron in sy geheel gelees, en dan word die dataverwerkingslogika op die ontvangervlak uitgevoer.

Afdruktipe is nul

Wel, die laaste opsie is die afdruktipe, waarbinne ons kartering in 'n Hadoop-skrif sal verander.

Die geoptimaliseerde kartering sal nou soos volg lyk:

Hoe om baie groot data goedkoop en vinnig te skuif, op te laai en te integreer? Wat is pushdown-optimering?

Hier sal die data van die bronlêers eers op Hadoop gelees word. Dan, met sy eie middele, sal hierdie twee lêers gekombineer word. Hierna sal die data omgeskakel word en na die databasis opgelaai word.

Deur die beginsels van pushdown-optimering te verstaan, kan jy baie prosesse vir die werk met groot data baie effektief organiseer. Dus, redelik onlangs, het een groot maatskappy in net 'n paar weke groot data van berging afgelaai na Hadoop, wat dit voorheen vir etlike jare ingesamel het.

Bron: will.com

Voeg 'n opmerking