Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Çdo operacion i të dhënave të mëdha kërkon shumë fuqi kompjuterike. Një zhvendosje tipike e të dhënave nga një bazë të dhënash në Hadoop mund të zgjasë javë ose të kushtojë aq sa një krah avioni. Nuk doni të prisni dhe të shpenzoni para? Balanconi ngarkesën nëpër platforma të ndryshme. Një mënyrë është optimizimi i shtytjes.

I kërkova trajnerit kryesor të Rusisë për zhvillimin dhe administrimin e produkteve Informatica, Alexey Ananyev, të fliste për funksionin e optimizimit të push-down në Informatica Big Data Management (BDM). A keni mësuar ndonjëherë të punoni me produktet Informatica? Me shumë mundësi, ishte Alexey ai që ju tha bazat e PowerCenter dhe shpjegoi se si të krijoni harta.

Alexey Ananyev, kreu i trajnimit në DIS Group

Çfarë është pushdown?

Shumë prej jush tashmë janë njohur me Informatica Big Data Management (BDM). Produkti mund të integrojë të dhëna të mëdha nga burime të ndryshme, t'i lëvizë ato midis sistemeve të ndryshme, siguron qasje të lehtë në to, ju lejon t'i profilizoni ato dhe shumë më tepër.
Në duart e duhura, BDM mund të bëjë mrekulli: detyrat do të përfundojnë shpejt dhe me burime minimale kompjuterike.

E dëshironi edhe ju këtë? Mësoni të përdorni veçorinë pushdown në BDM për të shpërndarë ngarkesën llogaritëse nëpër platforma të ndryshme. Teknologjia pushdown ju lejon të ktheni hartën në një skript dhe të zgjidhni mjedisin në të cilin do të ekzekutohet ky skenar. Kjo zgjedhje ju lejon të kombinoni pikat e forta të platformave të ndryshme dhe të arrini performancën e tyre maksimale.

Për të konfiguruar mjedisin e ekzekutimit të skriptit, duhet të zgjidhni llojin pushdown. Skripti mund të ekzekutohet tërësisht në Hadoop ose të shpërndahet pjesërisht midis burimit dhe lavamanit. Ekzistojnë 4 lloje të mundshme të shtytjes. Hartëzimi nuk ka nevojë të kthehet në një skript (vendas). Hartëzimi mund të kryhet sa më shumë që të jetë e mundur në burim (burim) ose plotësisht në burim (plot). Hartimi mund të shndërrohet gjithashtu në një skript Hadoop (asnjë).

Optimizimi pushdown

4 llojet e listuara mund të kombinohen në mënyra të ndryshme - pushdown mund të optimizohet për nevojat specifike të sistemit. Për shembull, shpesh është më e përshtatshme të nxirren të dhëna nga një bazë të dhënash duke përdorur aftësitë e veta. Dhe të dhënat do të konvertohen duke përdorur Hadoop, në mënyrë që të mos mbingarkohet vetë baza e të dhënave.

Le të shqyrtojmë rastin kur burimi dhe destinacioni janë në bazën e të dhënave dhe mund të zgjidhet platforma e ekzekutimit të transformimit: në varësi të cilësimeve, do të jetë Informatica, një server i bazës së të dhënave ose Hadoop. Një shembull i tillë do t'ju lejojë të kuptoni më saktë anën teknike të funksionimit të këtij mekanizmi. Natyrisht, në jetën reale, kjo situatë nuk lind, por është më e përshtatshme për të demonstruar funksionalitetin.

Le të marrim hartën për të lexuar dy tabela në një bazë të dhënash të vetme Oracle. Dhe lërini rezultatet e leximit të regjistrohen në një tabelë në të njëjtën bazë të dhënash. Skema e hartës do të jetë si kjo:

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Në formën e hartës në Informatica BDM 10.2.1 duket kështu:

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Lloji pushdown - vendas

Nëse zgjedhim tipin vendas pushdown, atëherë hartëzimi do të kryhet në serverin Informatica. Të dhënat do të lexohen nga serveri Oracle, do të transferohen në serverin Informatica, do të transformohen atje dhe do të transferohen në Hadoop. Me fjalë të tjera, ne do të marrim një proces normal ETL.

Lloji pushdown – burim

Kur zgjedhim llojin e burimit, ne kemi mundësinë të shpërndajmë procesin tonë midis serverit të bazës së të dhënave (DB) dhe Hadoop. Kur një proces ekzekutohet me këtë cilësim, kërkesat për të marrë të dhëna nga tabelat do të dërgohen në bazën e të dhënave. Dhe pjesa tjetër do të kryhet në formën e hapave në Hadoop.
Diagrami i ekzekutimit do të duket si ky:

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Më poshtë është një shembull i konfigurimit të mjedisit të ekzekutimit.

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Në këtë rast, hartëzimi do të kryhet në dy hapa. Në cilësimet e tij do të shohim se është kthyer në një skript që do të dërgohet në burim. Për më tepër, kombinimi i tabelave dhe transformimi i të dhënave do të kryhet në formën e një pyetjeje të anashkaluar në burim.
Në foton më poshtë, ne shohim një hartë të optimizuar në BDM dhe një pyetje të ripërcaktuar në burim.

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Roli i Hadoop në këtë konfigurim do të reduktohet në menaxhimin e rrjedhës së të dhënave - orkestrimin e tyre. Rezultati i pyetjes do të dërgohet në Hadoop. Pasi të përfundojë leximi, skedari nga Hadoop do të shkruhet në lavaman.

Lloji pushdown - i plotë

Kur zgjidhni llojin e plotë, hartëzimi do të kthehet plotësisht në një pyetje të bazës së të dhënave. Dhe rezultati i kërkesës do t'i dërgohet Hadoop. Një diagram i një procesi të tillë është paraqitur më poshtë.

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Një shembull i konfigurimit është paraqitur më poshtë.

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Si rezultat, ne do të marrim një hartë të optimizuar të ngjashme me atë të mëparshme. I vetmi ndryshim është se e gjithë logjika transferohet te marrësi në formën e tejkalimit të futjes së tij. Një shembull i hartës së optimizuar është paraqitur më poshtë.

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Këtu, si në rastin e mëparshëm, Hadoop luan rolin e dirigjentit. Por këtu burimi lexohet në tërësi, dhe më pas logjika e përpunimit të të dhënave kryhet në nivelin e marrësit.

Lloji pushdown është null

Epo, opsioni i fundit është lloji pushdown, brenda të cilit hartëzimi ynë do të kthehet në një skript Hadoop.

Harta e optimizuar tani do të duket kështu:

Si të lëvizni, ngarkoni dhe integroni të dhëna shumë të mëdha me çmim të ulët dhe shpejt? Çfarë është optimizimi pushdown?

Këtu të dhënat nga skedarët burim do të lexohen fillimisht në Hadoop. Më pas, duke përdorur mjetet e tij, këto dy skedarë do të kombinohen. Pas kësaj, të dhënat do të konvertohen dhe do të ngarkohen në bazën e të dhënave.

Duke kuptuar parimet e optimizimit pushdown, ju mund të organizoni në mënyrë shumë efektive shumë procese për të punuar me të dhëna të mëdha. Kështu, kohët e fundit, një kompani e madhe, në vetëm pak javë, shkarkoi të dhëna të mëdha nga ruajtja në Hadoop, të cilat i kishte mbledhur më parë për disa vite.

Burimi: www.habr.com

Shto një koment