Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Akákoľvek operácia veľkých dát vyžaduje veľa výpočtového výkonu. Typický presun údajov z databázy do Hadoopu môže trvať týždne alebo stáť toľko ako krídlo lietadla. Nechce sa vám čakať a míňať peniaze? Vyvážte zaťaženie na rôznych platformách. Jedným zo spôsobov je pushdown optimalizácia.

Požiadal som vedúceho ruského školiteľa pre vývoj a správu produktov Informatica Alexeja Ananyeva, aby hovoril o funkcii optimalizácie zásobníka v Informatica Big Data Management (BDM). Naučili ste sa niekedy pracovať s produktmi Informatica? S najväčšou pravdepodobnosťou to bol Alexey, kto vám povedal základy PowerCenter a vysvetlil, ako vytvárať mapovania.

Alexey Ananyev, vedúci výcviku v DIS Group

Čo je posunutie nadol?

Mnohí z vás už poznajú Informatica Big Data Management (BDM). Produkt dokáže integrovať veľké dáta z rôznych zdrojov, presúvať ich medzi rôznymi systémami, poskytuje k nim jednoduchý prístup, umožňuje vám ich profilovať a mnoho ďalšieho.
V správnych rukách dokáže BDM robiť zázraky: úlohy budú dokončené rýchlo a s minimálnymi výpočtovými zdrojmi.

Chcete to aj vy? Naučte sa používať funkciu rozšírenia v BDM na rozdelenie výpočtovej záťaže medzi rôzne platformy. Technológia Pushdown vám umožňuje premeniť mapovanie na skript a vybrať prostredie, v ktorom sa tento skript spustí. Táto voľba vám umožňuje kombinovať silné stránky rôznych platforiem a dosiahnuť ich maximálny výkon.

Ak chcete nakonfigurovať prostredie vykonávania skriptu, musíte vybrať typ rozšírenia. Skript môže byť spustený úplne na Hadoop alebo čiastočne distribuovaný medzi zdrojom a umývadlom. Existujú 4 možné typy zásobníkov. Mapovanie sa nemusí zmeniť na skript (natívne). Mapovanie je možné vykonávať čo najviac na zdroji (zdroj) alebo úplne na zdroji (plný). Mapovanie je možné zmeniť aj na skript Hadoop (žiadny).

Pushdown optimalizácia

Uvedené 4 typy je možné rôzne kombinovať – pushdown je možné optimalizovať pre špecifické potreby systému. Často je napríklad vhodnejšie extrahovať údaje z databázy pomocou jej vlastných možností. A údaje budú konvertované pomocou Hadoop, aby nedošlo k preťaženiu samotnej databázy.

Zoberme si prípad, keď je zdroj aj cieľ v databáze a je možné zvoliť platformu vykonávania transformácie: v závislosti od nastavení to bude Informatica, databázový server alebo Hadoop. Takýto príklad vám umožní najpresnejšie pochopiť technickú stránku fungovania tohto mechanizmu. Prirodzene, v reálnom živote táto situácia nenastane, ale na demonštráciu funkčnosti je najvhodnejšia.

Zoberme si mapovanie na čítanie dvoch tabuliek v jednej databáze Oracle. A nechajte výsledky čítania zaznamenať do tabuľky v rovnakej databáze. Schéma mapovania bude takáto:

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Vo forme mapovania na Informatica BDM 10.2.1 to vyzerá takto:

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Pushdown typ – natívny

Ak vyberieme natívny typ zásobníka, potom sa mapovanie vykoná na serveri Informatica. Dáta budú načítané zo servera Oracle, prenesené na server Informatica, tam transformované a prenesené do Hadoopu. Inými slovami, dostaneme normálny proces ETL.

Typ zásobníka – zdroj

Pri výbere typu zdroja získame možnosť distribuovať náš proces medzi databázový server (DB) a Hadoop. Keď sa proces spustí s týmto nastavením, do databázy sa odošlú požiadavky na získanie údajov z tabuliek. A zvyšok bude vykonaný vo forme krokov na Hadoop.
Schéma vykonávania bude vyzerať takto:

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Nižšie je uvedený príklad nastavenia runtime prostredia.

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

V tomto prípade sa mapovanie vykoná v dvoch krokoch. V jeho nastaveniach uvidíme, že sa zmenil na skript, ktorý sa odošle do zdroja. Okrem toho sa kombinovanie tabuliek a transformácia údajov vykoná vo forme prepísaného dotazu na zdroj.
Na obrázku nižšie vidíme optimalizované mapovanie na BDM a predefinovaný dotaz na zdroj.

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Úloha Hadoopu v tejto konfigurácii sa zredukuje na riadenie toku údajov – ich organizovanie. Výsledok dotazu bude odoslaný spoločnosti Hadoop. Po dokončení čítania sa súbor z Hadoop zapíše do umývadla.

Typ zásobníka – plný

Keď vyberiete úplný typ, mapovanie sa úplne zmení na databázový dotaz. A výsledok žiadosti bude odoslaný spoločnosti Hadoop. Schéma takéhoto procesu je uvedená nižšie.

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Príklad nastavenia je uvedený nižšie.

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

V dôsledku toho získame optimalizované mapovanie podobné predchádzajúcemu. Jediný rozdiel je v tom, že všetka logika sa prenáša na prijímač vo forme prekrytia jeho vloženia. Príklad optimalizovaného mapovania je uvedený nižšie.

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Tu, rovnako ako v predchádzajúcom prípade, hrá Hadoop úlohu dirigenta. Ale tu sa zdroj načíta celý a potom sa logika spracovania údajov vykoná na úrovni prijímača.

Typ rozšírenia nadol je null

No a poslednou možnosťou je pushdown typ, v rámci ktorého sa naše mapovanie zmení na Hadoop skript.

Optimalizované mapovanie bude teraz vyzerať takto:

Ako presúvať, nahrávať a integrovať veľmi veľké dáta lacno a rýchlo? Čo je pushdown optimalizácia?

Tu sa údaje zo zdrojových súborov najskôr načítajú na Hadoop. Potom pomocou vlastných prostriedkov tieto dva súbory spojí. Potom sa údaje skonvertujú a nahrajú do databázy.

Pochopením princípov pushdown optimalizácie môžete veľmi efektívne organizovať mnohé procesy pre prácu s veľkými dátami. Tak celkom nedávno jedna veľká spoločnosť len za pár týždňov stiahla z úložiska do Hadoopu veľké dáta, ktoré predtým zbierala niekoľko rokov.

Zdroj: hab.com

Pridať komentár