Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Bármilyen big data művelethez nagy számítási teljesítmény szükséges. Az adatok tipikus áthelyezése egy adatbázisból a Hadoopba hetekig tarthat, vagy annyiba kerülhet, mint egy repülőgépszárny. Nem akar várni és pénzt költeni? Egyensúlyozza a terhelést a különböző platformokon. Az egyik módszer a pushdown optimalizálás.

Megkértem Oroszország vezető informatikai termékek fejlesztésével és adminisztrációjával foglalkozó trénerét, Alekszej Ananyevet, hogy beszéljen az Informatica Big Data Management (BDM) pushdown optimalizálási funkciójáról. Tanult már dolgozni az Informatica termékekkel? Valószínűleg Alexey volt az, aki elmondta a PowerCenter alapjait, és elmagyarázta, hogyan kell leképezéseket készíteni.

Alexey Ananyev, a DIS Group képzési vezetője

Mi az a pushdown?

Sokan már ismerik az Informatica Big Data Management (BDM) szolgáltatást. A termék képes integrálni a különböző forrásokból származó nagy adatokat, áthelyezni azokat a különböző rendszerek között, könnyű hozzáférést biztosít, lehetővé teszi a profilozást és még sok mást.
Megfelelő kezekben a BDM csodákra képes: a feladatok gyorsan és minimális számítási erőforrással készülnek el.

Te is ezt akarod? Tanulja meg a BDM pushdown funkciójának használatát a számítási terhelés elosztására a különböző platformokon. A Pushdown technológia lehetővé teszi, hogy a leképezést szkriptgé alakítsa, és válassza ki azt a környezetet, amelyben ez a szkript futni fog. Ez a választás lehetővé teszi a különböző platformok erősségei kombinálását és a maximális teljesítmény elérését.

A parancsfájl-végrehajtási környezet konfigurálásához ki kell választania a pushdown típusát. A szkript futtatható teljes egészében Hadoopon, vagy részben elosztva a forrás és a fogadó között. 4 lehetséges pushdown típus létezik. A leképezést nem kell szkriptvé alakítani (natív). A leképezés a lehető legnagyobb mértékben a forráson (forrás) vagy teljesen a forráson (teljes) végezhető. A leképezés Hadoop-szkriptké is alakítható (nincs).

Pushdown optimalizálás

A felsorolt ​​4 típus többféleképpen kombinálható – a pushdown a rendszer speciális igényeihez optimalizálható. Például gyakran célszerűbb adatokat kinyerni egy adatbázisból a saját képességei alapján. Az adatokat a Hadoop segítségével konvertálják, hogy ne terheljék túl magát az adatbázist.

Tekintsük azt az esetet, amikor a forrás és a cél is benne van az adatbázisban, és kiválasztható az átalakítás végrehajtási platformja: a beállításoktól függően Informatica, adatbázis-kiszolgáló vagy Hadoop lesz. Egy ilyen példa lehetővé teszi, hogy a legpontosabban megértse a mechanizmus működésének műszaki oldalát. Természetesen a való életben ez a helyzet nem fordul elő, de a funkcionalitás bemutatására a legalkalmasabb.

Vegyük a leképezést két tábla olvasásához egyetlen Oracle adatbázisban. És az olvasási eredményeket rögzítsük egy táblázatban ugyanabban az adatbázisban. A leképezési séma a következő lesz:

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Az Informatica BDM 10.2.1-es leképezés formájában így néz ki:

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Pushdown típus – natív

Ha a pushdown natív típust választjuk, akkor a leképezés az Informatica szerveren történik. Az adatokat az Oracle szerverről olvassuk be, továbbítjuk az Informatica szerverre, ott transzformáljuk és a Hadoopba továbbítjuk. Más szóval, normál ETL-folyamatot kapunk.

Pushdown típus – forrás

A forrástípus kiválasztásakor lehetőséget kapunk arra, hogy folyamatunkat az adatbázis-kiszolgáló (DB) és a Hadoop között elosztjuk. Amikor egy folyamat ezzel a beállítással végrehajtódik, a táblákból származó adatok lekérésére vonatkozó kérések elküldésre kerülnek az adatbázisba. A többit pedig lépések formájában hajtják végre a Hadoopon.
A végrehajtási diagram így fog kinézni:

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Az alábbiakban egy példa látható a futási környezet beállítására.

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Ebben az esetben a leképezés két lépésben történik. A beállításaiban látni fogjuk, hogy egy szkript lett, amely elküldésre kerül a forrásnak. Ezenkívül a táblák kombinálása és az adatok átalakítása felülírt lekérdezés formájában történik a forráson.
Az alábbi képen egy optimalizált leképezést látunk a BDM-en, és egy újradefiniált lekérdezést a forráson.

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

A Hadoop szerepe ebben a konfigurációban az adatáramlás kezelésére – annak megszervezésére – korlátozódik. A lekérdezés eredménye elküldésre kerül a Hadoopnak. Az olvasás befejezése után a Hadoop fájl a mosogatóba kerül.

Pushdown típus – teljes

A teljes típus kiválasztásakor a leképezés teljesen adatbázislekérdezéssé válik. A kérés eredményét pedig elküldjük a Hadoopnak. Az alábbiakban egy ilyen folyamat diagramját mutatjuk be.

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Az alábbiakban egy példa beállítás látható.

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Ennek eredményeként az előzőhöz hasonló optimalizált leképezést kapunk. Az egyetlen különbség az, hogy az összes logika átkerül a vevőhöz a beillesztés felülbírálása formájában. Az alábbiakban bemutatunk egy példát az optimalizált leképezésre.

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Itt, mint az előző esetben, a Hadoop játssza a karmester szerepét. De itt a forrás teljes egészében beolvasásra kerül, majd az adatfeldolgozási logika a vevő szintjén történik.

A lenyomás típusa null

Nos, az utolsó lehetőség a pushdown típus, amelyen belül a leképezésünk Hadoop szkriptmé alakul.

Az optimalizált leképezés most így fog kinézni:

Hogyan lehet olcsón és gyorsan mozgatni, feltölteni és integrálni nagyon nagy adatokat? Mi az a pushdown optimalizálás?

Itt a forrásfájlokból származó adatokat először a Hadoop olvassa be. Ezután a saját eszközeivel ezt a két fájlt egyesítik. Ezt követően az adatok konvertálásra és feltöltésre kerülnek az adatbázisba.

A pushdown optimalizálás elveinek megértésével nagyon hatékonyan megszervezhet számos folyamatot a nagy adatokkal való munkavégzéshez. Így a közelmúltban egy nagy cég néhány hét leforgása alatt nagy adatokat töltött le a tárhelyről a Hadoopba, amelyeket korábban több éven át gyűjtött.

Forrás: will.com

Hozzászólás