Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Iga suurandmete toiming nõuab palju arvutusvõimsust. Tüüpiline andmete teisaldamine andmebaasist Hadoopi võib võtta nädalaid või maksta sama palju kui lennukitiib. Kas te ei taha oodata ja raha kulutada? Tasakaalustage koormus erinevatel platvormidel. Üks võimalus on allapoole suunatud optimeerimine.

Palusin Venemaa juhtival Informatica toodete arendamise ja haldamise koolitajal Aleksei Ananyevil rääkida Informatica Big Data Management (BDM) push-down optimeerimise funktsioonist. Kas olete kunagi õppinud Informatica toodetega töötama? Tõenäoliselt rääkis Aleksei teile PowerCenteri põhitõdesid ja selgitas, kuidas kaardistada.

Aleksei Ananjev, DIS Groupi koolitusjuht

Mis on pushdown?

Paljud teist on Informatica Big Data Management'iga (BDM) juba tuttavad. Toode suudab integreerida erinevatest allikatest pärit suurandmeid, teisaldada neid erinevate süsteemide vahel, pakub neile lihtsat juurdepääsu, võimaldab neid profiilida ja palju muud.
Õigetes kätes võib BDM teha imesid: ülesanded täidetakse kiiresti ja minimaalsete arvutusressurssidega.

Kas sa tahad ka seda? Õppige kasutama BDM-i tõukefunktsiooni, et jaotada arvutuskoormus erinevatel platvormidel. Pushdown tehnoloogia võimaldab teil muuta kaardistamise skriptiks ja valida keskkonna, milles see skript töötab. See valik võimaldab kombineerida erinevate platvormide tugevusi ja saavutada nende maksimaalne jõudlus.

Skripti täitmiskeskkonna konfigureerimiseks peate valima allalaadimise tüübi. Skripti saab täielikult käivitada Hadoopis või osaliselt jaotada allika ja valamu vahel. On 4 võimalikku surumistüüpi. Kaardistust ei pea muutma skriptiks (native). Kaardistamine võib toimuda nii palju kui võimalik allikas (allikas) või täielikult allikas (täis). Kaardistamise saab muuta ka Hadoopi skriptiks (puudub).

Allasurutud optimeerimine

Loetletud 4 tüüpi saab kombineerida erineval viisil – pushdowni saab optimeerida vastavalt süsteemi spetsiifilistele vajadustele. Näiteks on sageli sobivam hankida andmeid andmebaasist, kasutades selle enda võimalusi. Andmed teisendatakse Hadoopi abil, et mitte andmebaasi ennast üle koormata.

Vaatleme juhtumit, kui nii allikas kui ka sihtkoht on andmebaasis ning teisenduse täitmisplatvormi saab valida: olenevalt sätetest on selleks Informatica, andmebaasiserver või Hadoop. Selline näide võimaldab teil kõige täpsemalt mõista selle mehhanismi töö tehnilist külge. Reaalses elus seda olukorda loomulikult ei teki, kuid see sobib kõige paremini funktsionaalsuse demonstreerimiseks.

Võtame kaardistamise kahe tabeli lugemiseks ühes Oracle'i andmebaasis. Ja las lugemistulemused fikseeritakse samas andmebaasis tabelisse. Kaardistamise skeem on järgmine:

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Informatica BDM 10.2.1 kaardistamise kujul näeb see välja järgmine:

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Allasurutud tüüp – algne

Kui valime natiivtüübi pushdown, siis toimub vastendamine Informatica serveris. Andmed loetakse Oracle serverist, edastatakse Informatica serverisse, teisendatakse seal ja edastatakse Hadoopi. Ehk siis saame tavalise ETL protsessi.

Pushdown tüüp – allikas

Lähtetüübi valimisel saame võimaluse levitada oma protsess andmebaasiserveri (DB) ja Hadoopi vahel. Kui protsess käivitatakse selle sättega, saadetakse tabelitest andmete toomise taotlused andmebaasi. Ja ülejäänu tehakse Hadoopi sammude kujul.
Täitmisskeem näeb välja selline:

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Allpool on näide käituskeskkonna seadistamisest.

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Sel juhul toimub kaardistamine kahes etapis. Selle seadetes näeme, et see on muutunud skriptiks, mis saadetakse allikale. Lisaks teostatakse tabelite kombineerimine ja andmete teisendamine allika alistatud päringu vormis.
Alloleval pildil näeme optimeeritud vastendust BDM-is ja allika uuesti määratletud päringut.

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Hadoopi roll selles konfiguratsioonis taandub andmevoo haldamisele – selle korraldamisele. Päringu tulemus saadetakse Hadoopile. Kui lugemine on lõpetatud, kirjutatakse Hadoopi fail kraanikaussi.

Pushdown tüüp – täis

Kui valite täistüübi, muutub vastendamine täielikult andmebaasipäringuks. Ja päringu tulemus saadetakse Hadoopile. Sellise protsessi diagramm on esitatud allpool.

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Seadistuse näide on näidatud allpool.

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Selle tulemusena saame eelmisega sarnase optimeeritud kaardistuse. Ainus erinevus on see, et kogu loogika edastatakse vastuvõtjale selle sisestamise tühistamise kujul. Optimeeritud kaardistamise näide on toodud allpool.

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Siin, nagu ka eelmisel juhul, mängib Hadoop dirigendi rolli. Aga siin loetakse allikas tervikuna läbi ja seejärel teostatakse andmetöötlusloogika vastuvõtja tasemel.

Pushdown tüüp on null

Noh, viimane võimalus on tõuketüüp, mille raames meie kaardistamine muutub Hadoopi skriptiks.

Optimeeritud kaardistus näeb nüüd välja järgmine:

Kuidas odavalt ja kiiresti liigutada, üles laadida ja integreerida väga suuri andmeid? Mis on allapoole suunatud optimeerimine?

Siin loetakse kõigepealt Hadoopis lähtefailide andmeid. Seejärel ühendatakse need kaks faili tema enda vahendeid kasutades. Pärast seda andmed teisendatakse ja laaditakse andmebaasi.

Mõistes push-down optimeerimise põhimõtteid, saate väga tõhusalt korraldada paljusid protsesse suurandmetega töötamiseks. Nii laadis üks suur ettevõte üsna hiljuti vaid mõne nädalaga salvestusruumist Hadoopi alla suurandmed, mida oli varem mitu aastat kogunud.

Allikas: www.habr.com

Lisa kommentaar