Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Sérhver aðgerð með stórum gögnum krefst mikils tölvuafls. Dæmigerð flutningur gagna úr gagnagrunni til Hadoop getur tekið vikur eða kostað jafn mikið og flugvélvængur. Viltu ekki bíða og eyða? Jafnvægi álagið á mismunandi palla. Ein leiðin er hagræðing til að ýta niður.

Ég bað Aleksey Ananyev, leiðandi rússneskan þjálfara fyrir þróun og stjórnun Informatica vara, að tala um fínstillingaraðgerðina í Informatica Big Data Management (BDM). Hefur þú einhvern tíma lært hvernig á að vinna með Informatica vörur? Líklega var það Aleksey sem sagði þér grunnatriði PowerCenter og útskýrði hvernig á að búa til kortagerð.

Alexey Ananiev, yfirmaður þjálfunar DIS Group

Hvað er pushdown?

Mörg ykkar eru nú þegar kunnugir Informatica Big Data Management (BDM). Varan er fær um að samþætta stór gögn frá mismunandi aðilum, færa þau á milli mismunandi kerfa, veitir greiðan aðgang að þeim, gerir þér kleift að kynna þau og margt fleira.
Í réttum höndum getur BDM gert kraftaverk: verkefni verða unnin fljótt og með lágmarks tölvuauðlindum.

Viltu það líka? Lærðu hvernig á að nota pushdown eiginleika BDM til að dreifa tölvuvinnuálagi á mismunandi vettvang. Pushdown tæknin gerir þér kleift að breyta kortlagningunni í handrit og velja umhverfið sem þetta handrit mun keyra í. Möguleikinn á slíku vali gerir þér kleift að sameina styrkleika mismunandi kerfa og ná hámarksframmistöðu þeirra.

Til að stilla framkvæmdarumhverfi skriftu þarftu að velja tegund niðurhals. Handritið er hægt að keyra að öllu leyti á Hadoop eða að hluta til dreift á milli uppruna og skotmarks. Það eru 4 mögulegar pushdown gerðir. Ekki er hægt að breyta kortlagningu í handrit (native). Kortlagning er hægt að framkvæma eins mikið og mögulegt er á upprunanum (heimild) eða algjörlega á upprunanum (fullur). Einnig er hægt að breyta kortlagningu í Hadoop handrit (engin).

Pushdown hagræðing

Hægt er að sameina upptaldar 4 gerðir á mismunandi vegu - til að hámarka niðurfærslu fyrir sérstakar þarfir kerfisins. Til dæmis er oft heppilegra að sækja gögn úr gagnagrunni með eigin getu. Og til að umbreyta gögnunum - af krafti Hadoop, þannig að gagnagrunnurinn sjálfur sé ekki ofhlaðinn.

Við skulum íhuga málið þegar bæði uppspretta og áfangastaður eru í gagnagrunninum og hægt er að velja vettvang til að framkvæma umbreytingarnar: það fer eftir stillingum, það verður Informatica, gagnagrunnsþjónninn eða Hadoop. Slíkt dæmi mun nákvæmlega skilja tæknilegu hliðina á rekstri þessa vélbúnaðar. Auðvitað, í raunveruleikanum, kemur þetta ástand ekki upp, en það hentar best til að sýna fram á virknina.

Við skulum taka kortlagningu til að lesa tvær töflur í einum Oracle gagnagrunni. Og láttu lesniðurstöðurnar skrifast á töflu í sama gagnagrunni. Kortakerfið verður svona:

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Í formi kortlagningar á Informatica BDM 10.2.1 lítur það svona út:

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

pushdown tegund - innfæddur

Ef við veljum innbyggða gerð pushdown, þá verður kortlagningin framkvæmd á Informatica netþjóninum. Gögnin verða lesin af Oracle þjóninum, flutt á Informatica þjóninn, umbreytt þar og flutt yfir á Hadoop. Með öðrum orðum, við munum fá eðlilegt ETL ferli.

tegund pushdown-source

Þegar þú velur upprunategundina fáum við tækifæri til að dreifa ferlinu okkar á milli gagnagrunnsþjónsins (DB) og Hadoop. Þegar ferlið er keyrt með þessari stillingu verða fyrirspurnir sendar í gagnagrunninn til að sækja gögn úr töflum. Og restin verður gerð sem skref á Hadoop.
Framkvæmdarkerfið mun líta svona út:

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Hér að neðan er dæmi um uppsetningu á keyrsluumhverfi.

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Í þessu tilviki verður kortlagningin framkvæmd í tveimur skrefum. Í stillingum þess munum við sjá að það hefur breyst í handrit sem verður sent til upprunans. Ennfremur verður sameining taflna og gagnaumbreyting framkvæmd í formi hnekktrar fyrirspurnar við upprunann.
Á myndinni hér að neðan sjáum við fínstilltu kortlagningu á BDM og endurskilgreinda fyrirspurn á upprunanum.

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Hlutverk Hadoop í þessari uppsetningu mun minnka til að stjórna gagnaflæði - skipuleggja þau. Niðurstaða fyrirspurnarinnar verður send til Hadoop. Eftir að lestrinum er lokið verður skráin frá Hadoop skrifuð á viðtakandann.

pushdown tegund - fullt

Þegar þú velur alla gerð breytist kortlagningin algjörlega í gagnagrunnsfyrirspurn. Og niðurstaða fyrirspurnarinnar verður send til Hadoop. Skýringarmynd af slíku ferli er sýnd hér að neðan.

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Dæmi um uppsetningu er sýnt hér að neðan.

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Fyrir vikið munum við fá fínstillt kortlagning svipað þeirri fyrri. Eini munurinn er sá að öll rökfræðin er flutt til viðtakandans í formi endurskilgreiningar á innsetningu hennar. Dæmi um fínstillt kortlagning er sýnt hér að neðan.

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Hér, eins og í fyrra tilvikinu, fer Hadoop með hlutverk hljómsveitarstjóra. En hér er heimildin lesin í heild sinni og síðan er gagnavinnslurökfræðin keyrð á móttakarastigi.

pushdown gerð er núll

Jæja, síðasti valmöguleikinn er pushdown gerð, þar sem kortlagning okkar mun breytast í Hadoop handrit.

Bjartsýni kortlagning mun nú líta svona út:

Hvernig á að flytja, hlaða upp og samþætta mjög stór gögn á ódýran og fljótlegan hátt? Hvað er fínstilling fyrir niðurhalsaðgerðir?

Hér verða gögnin úr frumskránum fyrst lesin af Hadoop. Síðan verða þessar tvær skrár sameinaðar á eigin vegum. Eftir það verður gögnunum breytt og hlaðið upp í gagnagrunninn.

Með því að skilja meginreglurnar um fínstillingu niðurhals geturðu skipulagt mörg ferli við að vinna með stór gögn á mjög áhrifaríkan hátt. Svo nýlega losaði eitt stórt fyrirtæki stór gögn úr geymslu inn í Hadoop á örfáum vikum, sem áður hafði verið safnað í nokkur ár.

Heimild: www.habr.com

Bæta við athugasemd