Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Her operasyonek daneya mezin gelek hêza hesabkirinê hewce dike. Veguheztina gelemperî ya daneyan ji databasê berbi Hadoop dikare hefteyan bigire an jî bi qasî baskê balafirê biha bibe. Ma hûn naxwazin li bendê bimînin û drav xerc bikin? Barê li ser platformên cihêreng hevseng bikin. Yek rê optimîzasyona pushdown e.

Min ji perwerdekarê pêşeng ê Rûsyayê ji bo pêşkeftin û rêveberiya hilberên Informatica, Alexey Ananyev, pirsî ku li ser fonksiyona xweşbîniya pushdown di Rêveberiya Daneyên Mezin a Informatica (BDM) de biaxive. Ma hûn qet fêr bûne ku bi hilberên Informatica re bixebitin? Bi îhtîmalek mezin, ew Alexey bû ku ji we re bingehên PowerCenter-ê got û rave kir ka meriv çawa nexşeyan ava dike.

Alexey Ananyev, serokê perwerdehiyê li Koma DIS

pushdown çi ye?

Gelek ji we berê bi Rêveberiya Daneyên Mezin a Informatica (BDM) nas dikin. Hilber dikare daneyên mezin ji çavkaniyên cihêreng yek bike, wê di navbera pergalên cihêreng de biguhezîne, gihîştina wê hêsan peyda dike, destûrê dide we ku hûn wê profîl bikin, û hêj bêtir.
Di destên rast de, BDM dikare ecêban bixebite: peywir dê zû û bi çavkaniyên jimartina hindiktirîn bêne qedandin.

Ma hûn jî wiya dixwazin? Fêr bibin ku hûn taybetmendiya pushdown-ê di BDM-ê de bikar bînin da ku barkirina hesabkirinê li ser platformên cihêreng belav bikin. Teknolojiya Pushdown dihêle hûn nexşeyê veguherînin skrîptekê û hawîrdora ku dê ev skrîpt tê de bixebite hilbijêrin. Ev bijare dihêle hûn hêza platformên cihêreng tevbigerin û performansa wan ya herî zêde bi dest bixin.

Ji bo mîhengkirina hawîrdora darvekirina skrîptê, hûn hewce ne ku celebê pushdown hilbijêrin. Nivîsar dikare bi tevahî li ser Hadoop-ê were xebitandin an jî bi qismî di navbera çavkanî û lavavê de were belavkirin. 4 cureyên îhtîmala dakêşanê hene. Ne hewce ye ku nexşe bibe senaryoyek (xwecihî). Nexşekirin bi qasî ku gengaz dibe li ser çavkaniyê (çavkanî) an jî bi tevahî li ser çavkaniyê (tijî) dikare were kirin. Nexşekirin di heman demê de dikare bibe skrîptek Hadoop (tune).

Optimîzasyona Pushdown

4 celebên navnîşkirî dikarin bi awayên cihêreng werin berhev kirin - pushdown dikare ji bo hewcedariyên taybetî yên pergalê xweşbîn bibe. Mînakî, pir caran guncantir e ku meriv daneyan ji databasek bi karanîna kapasîteyên xwe derxîne. Û dane dê bi karanîna Hadoop-ê werin veguheztin, da ku databasê bixwe zêde nebin.

Ka em rewşê bihesibînin dema ku hem çavkanî û hem jî mebest di databasê de ne, û platforma pêkanîna veguherînê dikare were hilbijartin: li gorî mîhengan, ew ê Informatica, serverek databasê, an Hadoop be. Mînakek wusa dê bihêle ku hûn herî rast ji hêla teknîkî ya xebata vê mekanîzmayê fam bikin. Bi xwezayî, di jiyana rast de, ev rewş çênabe, lê ew ji bo xwenîşandana fonksiyonê çêtirîn e.

Ka em nexşeyê bigirin da ku du tabloyên di yek databasa Oracle de bixwînin. Û bila encamên xwendinê di tabloyek di heman databasê de bêne tomar kirin. Plana nexşeyê dê bi vî rengî be:

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Di forma nexşeyê de li ser Informatica BDM 10.2.1 wiha xuya dike:

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Cureyê Pushdown - xwecî

Ger em celebê xwemalî pushdown hilbijêrin, wê hingê nexşe dê li ser servera Informatica were kirin. Dê dane ji servera Oracle were xwendin, ji servera Informatica re were veguheztin, li wir were veguheztin û ji Hadoop re were veguheztin. Bi gotinên din, em ê pêvajoyek ETL ya normal bistînin.

Cureyê Pushdown - çavkanî

Dema ku celebê çavkaniyê hilbijêrin, em fersendê digirin ku pêvajoya xwe di navbera servera databasê (DB) û Hadoop de belav bikin. Dema ku pêvajoyek bi vê mîhengê tê meşandin, dê daxwazên ji bo wergirtina daneyan ji tabloyan ji databasê re were şandin. Û yên mayî dê di forma gavên li ser Hadoop de bêne kirin.
Diagrama darvekirinê dê bi vî rengî xuya bike:

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Li jêr mînakek sazkirina hawîrdora xebitandinê ye.

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Di vê rewşê de, nexşe dê di du gavan de were kirin. Di mîhengên wê de em ê bibînin ku ew veguheriye skrîptek ku dê ji çavkaniyê re were şandin. Digel vê yekê, berhevkirina tabloyan û veguheztina daneyan dê di forma lêpirsînek sergirtî de li ser çavkaniyê were kirin.
Di wêneya jêrîn de, em li ser BDM nexşeyek xweşbînkirî, û li ser çavkaniyê pirsek nûvekirî dibînin.

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Rola Hadoop di vê veavakirinê de dê ji bo birêvebirina herikîna daneyan kêm bibe - orkestrakirina wê. Encama lêpirsînê dê ji Hadoop re were şandin. Piştî ku xwendin qediya, pelê ji Hadoop-ê dê li lavabê were nivîsandin.

Tîpa Pushdown - tije

Dema ku hûn celebek tevahî hilbijêrin, nexşe dê bi tevahî veguhere lêpirsînek databasê. Û encama daxwazê ​​dê ji Hadoop re were şandin. Diagramek pêvajoyek weha li jêr tê pêşkêş kirin.

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Mînakek sazkirinê li jêr tê nîşandan.

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Wekî encamek, em ê nexşeyek xweşbînkirî ya mîna ya berê bistînin. Cûdahiya tenê ev e ku hemî mantiq di forma servekirina têketina wê de ji wergirê re tê veguheztin. Nimûneyek nexşeya xweşbînkirî li jêr tê pêşkêş kirin.

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Li vir, wekî ku di doza berê de, Hadoop rola rêvebir dilîze. Lê li vir çavkanî bi tevahî tê xwendin, û dûv re mentiqê hilberandina daneyê di asta wergir de tête kirin.

Cureyê Pushdown null e

Welê, vebijarka paşîn celebê pushdown e, ku di hundurê wê de nexşeya me dê bibe skrîptek Hadoop.

Nexşeya xweşbînkirî dê nuha bi vî rengî xuya bike:

Meriv çawa daneyên pir mezin bi erzan û zû veguhezîne, barkirin û entegre bike? Optimîzasyona pushdown çi ye?

Li vir daneyên pelên çavkaniyê dê pêşî li ser Hadoop werin xwendin. Dûv re, bi karanîna îmkanên xwe, ev her du pel dê werin berhev kirin. Piştî vê yekê, dane dê bêne veguheztin û li databasê werin barkirin.

Bi têgihiştina prensîbên xweşbîniya pushdown, hûn dikarin ji bo xebata bi daneyên mezin re gelek pêvajoyên pir bi bandor organîze bikin. Bi vî rengî, di van demên dawî de, pargîdaniyek mezin, tenê di çend hefteyan de, daneyên mezin ji hilanînê dakêşand Hadoop, ku berê çend salan berhev kiribû.

Source: www.habr.com

Add a comment