Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Fyrir nokkru síðan stóðum við frammi fyrir þeirri spurningu að velja ETL tól til að vinna með Big Data. Áður notuð Informatica BDM lausn hentaði okkur ekki vegna takmarkaðrar virkni. Notkun þess hefur verið minnkað í ramma til að hefja neistasendingarskipanir. Það voru ekki margar hliðstæður á markaðnum sem voru í grundvallaratriðum færar um að vinna með gagnamagnið sem við fáum á hverjum degi. Á endanum völdum við Ab Initio. Í tilraunasýningum sýndi varan mjög mikinn gagnavinnsluhraða. Það eru nánast engar upplýsingar um Ab Initio á rússnesku, svo við ákváðum að tala um reynslu okkar á Habré.

Ab Initio hefur margar klassískar og óvenjulegar umbreytingar, sem hægt er að útvíkka kóðann með því að nota sitt eigið PDL tungumál. Fyrir lítið fyrirtæki mun svo öflugt tól líklega vera of mikið og flestir möguleikar þess geta verið dýrir og ónotaðir. En ef mælikvarðinn þinn er nálægt Sberov, þá gæti Ab Initio verið áhugaverður fyrir þig.

Он помогает бизнесу глобально копить знания и развивать экосистему, а разработчику — прокачивать свои навыки в ETL, подтягивать знания в shell, предоставляет возможность освоения языка PDL, даёт визуальную картину процессов загрузки, упрощает разработку благодаря обилию функциональных компонентов.

Í þessari færslu mun ég tala um getu Ab Initio og veita samanburðareinkenni vinnu þess með Hive og GreenPlum.

  • Lýsing á MDW ramma og vinnu við aðlögun þess fyrir GreenPlum
  • Ab Initio árangurssamanburður á milli Hive og GreenPlum
  • Vinna Ab Initio með GreenPlum í næstum rauntíma ham


Virkni þessarar vöru er mjög víðtæk og þarf mikinn tíma til að læra. Hins vegar, með réttri vinnufærni og réttum frammistöðustillingum, er árangur gagnavinnslu mjög áhrifamikill. Notkun Ab Initio fyrir þróunaraðila getur veitt áhugaverða upplifun. Þetta er ný útgáfa af ETL þróun, blendingur á milli sjónræns umhverfis og niðurhalsþróunar á handritslíku tungumáli.

Fyrirtæki eru að þróa vistkerfi sín og þetta tól kemur sér betur en nokkru sinni fyrr. Með Ab Initio geturðu safnað þekkingu um núverandi fyrirtæki þitt og notað þessa þekkingu til að auka gömul og opna ný fyrirtæki. Valkostir við Ab Initio eru meðal annars sjónræn þróunarumhverfi Informatica BDM og ósjónræn þróunarumhverfi Apache Spark.

Lýsing á Ab Initio

Ab Initio, eins og önnur ETL verkfæri, er safn af vörum.

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Ab Initio GDE (Graphical Development Environment) er umhverfi fyrir þróunaraðila þar sem hann stillir gagnabreytingar og tengir þær við gagnaflæði í formi örva. Í þessu tilviki er slíkt safn umbreytinga kallað línurit:

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Inntaks- og úttakstengingar virkra íhluta eru höfn og innihalda reiti sem reiknaðir eru innan umbreytinga. Nokkur línurit sem tengd eru saman með flæði í formi örva í röð þeirra eru kölluð áætlun.

Það eru nokkur hundruð hagnýtir íhlutir, sem er mikið. Margir þeirra eru mjög sérhæfðir. Geta klassískra umbreytinga í Ab Initio er víðtækari en í öðrum ETL verkfærum. Til dæmis, Join hefur margar úttak. Til viðbótar við niðurstöðuna af því að tengja gagnasöfn er hægt að fá úttaksskrár yfir inntaksgagnasöfn sem ekki var hægt að tengja lyklana á. Einnig er hægt að fá höfnun, villur og skrá yfir umbreytingaraðgerðina, sem hægt er að lesa í sama dálki og textaskrá og vinna með öðrum umbreytingum:

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Eða, til dæmis, þú getur búið til gagnamóttakara í formi töflu og lesið gögn úr honum í sama dálki.

Það eru upprunalegar umbreytingar. Til dæmis hefur Scan umbreytingin virkni svipað og greiningaraðgerðir. Það eru umbreytingar með sjálfskýrandi nöfnum: Búa til gögn, lesa Excel, Normalize, Raða innan hópa, Keyra forrit, Keyra SQL, Join with DB, osfrv. Gröf geta notað keyrslutímabreytur, þar á meðal möguleika á að senda færibreytur frá eða til stýrikerfið. Skrár með tilbúnu setti af færibreytum sem sendar eru á línuritið eru kallaðar færibreytusett (psets).

Eins og búist var við hefur Ab Initio GDE sína eigin geymslu sem heitir EME (Enterprise Meta Environment). Hönnuðir hafa tækifæri til að vinna með staðbundnar útgáfur af kóða og athuga þróun þeirra í miðlægu geymslunni.

Það er mögulegt, meðan á framkvæmd eða eftir að grafið er keyrt, að smella á hvaða flæði sem tengir umbreytinguna og skoða gögnin sem fóru á milli þessara umbreytinga:

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Также есть возможность кликнуть по любому потоку и посмотреть tracking details – в сколько параллелей работала трансформация, сколько строк и байт в какой из параллелей загрузилось:

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Hægt er að skipta framkvæmd grafsins í fasa og merkja við að framkvæma þurfi einhverjar umbreytingar fyrst (í núllfasa), næstu í fyrsta áfanga, næstu í öðrum áfanga o.s.frv.

Fyrir hverja umbreytingu geturðu valið svokallaða útlit (þar sem það verður framkvæmt): án hliðstæður eða samhliða þræði, þar sem hægt er að tilgreina fjölda þeirra. Á sama tíma er hægt að setja tímabundnar skrár sem Ab Initio býr til þegar umbreytingar eru í gangi bæði í skráarkerfi miðlarans og í HDFS.

Í hverri umbreytingu, byggt á sjálfgefna sniðmátinu, geturðu búið til þitt eigið handrit í PDL, sem er svolítið eins og skel.

Með PDL geturðu framlengt virkni umbreytinga og sérstaklega geturðu framleitt handahófskenndar kóðabúta á virkan hátt (á keyrslutíma) eftir keyrslubreytum.

Ab Initio hefur einnig vel þróaða samþættingu við stýrikerfið í gegnum skel. Nánar tiltekið, Sberbank notar linux ksh. Þú getur skipt um breytur með skelinni og notað þær sem línuritsbreytur. Þú getur hringt í framkvæmd Ab Initio línurit úr skelinni og gefið Ab Initio.

Auk Ab Initio GDE eru margar aðrar vörur innifaldar í afhendingu. Það er til þess eigið samstarfskerfi með tilkalli til að vera kallað stýrikerfi. Það er Control> Center þar sem þú getur tímasett og fylgst með niðurhalsflæði. Það eru vörur til að gera þróun á frumstæðara stigi en Ab Initio GDE leyfir.

Lýsing á MDW ramma og vinnu við aðlögun þess fyrir GreenPlum

Ásamt vörum sínum útvegar söluaðilinn MDW (Metadata Driven Warehouse) vöruna, sem er grafstillingar sem er hannaður til að hjálpa við dæmigerð verkefni við að fylla gagnageymslur eða gagnageymslur.

Það inniheldur sérsniðna (verkefnissértæka) lýsigagnaþjálfara og tilbúna kóðaframleiðendur úr kassanum.

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum
Sem inntak fær MDW gagnalíkan, stillingarskrá til að setja upp tengingu við gagnagrunn (Oracle, Teradata eða Hive) og nokkrar aðrar stillingar. Verkefnasértæki hlutinn, til dæmis, setur líkanið í gagnagrunn. Hluti vörunnar sem er útúr kassanum býr til línurit og stillingarskrár fyrir þær með því að hlaða gögnum inn í líkanatöflur. Í þessu tilviki eru línurit (og stillimyndir) búin til fyrir nokkrar aðferðir við frumstillingu og stigvaxandi vinnu við að uppfæra einingar.

Í tilfellum Hive og RDBMS eru mismunandi línurit búin til fyrir frumstillingu og stigvaxandi gagnauppfærslur.

Þegar um Hive er að ræða eru komandi delta gögn tengd í gegnum Ab Initio Join við gögnin sem voru í töflunni fyrir uppfærsluna. Gagnahleðslutæki í MDW (bæði í Hive og RDBMS) setja ekki aðeins inn ný gögn frá delta, heldur loka einnig þeim tímabilum sem skipta máli fyrir gögnin þar sem aðallyklar fengu delta. Að auki þarftu að endurskrifa óbreyttan hluta gagnanna. En þetta verður að gera vegna þess að Hive er ekki með eyðingu eða uppfærsluaðgerðir.

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Þegar um RDBMS er að ræða líta línurit fyrir stigvaxandi gagnauppfærslu ákjósanlegri út, vegna þess að RDBMS hefur raunverulegan uppfærslumöguleika.

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Móttekið delta er hlaðið inn í millitöflu í gagnagrunninum. Eftir þetta er delta tengt við gögnin sem voru í töflunni fyrir uppfærsluna. Og þetta er gert með því að nota SQL með því að nota myndaða SQL fyrirspurn. Næst, með því að nota SQL skipanirnar delete+sert, eru ný gögn úr deltanum sett inn í marktöfluna og þeim tímabilum sem skipta máli fyrir gögnin þar sem aðallyklar fengu delta er lokað.
Það er engin þörf á að endurskrifa óbreytt gögn.

Þannig að við komumst að þeirri niðurstöðu að þegar um Hive er að ræða, þá þarf MDW að fara að endurskrifa alla töfluna vegna þess að Hive er ekki með uppfærsluaðgerð. Og ekkert betra en að endurskrifa gögnin algjörlega þegar uppfærsla hefur verið fundin upp. Þegar um RDBMS er að ræða, þvert á móti, fannst höfundum vörunnar nauðsynlegt að fela tengingu og uppfærslu á töflum til notkunar SQL.

Fyrir verkefni hjá Sberbank bjuggum við til nýja, endurnýtanlega útfærslu á gagnagrunnshleðslutæki fyrir GreenPlum. Þetta var gert út frá útgáfunni sem MDW býr til fyrir Teradata. Það var Teradata, en ekki Oracle, sem kom næst og best fyrir þetta, því... er líka MPP kerfi. Vinnuaðferðir, sem og setningafræði, Teradata og GreenPlum reyndust vera svipuð.

Dæmi um mikilvægan mun á MDW milli mismunandi RDBMS eru sem hér segir. Í GreenPlum, ólíkt Teradata, þegar þú býrð til töflur þarftu að skrifa ákvæði

distributed by

Teradata skrifar:

delete <table> all

, og í GreenPlum skrifa þeir

delete from <table>

Í Oracle, í hagræðingarskyni, skrifa þeir

delete from t where rowid in (<соединение t с дельтой>)

, og Teradata og GreenPlum skrifa

delete from t where exists (select * from delta where delta.pk=t.pk)

Við athugum líka að til að Ab Initio gæti unnið með GreenPlum var nauðsynlegt að setja upp GreenPlum biðlarann ​​á öllum hnútum Ab Initio klasans. Þetta er vegna þess að við tengdumst GreenPlum samtímis frá öllum hnútum í klasanum okkar. Og til þess að lestur frá GreenPlum væri samhliða og hver samhliða Ab Initio þráður gæti lesið sinn hluta af gögnum frá GreenPlum, urðum við að setja byggingu sem Ab Initio skildi í „hvar“ hluta SQL fyrirspurna

where ABLOCAL()

og ákvarða gildi þessarar smíði með því að tilgreina færibreytulesningu úr umbreytingargagnagrunninum

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, sem samanstendur af einhverju eins og

mod(sk,10)=3

, þ.e. þú verður að biðja GreenPlum um skýra síu fyrir hverja skiptingu. Fyrir aðra gagnagrunna (Teradata, Oracle) getur Ab Initio framkvæmt þessa samsvörun sjálfkrafa.

Ab Initio árangurssamanburður á milli Hive og GreenPlum

Sberbank gerði tilraun til að bera saman frammistöðu MDW-myndaðra grafa í tengslum við Hive og í tengslum við GreenPlum. Sem hluti af tilrauninni, í tilfelli Hive, voru 5 hnútar á sama þyrpingunni og Ab Initio, og í tilfelli GreenPlum voru 4 hnútar á sérstakri þyrpingu. Þeir. Hive hafði nokkra vélbúnaðarforskot á GreenPlum.

Við skoðuðum tvö pör af línuritum sem framkvæma sama verkefni að uppfæra gögn í Hive og GreenPlum. Á sama tíma voru línuritin sem mynduð voru af MDW stillingaranum sett af stað:

  • upphafshleðsla + stigvaxandi hleðsla af handahófskenntum gögnum í Hive töflu
  • upphafshleðsla + stigvaxandi hleðsla af handahófskenntum gögnum í sömu GreenPlum töfluna

Í báðum tilfellum (Hive og GreenPlum) keyrðu þeir upphleðslur á 10 samhliða þræði á sama Ab Initio þyrpingunni. Ab Initio vistaði millistigsgögn fyrir útreikninga í HDFS (hvað varðar Ab Initio var MFS skipulag með HDFS notað). Ein lína af handahófskenntum gögnum tók 200 bæti í báðum tilfellum.

Niðurstaðan var svona:

Býflugnabú:

Upphafleg hleðsla í Hive

Raðir settar inn
+6 000 000 XNUMX
+60 000 000 XNUMX
+600 000 000 XNUMX

Tímalengd frumstillingar
niðurhal á nokkrum sekúndum
41
203
1 601

Stigvaxandi hleðsla í Hive

Fjöldi raða í boði í
marktöflu í upphafi tilraunarinnar
+6 000 000 XNUMX
+60 000 000 XNUMX
+600 000 000 XNUMX

Fjöldi deltalína sem beitt er á
marktöflu meðan á tilrauninni stendur
+6 000 000 XNUMX
+6 000 000 XNUMX
+6 000 000 XNUMX

Lengd stigvaxandi
niðurhal á nokkrum sekúndum
88
299
2 541

GreenPlum:

Upphafleg hleðsla í GreenPlum

Raðir settar inn
+6 000 000 XNUMX
+60 000 000 XNUMX
+600 000 000 XNUMX

Tímalengd frumstillingar
niðurhal á nokkrum sekúndum
72
360
3 631

Stigvaxandi hleðsla í GreenPlum

Fjöldi raða í boði í
marktöflu í upphafi tilraunarinnar
+6 000 000 XNUMX
+60 000 000 XNUMX
+600 000 000 XNUMX

Fjöldi deltalína sem beitt er á
marktöflu meðan á tilrauninni stendur
+6 000 000 XNUMX
+6 000 000 XNUMX
+6 000 000 XNUMX

Lengd stigvaxandi
niðurhal á nokkrum sekúndum
159
199
321

Við sjáum að hraði upphafshleðslu bæði í Hive og GreenPlum fer línulega eftir gagnamagni og vegna betri vélbúnaðar er hann aðeins hraðari fyrir Hive en fyrir GreenPlum.

Stigvaxandi hleðsla í Hive fer einnig línulega eftir magni áður hlaðna gagna sem eru tiltæk í marktöflunni og gengur frekar hægt eftir því sem rúmmálið stækkar. Þetta stafar af þörfinni á að endurskrifa marktöfluna alveg. Þetta þýðir að það að beita litlum breytingum á risastór töflur er ekki góð notkunartilvik fyrir Hive.

Stigvaxandi hleðsla í GreenPlum fer lítillega eftir magni áður hlaðna gagna sem eru tiltæk í marktöflunni og gengur nokkuð hratt. Þetta gerðist þökk sé SQL Joins og GreenPlum arkitektúrnum, sem gerir eyðingaraðgerðinni kleift.

Svo, GreenPlum bætir við deltanu með því að nota delete+sert aðferðina, en Hive er ekki með eyðingar- eða uppfærsluaðgerðir, þannig að allt gagnafylkin neyddist til að vera endurskrifuð algjörlega meðan á stigvaxandi uppfærslu stóð. Samanburðurinn á hólfunum sem eru auðkenndar feitletraðar er afhjúpandi þar sem hann samsvarar algengasta valmöguleikanum til að nota auðlindafrekt niðurhal. Við sjáum að GreenPlum vann Hive í þessu prófi 8 sinnum.

Vinna Ab Initio með GreenPlum í næstum rauntíma ham

Í þessari tilraun munum við prófa getu Ab Initio til að uppfæra GreenPlum töfluna með handahófskenndum gögnum í næstum rauntíma. Við skulum íhuga GreenPlum töfluna dev42_1_db_usl.TESTING_SUBJ_org_finval, sem við munum vinna með.

Við munum nota þrjú Ab Initio línurit til að vinna með það:

1) Graf Create_test_data.mp – býr til gagnaskrár í HDFS með 10 línum í 6 samhliða þræði. Gögnin eru af handahófi, uppbygging þeirra er skipulögð til að setja inn í töfluna okkar

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

2) Grafið mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW búið til línurit með því að frumstilla innsetningu gagna í töfluna okkar í 10 samhliða þráðum (prófunargögn sem mynduð eru af línuriti (1) eru notuð)

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

3) Línurit mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – línurit búið til af MDW fyrir stigvaxandi uppfærslu á töflunni okkar í 10 samhliða þráðum með því að nota hluta af nýmótteknum gögnum (delta) sem myndast af línuriti (1)

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum

Við skulum keyra handritið hér að neðan í NRT ham:

  • сгенерировать 6 000 000 тестовых строк
  • framkvæma upphafshleðslu settu 6 prófunarlínur inn í tóma töflu
  • endurtaktu stigvaxandi niðurhal 5 sinnum
    • сгенерировать 6 000 000 тестовых строк
    • framkvæma stigvaxandi innskot af 6 prófunarlínum í töfluna (í þessu tilfelli er valid_to_ts fyrningartíminn stilltur á gömlu gögnin og nýlegri gögn með sama aðallykil eru sett inn)

Þessi atburðarás líkir eftir raunverulegum rekstri ákveðins viðskiptakerfis - nokkuð stór hluti nýrra gagna birtist í rauntíma og er strax hellt í GreenPlum.

Nú skulum við líta á log handritsins:

Byrjaðu Create_test_data.input.pset á 2020-06-04 11:49:11
Ljúktu Create_test_data.input.pset á 2020-06-04 11:49:37
Byrjaðu mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:49:37
Ljúktu mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:50:42
Byrjaðu Create_test_data.input.pset á 2020-06-04 11:50:42
Ljúktu Create_test_data.input.pset á 2020-06-04 11:51:06
Byrjaðu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:51:06
Ljúktu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:53:41
Byrjaðu Create_test_data.input.pset á 2020-06-04 11:53:41
Ljúktu Create_test_data.input.pset á 2020-06-04 11:54:04
Byrjaðu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:54:04
Ljúktu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:56:51
Byrjaðu Create_test_data.input.pset á 2020-06-04 11:56:51
Ljúktu Create_test_data.input.pset á 2020-06-04 11:57:14
Byrjaðu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:57:14
Ljúktu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 11:59:55
Byrjaðu Create_test_data.input.pset á 2020-06-04 11:59:55
Ljúktu Create_test_data.input.pset á 2020-06-04 12:00:23
Byrjaðu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 12:00:23
Ljúktu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 12:03:23
Byrjaðu Create_test_data.input.pset á 2020-06-04 12:03:23
Ljúktu Create_test_data.input.pset á 2020-06-04 12:03:49
Byrjaðu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 12:03:49
Ljúktu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset á 2020-06-04 12:06:46

Það kemur í ljós þessi mynd:

Línurit
Byrja tíma
Klára tíma
Lengd

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Við sjáum að 6 stigalínur eru unnar á 000 mínútum, sem er frekar hratt.
Данные в целевой таблице получились распределёнными следующим образом:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Þegar þú ert með Sber vog. Notkun Ab Initio með Hive og GreenPlum
Þú getur séð samsvörun innsettra gagna við þau skipti sem línuritin voru sett af stað.
Þetta þýðir að þú getur keyrt stigvaxandi hleðslu á gögnum í GreenPlum í Ab Initio með mjög mikilli tíðni og fylgst með miklum hraða við að setja þessi gögn inn í GreenPlum. Auðvitað verður ekki hægt að ræsa einu sinni á sekúndu þar sem Ab Initio, eins og öll ETL tól, þarf tíma til að „ræsa“ þegar það er ræst.

Ályktun

Ab Initio er nú notað hjá Sberbank til að byggja upp sameinað merkingarfræðilegt gagnalag (ESS). Þetta verkefni felur í sér að byggja upp sameinaða útgáfu af ástandi ýmissa bankaviðskiptaeininga. Upplýsingar koma úr ýmsum áttum, eftirlíkingar þeirra eru unnar á Hadoop. Út frá viðskiptaþörfum er útbúið gagnalíkan og gagnaumbreytingum lýst. Ab Initio hleður upplýsingum inn í ESN og niðurhalað gögn eru ekki aðeins áhugaverð fyrir fyrirtækið í sjálfu sér, heldur þjónar hún einnig sem uppspretta fyrir uppbyggingu gagnamars. Á sama tíma gerir virkni vörunnar þér kleift að nota ýmis kerfi sem móttakara (Hive, Greenplum, Teradata, Oracle), sem gerir það mögulegt að undirbúa gögn á einfaldan hátt fyrir fyrirtæki á hinum ýmsu sniðum sem það þarfnast.

Geta Ab Initio er víðtæk; til dæmis gerir meðfylgjandi MDW ramma það mögulegt að byggja tæknileg og viðskiptasöguleg gögn upp úr kassanum. Fyrir hönnuði gerir Ab Initio það mögulegt að finna ekki upp hjólið aftur, heldur að nota marga núverandi hagnýta íhluti, sem eru í meginatriðum bókasöfn sem þarf þegar unnið er með gögn.

Höfundur er sérfræðingur í fagsamfélagi Sberbank SberProfi DWH/BigData. SberProfi DWH/BigData fagsamfélagið ber ábyrgð á að þróa hæfni á sviðum eins og Hadoop vistkerfinu, Teradata, Oracle DB, GreenPlum, sem og BI tólum Qlik, SAP BO, Tableau o.fl.

Heimild: www.habr.com

Bæta við athugasemd