Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Prieš kurį laiką susidūrėme su klausimu, kaip pasirinkti ETL įrankį darbui su Big Data. Anksčiau naudotas Informatica BDM sprendimas mums netiko dėl riboto funkcionalumo. Jo naudojimas buvo sumažintas iki sistemos, skirtos paleisti kibirkštinio pateikimo komandas. Rinkoje nebuvo daug analogų, kurie iš esmės galėtų dirbti su tokiais duomenų kiekiais, su kuriais susiduriame kiekvieną dieną. Galiausiai pasirinkome Ab Initio. Bandomųjų demonstracijų metu produktas parodė labai didelį duomenų apdorojimo greitį. Apie Ab Initio rusų kalba beveik nėra informacijos, todėl nusprendėme pakalbėti apie savo patirtį Habré.

Ab Initio turi daug klasikinių ir neįprastų transformacijų, kurių kodą galima išplėsti naudojant savo PDL kalbą. Mažam verslui toks galingas įrankis greičiausiai bus per didelis, o dauguma jo galimybių gali būti brangūs ir nenaudojami. Bet jei jūsų skalė artima Sberovo skalei, tuomet Ab Initio gali būti jums įdomus.

Tai padeda verslui kaupti žinias pasauliniu mastu ir plėtoti ekosistemą, o kūrėjui – tobulinti ETL įgūdžius, tobulinti žinias apvalkale, suteikia galimybę įvaldyti PDL kalbą, suteikia vizualų vaizdą apie pakrovimo procesus, supaprastina plėtrą. dėl funkcinių komponentų gausos.

Šiame įraše kalbėsiu apie „Ab Initio“ galimybes ir pateiksiu lyginamąsias jos darbo su „Hive“ ir „GreenPlum“ charakteristikas.

  • MDW sistemos aprašymas ir darbas prie jos pritaikymo GreenPlum
  • Ab Initio našumo palyginimas tarp Hive ir GreenPlum
  • Darbas Ab Initio su GreenPlum beveik realiuoju laiku


Šio gaminio funkcionalumas yra labai platus ir reikalauja daug laiko studijuoti. Tačiau turint tinkamus darbo įgūdžius ir tinkamus veiklos parametrus duomenų apdorojimo rezultatai yra labai įspūdingi. „Ab Initio“ naudojimas kūrėjui gali suteikti įdomios patirties. Tai naujas požiūris į ETL kūrimą, vaizdinės aplinkos ir atsisiuntimų kūrimo scenarijų panašia kalba hibridas.

Įmonės plėtoja savo ekosistemas ir ši priemonė praverčia labiau nei bet kada. Su Ab Initio galite kaupti žinias apie savo dabartinį verslą ir panaudoti šias žinias plėsdami senus ir atidarydami naujus verslus. „Ab Initio“ alternatyvos apima vizualinio kūrimo aplinkas „Informatica BDM“ ir nevaizdines kūrimo aplinkas „Apache Spark“.

Ab Initio aprašymas

Ab Initio, kaip ir kiti ETL įrankiai, yra produktų rinkinys.

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Ab Initio GDE (Graphical Development Environment) – tai aplinka kūrėjui, kurioje jis konfigūruoja duomenų transformacijas ir sujungia jas su duomenų srautais rodyklių pavidalu. Šiuo atveju toks transformacijų rinkinys vadinamas grafiku:

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Funkcinių komponentų įvesties ir išvesties jungtys yra prievadai ir juose yra transformacijų metu apskaičiuoti laukai. Keli grafikai, sujungti srautais rodyklių pavidalu jų vykdymo tvarka, vadinami planu.

Yra keli šimtai funkcinių komponentų, o tai yra daug. Daugelis jų yra labai specializuoti. Klasikinių transformacijų galimybės Ab Initio yra platesnės nei kitų ETL įrankių. Pavyzdžiui, prisijungimas turi kelis išėjimus. Be duomenų rinkinių prijungimo rezultato, galite gauti įvesties duomenų rinkinių, kurių raktų nepavyko prijungti, išvesties įrašus. Taip pat galite gauti atmetimus, klaidas ir transformacijos operacijos žurnalą, kurį galima perskaityti tame pačiame stulpelyje kaip tekstinis failas ir apdoroti su kitomis transformacijomis:

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Arba, pavyzdžiui, galite materializuoti duomenų imtuvą lentelės pavidalu ir nuskaityti duomenis iš jo tame pačiame stulpelyje.

Yra originalių transformacijų. Pavyzdžiui, nuskaitymo transformacijos funkcijos yra panašios į analitines funkcijas. Yra transformacijų su savaime suprantamais pavadinimais: kurti duomenis, skaityti Excel, normalizuoti, rūšiuoti grupėse, vykdyti programą, paleisti SQL, prisijungti prie DB ir kt. Grafikai gali naudoti vykdymo laiko parametrus, įskaitant galimybę perduoti parametrus iš arba į operacinė sistema. Failai su paruoštu parametrų rinkiniu, perduodamu į grafiką, vadinami parametrų rinkiniais (psets).

Kaip ir tikėtasi, Ab Initio GDE turi savo saugyklą, pavadintą EME (Enterprise Meta Environment). Kūrėjai turi galimybę dirbti su vietinėmis kodo versijomis ir patikrinti jų plėtrą į centrinę saugyklą.

Vykdant arba paleidus grafiką galima spustelėti bet kurį srautą, jungiantį transformaciją, ir peržiūrėti duomenis, kurie buvo perduoti tarp šių transformacijų:

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Taip pat galima spustelėti bet kurį srautą ir pamatyti sekimo detales – kiek paralelių veikė transformacija, kiek eilučių ir baitų buvo įkelta į kurią iš paralelių:

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Galima suskirstyti grafiko vykdymą į fazes ir pažymėti, kad pirmiausia reikia atlikti kai kurias transformacijas (nulinėje fazėje), kitas – pirmoje fazėje, kitas – antroje fazėje ir t.t.

Kiekvienai transformacijai galima pasirinkti vadinamąjį išdėstymą (kur jis bus vykdomas): be paralelių arba lygiagrečiomis gijomis, kurių skaičių galima nurodyti. Tuo pačiu metu laikinieji failai, kuriuos Ab Initio sukuria, kai vykdomos transformacijos, gali būti patalpinti tiek į serverio failų sistemą, tiek į HDFS.

Kiekvienoje transformacijoje, remiantis numatytuoju šablonu, galite sukurti savo scenarijų PDL, kuris yra šiek tiek panašus į apvalkalą.

Naudodami PDL galite išplėsti transformacijų funkcionalumą ir ypač dinamiškai (vykdymo metu) generuoti savavališkus kodo fragmentus, priklausomai nuo vykdymo parametrų.

„Ab Initio“ taip pat turi gerai išvystytą integraciją su OS per apvalkalą. Tiksliau, „Sberbank“ naudoja „Linux ksh“. Galite keistis kintamaisiais su apvalkalu ir naudoti juos kaip grafiko parametrus. Galite iškviesti Ab Initio grafikų vykdymą iš apvalkalo ir administruoti Ab Initio.

Be Ab Initio GDE, į pristatymą įtraukta ir daug kitų gaminių. Yra atskira bendradarbiavimo sistema su pretenzija vadintis operacine sistema. Yra valdymo > centras, kuriame galite planuoti ir stebėti atsisiuntimų srautus. Yra produktų, skirtų plėtrai primityvesniu lygiu, nei leidžia Ab Initio GDE.

MDW sistemos aprašymas ir darbas prie jos pritaikymo GreenPlum

Kartu su savo produktais pardavėjas tiekia MDW (Metadata Driven Warehouse) produktą, kuris yra grafiko konfigūratorius, skirtas padėti atlikti įprastas duomenų saugyklų ar duomenų saugyklų užpildymo užduotis.

Jame yra pasirinktiniai (konkrečiam projektui) metaduomenų analizatoriai ir paruošti kodų generatoriai.

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum
Kaip įvestį MDW gauna duomenų modelį, konfigūracijos failą ryšiui su duomenų baze (Oracle, Teradata arba Hive) nustatyti ir kai kuriuos kitus nustatymus. Pavyzdžiui, su projektu susijusi dalis diegia modelį duomenų bazėje. Parduodama gaminio dalis, įkeldama duomenis į modelių lenteles, generuoja jiems grafikus ir konfigūracijos failus. Šiuo atveju grafikai (ir psetai) sukuriami keliems inicijavimo ir laipsniško darbo atnaujinimo režimams.

Hive ir RDBMS atvejais generuojami skirtingi grafikai inicijavimui ir laipsniškiems duomenų atnaujinimams.

Hive atveju gaunami delta duomenys yra prijungiami per Ab Initio Join su duomenimis, kurie buvo lentelėje prieš atnaujinimą. Duomenų įkėlimo priemonės MDW (ir Hive, ir RDBMS) ne tik įterpia naujus duomenis iš delta, bet ir uždaro duomenų, kurių pirminiai raktai gavo delta, tinkamumo laikotarpius. Be to, jūs turite perrašyti nepakitusią duomenų dalį. Bet tai turi būti padaryta, nes „Hive“ neturi trynimo ar atnaujinimo operacijų.

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

RDBVS atveju laipsniško duomenų atnaujinimo grafikai atrodo optimaliau, nes RDBVS turi realias atnaujinimo galimybes.

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Gauta delta įkeliama į tarpinę duomenų bazės lentelę. Po to delta prijungiama prie duomenų, kurie buvo lentelėje prieš atnaujinimą. Ir tai daroma naudojant SQL naudojant sugeneruotą SQL užklausą. Toliau, naudojant SQL komandas ištrinti+įterpti, nauji duomenys iš delta įterpiami į tikslinę lentelę ir uždaromi duomenų, kurių pirminiai raktai gavo delta, aktualumo periodai.
Nereikia perrašyti nepakitusių duomenų.

Taigi padarėme išvadą, kad Hive atveju MDW turi eiti perrašyti visą lentelę, nes Hive neturi atnaujinimo funkcijos. Ir nieko geriau nei visiškai perrašyti duomenis, kai buvo išrastas atnaujinimas. Priešingai, RDBVS atveju produkto kūrėjai suprato, kad lentelių prijungimą ir atnaujinimą reikia patikėti naudoti SQL.

„Sberbank“ projektui sukūrėme naują, daugkartinį „GreenPlum“ duomenų bazių įkroviklio diegimą. Tai buvo padaryta remiantis versija, kurią MDW sukuria „Teradata“. Arčiausiai ir geriausiai tam priartėjo „Teradata“, o ne „Oracle“, nes... taip pat yra MPP sistema. „Teradata“ ir „GreenPlum“ darbo metodai ir sintaksė pasirodė panašūs.

MDW kritinių skirtumų tarp skirtingų RDBVS pavyzdžiai yra tokie. GreenPlum, skirtingai nei Teradata, kuriant lenteles reikia parašyti sąlygą

distributed by

Teradata rašo:

delete <table> all

, o GreenPlum jie rašo

delete from <table>

„Oracle“ optimizavimo tikslais jie rašo

delete from t where rowid in (<соединение t с дельтой>)

, o Teradata ir GreenPlum rašo

delete from t where exists (select * from delta where delta.pk=t.pk)

Taip pat pažymime, kad norint, kad „Ab Initio“ veiktų su „GreenPlum“, visuose „Ab Initio“ klasterio mazguose reikėjo įdiegti „GreenPlum“ klientą. Taip yra todėl, kad prie GreenPlum prisijungėme vienu metu iš visų mūsų klasterio mazgų. Ir kad skaitymas iš GreenPlum būtų lygiagretus ir kiekviena lygiagreti Ab Initio gija nuskaitytų savo duomenų dalį iš GreenPlum, turėjome įdėti Ab Initio suprantamą konstrukciją į SQL užklausų skyrių "kur".

where ABLOCAL()

ir nustatyti šios konstrukcijos reikšmę, nurodydami parametrų skaitymą iš transformacijų duomenų bazės

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, kuri kompiliuoja į kažką panašaus

mod(sk,10)=3

, t.y. turite paraginti GreenPlum su aišku filtru kiekvienam skaidiniui. Kitoms duomenų bazėms (Teradata, Oracle) Ab Initio gali atlikti šį lygiagretavimą automatiškai.

Ab Initio našumo palyginimas tarp Hive ir GreenPlum

„Sberbank“ atliko eksperimentą, kad palygintų MDW sugeneruotų grafikų našumą „Hive“ ir „GreenPlum“ atžvilgiu. Kaip eksperimento dalis, Hive atveju buvo 5 mazgai tame pačiame klasteryje kaip Ab Initio, o GreenPlum atveju atskirame klasteryje buvo 4 mazgai. Tie. Hive turėjo tam tikrą techninės įrangos pranašumą prieš GreenPlum.

Mes apsvarstėme dvi grafikų poras, atliekančias tą pačią užduotį atnaujinti duomenis Hive ir GreenPlum. Tuo pačiu metu buvo paleisti MDW konfigūratoriaus sugeneruoti grafikai:

  • pradinė apkrova + laipsniškas atsitiktinai sugeneruotų duomenų įkėlimas į Hive lentelę
  • pradinė apkrova + laipsniškas atsitiktinai sugeneruotų duomenų įkėlimas į tą pačią GreenPlum lentelę

Abiem atvejais (Hive ir GreenPlum) jie vykdė įkėlimus į 10 lygiagrečių gijų toje pačioje Ab Initio klasteryje. Ab Initio išsaugojo tarpinius duomenis skaičiavimams HDFS (kalbant apie Ab Initio, buvo naudojamas MFS išdėstymas naudojant HDFS). Abiem atvejais viena atsitiktinai sugeneruotų duomenų eilutė užėmė 200 baitų.

Rezultatas buvo toks:

Avilys:

Pradinis pakrovimas avilyje

Įterptos eilutės
6 000 000
60 000 000
600 000 000

Inicijuojimo trukmė
atsisiunčiama per kelias sekundes
41
203
1 601

Laipsniškas apkrovimas avilyje

Galimų eilučių skaičius
tikslo lentelė eksperimento pradžioje
6 000 000
60 000 000
600 000 000

Delta linijų skaičius
Tikslinė lentelė eksperimento metu
6 000 000
6 000 000
6 000 000

Prieaugio trukmė
atsisiunčiama per kelias sekundes
88
299
2 541

GreenPlum:

Pradinis pakrovimas GreenPlum

Įterptos eilutės
6 000 000
60 000 000
600 000 000

Inicijuojimo trukmė
atsisiunčiama per kelias sekundes
72
360
3 631

Laipsniškas pakrovimas GreenPlum

Galimų eilučių skaičius
tikslo lentelė eksperimento pradžioje
6 000 000
60 000 000
600 000 000

Delta linijų skaičius
Tikslinė lentelė eksperimento metu
6 000 000
6 000 000
6 000 000

Prieaugio trukmė
atsisiunčiama per kelias sekundes
159
199
321

Matome, kad tiek „Hive“, tiek „GreenPlum“ pradinio įkėlimo greitis tiesiškai priklauso nuo duomenų kiekio ir dėl geresnės techninės įrangos „Hive“ yra šiek tiek greitesnis nei „GreenPlum“.

Laipsniškas įkėlimas „Hive“ taip pat tiesiškai priklauso nuo anksčiau įkeltų duomenų, turimų tikslinėje lentelėje, apimties ir vyksta gana lėtai, kai apimtis auga. Taip yra dėl poreikio visiškai perrašyti tikslinę lentelę. Tai reiškia, kad nedidelių pakeitimų taikymas didžiulėms lentelėms nėra tinkamas „Hive“ naudojimo atvejis.

Laipsniškas GreenPlum įkėlimas silpnai priklauso nuo anksčiau įkeltų duomenų kiekio, turimo tikslinėje lentelėje, ir vyksta gana greitai. Tai įvyko dėl SQL prisijungimų ir GreenPlum architektūros, leidžiančios ištrinti operaciją.

Taigi „GreenPlum“ prideda delta, naudodama trynimo + įterpimo metodą, tačiau „Hive“ neatlieka trynimo ar atnaujinimo operacijų, todėl visas duomenų masyvas buvo priverstas visiškai perrašyti laipsniško atnaujinimo metu. Pusjuodžiu šriftu paryškintų langelių palyginimas yra labiausiai atskleidžiamas, nes jis atitinka dažniausiai naudojamą daug išteklių reikalaujančių atsisiuntimų parinktį. Matome, kad GreenPlum šiame teste įveikė Hive 8 kartus.

Darbas Ab Initio su GreenPlum beveik realiuoju laiku

Šiame eksperimente išbandysime „Ab Initio“ galimybę atnaujinti „GreenPlum“ lentelę atsitiktinai sugeneruotomis duomenų dalimis beveik realiuoju laiku. Panagrinėkime GreenPlum lentelę dev42_1_db_usl.TESTING_SUBJ_org_finval, su kuria dirbsime.

Dirbdami su juo naudosime tris Ab Initio grafikus:

1) Graph Create_test_data.mp – sukuria duomenų failus HDFS su 10 6 000 eilučių 000 lygiagrečių gijų. Duomenys yra atsitiktiniai, jų struktūra sutvarkyta įterpimui į mūsų lentelę

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

2) Grafikas mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW sugeneruotas grafikas inicijuojant duomenų įterpimą į mūsų lentelę 10 lygiagrečių gijų (naudojami grafiko (1) sugeneruoti bandymo duomenys)

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

3) Grafikas mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW sugeneruotas grafikas, skirtas laipsniškam mūsų lentelės atnaujinimui 10 lygiagrečių gijų, naudojant naujai gautų duomenų (delta) dalį, sugeneruotą grafiko (1)

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum

Paleiskite toliau pateiktą scenarijų NRT režimu:

  • sukurti 6 000 000 bandymo eilučių
  • atlikti pradinį įkėlimą, į tuščią lentelę įterpti 6 000 000 bandymo eilučių
  • pakartokite laipsnišką atsisiuntimą 5 kartus
    • sukurti 6 000 000 bandymo eilučių
    • atlikti laipsnišką 6 000 000 bandomųjų eilučių įterpimą į lentelę (šiuo atveju valid_to_ts galiojimo laikas nustatomas pagal senus duomenis ir įterpiami naujesni duomenys su tuo pačiu pirminiu raktu)

Šis scenarijus imituoja tam tikros verslo sistemos realaus veikimo režimą – gana didelė dalis naujų duomenų atsiranda realiuoju laiku ir iškart supilama į GreenPlum.

Dabar pažiūrėkime į scenarijaus žurnalą:

Pradėti Create_test_data.input.pset 2020-06-04 11:49:11
Baigti Create_test_data.input.pset 2020-06-04 11:49:37
Pradėti mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:49:37
Baigti mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:50:42
Pradėti Create_test_data.input.pset 2020-06-04 11:50:42
Baigti Create_test_data.input.pset 2020-06-04 11:51:06
Pradėti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:51:06
Baigti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:53:41
Pradėti Create_test_data.input.pset 2020-06-04 11:53:41
Baigti Create_test_data.input.pset 2020-06-04 11:54:04
Pradėti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:54:04
Baigti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:56:51
Pradėti Create_test_data.input.pset 2020-06-04 11:56:51
Baigti Create_test_data.input.pset 2020-06-04 11:57:14
Pradėti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:57:14
Baigti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:59:55
Pradėti Create_test_data.input.pset 2020-06-04 11:59:55
Baigti Create_test_data.input.pset 2020-06-04 12:00:23
Pradėti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:00:23
Baigti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:23
Pradėti Create_test_data.input.pset 2020-06-04 12:03:23
Baigti Create_test_data.input.pset 2020-06-04 12:03:49
Pradėti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:49
Baigti mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:06:46

Pasirodo šis paveikslas:

Grafikas
Pradžios laikas
Baigti laiką
Ilgis

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Matome, kad per 6 minutes apdorojama 000 000 3 prieaugio eilučių, o tai yra gana greita.
Tikslinės lentelės duomenys buvo paskirstyti taip:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Kai turite Sber svarstykles. Ab Initio naudojimas su Hive ir GreenPlum
Galite matyti įterptų duomenų atitikimą grafikų paleidimo laikui.
Tai reiškia, kad galite paleisti laipsnišką duomenų įkėlimą į „GreenPlum“ sistemoje „Ab Initio“ labai dažnai ir stebėti didelį šių duomenų įterpimo į „GreenPlum“ greitį. Žinoma, nebus įmanoma paleisti kartą per sekundę, nes „Ab Initio“, kaip ir bet kuris ETL įrankis, paleidžiamas reikalauja laiko „paleisti“.

išvada

Šiuo metu „Sberbank“ „Ab Initio“ naudojama vieningam semantiniam duomenų sluoksniui (ESS) sukurti. Šis projektas apima vieningą įvairių bankinio verslo subjektų būklės versiją. Informacija gaunama iš įvairių šaltinių, kurių kopijos rengiamos Hadoop. Remiantis verslo poreikiais, parengiamas duomenų modelis ir aprašomos duomenų transformacijos. „Ab Initio“ įkelia informaciją į ESN ir atsisiunčiami duomenys ne tik įdomūs pačiam verslui, bet ir yra duomenų rinkų kūrimo šaltinis. Tuo pačiu produkto funkcionalumas leidžia naudoti įvairias sistemas kaip imtuvą (Hive, Greenplum, Teradata, Oracle), o tai leidžia lengvai paruošti duomenis verslui įvairiais jai reikalingais formatais.

„Ab Initio“ galimybės yra plačios; pavyzdžiui, įtraukta MDW sistema leidžia sukurti techninius ir verslo istorinius duomenis. Kūrėjams „Ab Initio“ suteikia galimybę ne išradinėti dviračio iš naujo, o naudoti daugybę esamų funkcinių komponentų, kurie iš esmės yra bibliotekos, reikalingos dirbant su duomenimis.

Autorius yra Sberbank SberProfi DWH/BigData profesionalų bendruomenės ekspertas. SberProfi DWH/BigData profesionalų bendruomenė yra atsakinga už kompetencijų ugdymą tokiose srityse kaip Hadoop ekosistema, Teradata, Oracle DB, GreenPlum, taip pat BI įrankiai Qlik, SAP BO, Tableau ir kt.

Šaltinis: www.habr.com

Добавить комментарий