Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Duela denbora pixka bat, Big Datarekin lan egiteko ETL tresna bat aukeratzeko galderaren aurrean geunden. Aurretik erabilitako Informatica BDM irtenbidea ez zitzaigun egokitzen, funtzionaltasun mugatuagatik. Bere erabilera spark-submit komandoak abiarazteko esparru izatera murriztu da. Merkatuan ez zeuden analogo asko, printzipioz, egunero jorratzen ditugun datu-bolumenarekin lan egiteko gai zirenak. Azkenean Ab Initio aukeratu dugu. Erakustaldi pilotuetan, produktuak datuak prozesatzeko abiadura oso handia erakutsi zuen. Errusieraz ez dago ia Ab Initio-ri buruzko informaziorik, horregatik HabrΓ©-n gure esperientziaz hitz egitea erabaki dugu.

Ab Initiok eraldaketa klasiko eta ezohiko ugari ditu, eta horien kodea zabaldu daiteke bere PDL hizkuntza propioa erabiliz. Enpresa txiki batentzat, horrelako tresna indartsua gehiegizkoa izango da, eta bere gaitasun gehienak garestiak eta erabili gabeak izan daitezke. Baina zure eskala Sberov-en hurbil badago, orduan Ab Initio interesgarria izan daiteke zuretzat.

Enpresa bati ezagutzak metatzen eta ekosistema bat garatzen laguntzen dio mundu mailan, eta garatzaile bati ETL-n dituen gaitasunak hobetzen, bere ezagutza shell-ean hobetzen, PDL hizkuntza menperatzeko aukera ematen du, karga-prozesuen irudi bisuala ematen du eta garapena errazten du. osagai funtzionalen ugaritasuna dela eta.

Post honetan Ab Initioren gaitasunei buruz hitz egingo dut eta Hive eta GreenPlum-ekin egindako lanaren ezaugarri konparatiboak emango ditut.

  • MDW esparruaren deskribapena eta bere pertsonalizazioa GreenPlum-erako lana
  • Hive eta GreenPlum-en arteko Ab Initio-ren errendimenduaren alderaketa
  • GreenPlum-ekin Ab Initio lanean Ia denbora errealean moduan


Produktu honen funtzionaltasuna oso zabala da eta denbora asko behar du aztertzeko. Hala ere, lanerako trebetasun egokiekin eta errendimendu ezarpen egokiekin, datuak prozesatzeko emaitzak oso ikusgarriak dira. Ab Initio garatzaileentzako erabiltzeak esperientzia interesgarria eskain dezake. ETL garapenaren ikuspegi berri bat da, ingurune bisual baten eta deskargaren garapenaren arteko hibrido bat script-antzeko hizkuntzan.

Enpresak beren ekosistemak garatzen ari dira eta tresna hau inoiz baino erabilgarriagoa da. Ab Initio-rekin, zure egungo negozioari buruzko ezagutza pila dezakezu eta ezagutza hori erabili negozio zaharrak zabaltzeko eta berriak irekitzeko. Ab Initio-ren alternatibak ikus-garapeneko inguruneak Informatica BDM eta ikus-entzunezko garapen-inguruneak Apache Spark dira.

Ab Initio-ren deskribapena

Ab Initio, beste ETL tresnak bezala, produktuen bilduma bat da.

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Ab Initio GDE (Graphical Development Environment) garatzaileentzako ingurune bat da, non datu-eraldaketak konfiguratzen dituen eta datu-fluxuekin konektatzen ditu gezi moduan. Kasu honetan, halako transformazio multzo bati grafikoa deitzen zaio:

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Osagai funtzionalen sarrera- eta irteera-konexioak portuak dira eta transformazioen barruan kalkulatutako eremuak dituzte. Plano deitzen zaie gezi formako fluxuen bidez loturiko hainbat grafiko, haien exekuzioaren ordenan.

Hainbat ehunka osagai funtzional daude, hau da, asko. Horietako asko oso espezializatuak dira. Ab Initioko eraldaketa klasikoen gaitasunak ETL beste tresnetan baino zabalagoak dira. Adibidez, Join-ek irteera anitz ditu. Datu multzoak konektatzearen emaitzaz gain, sarrerako datu multzoen irteerako erregistroak lor ditzakezu, zeinen gakoak konektatu ezin izan diren. Errefusak, akatsak eta eraldaketa-eragiketaren erregistroa ere lor ditzakezu, testu-fitxategi baten zutabe berean irakurri eta beste eraldaketa batzuekin prozesatzeko:

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Edo, adibidez, datu-hartzaile bat taula baten moduan gauzatu eta zutabe berean bertatik ateratako datuak irakur ditzakezu.

Jatorrizko eraldaketak daude. Adibidez, Scan transformazioak funtzio analitikoen antzeko funtzionaltasuna du. Izen esplikatuak dituzten eraldaketak daude: Datuak sortu, Excel irakurri, Normalizatu, Taldeen barruan ordenatu, Programa exekutatu, SQL exekutatu, DB-rekin elkartu, etab. Grafikoek exekuzio-denborako parametroak erabil ditzakete, parametroak batetik edo bestetik pasatzeko aukera barne. sistema eragilea. Grafikora pasatako parametro-multzo prestatutako fitxategiei parametro-multzoak (psets) deitzen zaie.

Espero bezala, Ab Initio GDE-k EME (Enterprise Meta Environment) izeneko biltegi propioa du. Garatzaileek aukera dute kodearen tokiko bertsioekin lan egiteko eta haien garapenak biltegi zentralean egiaztatzeko.

Posible da, exekuzioan edo grafikoa exekutatu ondoren, eraldaketa lotzen duen edozein fluxu gainean klik egitea eta eraldaketa horien artean pasatu diren datuak ikustea:

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Gainera, posible da edozein korrontetan klik egin eta jarraipenaren xehetasunak ikusteko: zenbat paralelotan lan egin zuen eraldaketak, zenbat lerro eta byte kargatu ziren paraleloetako zeinetan:

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Posible da grafikoaren exekuzioa fasetan banatu eta eraldaketa batzuk egin behar direla lehenik (zero fasean), hurrengoak lehenengo fasean, hurrengoak bigarren fasean, etab.

Transformazio bakoitzerako, diseinua deritzona aukeratu dezakezu (non exekutatuko den): paralelorik gabe edo hari paraleloetan, zeinen kopurua zehaztu daiteke. Aldi berean, eraldaketak exekutatzen ari direnean Ab Initio-k sortzen dituen behin-behineko fitxategiak zerbitzariaren fitxategi-sisteman zein HDFSn jar daitezke.

Transformazio bakoitzean, txantiloi lehenetsian oinarrituta, zure script-a sor dezakezu PDL-n, shell baten antzekoa dena.

PDL-rekin, transformazioen funtzionaltasuna heda dezakezu eta, bereziki, dinamikoki (exekuzioan) kode zati arbitrarioak sor ditzakezu exekuzio-parametroen arabera.

Ab Initio-k shell bidez OSrekin oso ondo garatua du integrazioa. Zehazki, Sberbank-ek linux ksh erabiltzen du. Aldagaiak shell-arekin truka ditzakezu eta grafiko-parametro gisa erabil ditzakezu. Ab Initio grafikoen exekuzioa dei dezakezu shell-etik eta Ab Initio administratu.

Ab Initio GDEaz gain, beste produktu asko sartzen dira bidalketan. Ko>Operazio Sistema propioa dago, sistema eragilea deitzeko erreklamazioa duena. Deskarga-fluxuak programatu eta kontrolatu ditzakezun Kontrol> Zentro bat dago. Ab Initio GDEk onartzen duen baino maila primitiboagoan garatzeko produktuak daude.

MDW esparruaren deskribapena eta bere pertsonalizazioa GreenPlum-erako lana

Bere produktuekin batera, saltzaileak MDW (Metadata Driven Warehouse) produktua hornitzen du, hau da, datu biltegiak edo datu-gangak betetzeko ohiko zereginetan laguntzeko diseinatutako grafiko-konfiguratzaile bat da.

Metadatuen analizatzaile pertsonalizatuak (proiektuaren espezifikoak) eta prest dauden kode-sorgailuak ditu.

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin
Sarrera gisa, MDWk datu-eredu bat, datu-base batera (Oracle, Teradata edo Hive) konexioa ezartzeko konfigurazio fitxategi bat eta beste ezarpen batzuk jasotzen ditu. Proiektuaren berariazko zatiak, adibidez, eredua datu-base batean zabaltzen du. Produktutik kanpoko zatiak grafikoak eta konfigurazio fitxategiak sortzen ditu ereduen tauletan datuak kargatuz. Kasu honetan, grafikoak (eta pset-ak) entitateak eguneratzeko hainbat modutarako eta lan inkrementaletarako sortzen dira.

Hive eta RDBMS kasuetan, grafiko desberdinak sortzen dira hasieratzeko eta datuen eguneratze gehigarriak egiteko.

Hive-ren kasuan, sarrerako delta datuak Ab Initio Join-en bidez konektatzen dira eguneraketa aurretik taulan zeuden datuekin. MDW-ko datu-kargatzaileek (hive-n eta RDBMS-n) delta-ko datu berriak txertatzeaz gain, gako nagusiek delta jaso duten datuen garrantzia-epeak ixten dituzte. Horrez gain, aldatu gabeko datuen zatia berridatzi behar duzu. Baina hori egin behar da Hive-k ez duelako ezabatzeko edo eguneratzeko eragiketarik.

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

RDBMS-en kasuan, datuen eguneratze inkrementala egiteko grafikoek hoberenak dirudite, RDBMS-ek benetako eguneratze-gaitasunak dituztelako.

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Jasotako delta datu-baseko tarteko taula batean kargatzen da. Horren ondoren, delta eguneraketa aurretik taulan zeuden datuekin konektatzen da. Eta hori SQL erabiliz egiten da sortutako SQL kontsulta bat erabiliz. Ondoren, ezabatu+txertatu SQL komandoak erabiliz, delta-ko datu berriak xede-taulan txertatzen dira eta gako nagusiek delta jaso duten datuen garrantzia-epeak ixten dira.
Ez dago aldatu gabeko datuak berridatzi beharrik.

Beraz, Hive-ren kasuan, MDWk taula osoa berridazten joan behar duela ondorioztatu genuen, Hive-k ez duelako eguneratze-funtziorik. Eta eguneratzea asmatzen denean datuak guztiz berridaztea baino ezer hoberik. RDBMSen kasuan, aitzitik, produktuaren sortzaileek beharrezkotzat jo zuten taulen konexioa eta eguneratzea SQL erabiltzearen esku uztea.

Sberbank-en proiektu baterako, GreenPlum-erako datu-baseen kargatzaile baten inplementazio berri eta berrerabilgarria sortu genuen. MDWk Teradatarako sortzen duen bertsioan oinarrituta egin zen. Teradata izan zen, eta ez Oracle, honetarako gehien hurbildu zena eta onena, zeren... MPP sistema bat ere bada. Teradata eta GreenPlum-en lan-metodoak, baita sintaxia ere, antzekoak izan ziren.

RDBMS desberdinen arteko MDW-ren desberdintasun kritikoen adibideak hauek dira. GreenPlum-en, Teradata-n ez bezala, taulak sortzerakoan klausula bat idatzi behar duzu

distributed by

Teradatak idazten du:

delete <table> all

, eta GreenPlum-en idazten dute

delete from <table>

Oracle-n, optimizazio helburuetarako idazten dute

delete from t where rowid in (<соСдинСниС t с Π΄Π΅Π»ΡŒΡ‚ΠΎΠΉ>)

, eta Teradata eta GreenPlum-ek idazten dute

delete from t where exists (select * from delta where delta.pk=t.pk)

Gainera, ohartzen gara Ab Initio GreenPlum-ekin lan egiteko, beharrezkoa zela GreenPlum bezeroa Ab Initio klusterreko nodo guztietan instalatzea. Hau da, GreenPlum-era aldi berean konektatu garelako gure klusterreko nodo guztietatik. Eta GreenPlum-en irakurketa paraleloa izan dadin eta paralelo Ab Initio-ko hari bakoitzak GreenPlum-en datuen zati propioa irakurtzeko, Ab Initiok ulertutako eraikuntza bat jarri behar izan dugu SQL kontsulten "non" atalean.

where ABLOCAL()

eta zehaztu eraikuntza horren balioa eraldaketa datu-baseko parametroen irakurketa zehaztuz

ablocal_expr=Β«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))Β»

, antzeko zerbait biltzen duena

mod(sk,10)=3

, hau da. partizio bakoitzeko iragazki esplizitu batekin eskatu behar diozu GreenPlum. Beste datu-base batzuetarako (Teradata, Oracle), Ab Initio-k paralelizazio hori automatikoki egin dezake.

Hive eta GreenPlum-en arteko Ab Initio-ren errendimenduaren alderaketa

Sberbank-ek esperimentu bat egin zuen MDW-k sortutako grafikoen errendimendua Hive-rekin eta GreenPlum-ekin lotuta. Esperimentuaren barruan, Hive-ren kasuan 5 nodo zeuden Ab Initio-ren kluster berean, eta GreenPlum-en kasuan, 4 nodo bereizitako kluster batean. Horiek. Hive-k hardware abantaila batzuk zituen GreenPlum-en aurrean.

Hive eta GreenPlum-en datuak eguneratzeko zeregin bera egiten duten bi grafiko pare hartu ditugu kontuan. Aldi berean, MDW konfiguratzaileak sortutako grafikoak abiarazi ziren:

  • hasierako karga + ausaz sortutako datuen karga gehigarria Hive taula batean
  • hasierako karga + ausaz sortutako datuen karga gehigarria GreenPlum taula berean

Bi kasuetan (Hive eta GreenPlum) 10 hari paralelotara igotzen ziren Ab Initio kluster berean. Ab Initiok kalkuluetarako tarteko datuak gorde zituen HDFSn (Ab Initio-ri dagokionez, HDFS erabiliz MFS diseinua erabili zen). Ausaz sortutako datu-lerro batek 200 byte okupatu zituen bi kasuetan.

Honela izan zen emaitza:

Erlauntza:

Hasierako karga Hive-n

Errenkadak txertatuta
6 000 000
60 000 000
600 000 000

Hasierako iraupena
deskarga segundotan
41
203
1 601

Karga gehigarria Hive-n

Eskuragarri dauden errenkada kopurua
helburu-taula esperimentuaren hasieran
6 000 000
60 000 000
600 000 000

aplikatutako delta-lerroen kopurua
helburu-taula esperimentuan zehar
6 000 000
6 000 000
6 000 000

Inkrementalaren iraupena
deskarga segundotan
88
299
2 541

GreenPlum:

Hasierako kargatzea GreenPlum-en

Errenkadak txertatuta
6 000 000
60 000 000
600 000 000

Hasierako iraupena
deskarga segundotan
72
360
3 631

Karga gehigarria GreenPlum-en

Eskuragarri dauden errenkada kopurua
helburu-taula esperimentuaren hasieran
6 000 000
60 000 000
600 000 000

aplikatutako delta-lerroen kopurua
helburu-taula esperimentuan zehar
6 000 000
6 000 000
6 000 000

Inkrementalaren iraupena
deskarga segundotan
159
199
321

Ikusten dugu Hive-n eta GreenPlum-en hasierako kargatzearen abiadura datu kopuruaren araberakoa dela linealki eta, hardware hobea dela eta, zertxobait azkarragoa da Hiverentzat GreenPlum-entzat baino.

Hive-n karga gehigarria ere linealki xede-taulan eskuragarri dauden aldez aurretik kargatutako datuen bolumenaren araberakoa da eta nahiko poliki aurrera egiten du bolumena hazten den heinean. Helburuko taula guztiz berridatzi beharrak eragiten du. Horrek esan nahi du taula handietan aldaketa txikiak aplikatzea ez dela Hive-ren erabilera kasu ona.

GreenPlum-en karga gehigarria helburu-taulan eskuragarri dauden aldez aurretik kargatutako datuen bolumenaren araberakoa da eta nahiko azkar aurrera egiten da. Hau SQL Joins eta GreenPlum arkitekturari esker gertatu da, ezabatzeko eragiketa ahalbidetzen duena.

Beraz, GreenPlum-ek delta gehitzen du ezabatu+txertatu metodoa erabiliz, baina Hive-k ez du ezabatzeko edo eguneratzeko eragiketarik, beraz, datu-matrize osoa guztiz berridatzi behar izan zen eguneratze inkremental batean. Letra lodiz nabarmendutako gelaxken konparaketa da adierazgarriena, baliabideak asko erabiltzen dituzten deskargak erabiltzeko aukerarik ohikoena baita. GreenPlum-ek Hive proba honetan 8 aldiz irabazi zuela ikusten dugu.

GreenPlum-ekin Ab Initio lanean Ia denbora errealean moduan

Esperimentu honetan, Ab Initioren gaitasuna probatuko dugu GreenPlum taula ausaz sortutako datu-zatiekin ia denbora errealean eguneratzeko. Har dezagun GreenPlum taula dev42_1_db_usl.TESTING_SUBJ_org_finval, zeinarekin lan egingo dugun.

Hiru Ab Initio grafiko erabiliko ditugu honekin lan egiteko:

1) Grafikoa Create_test_data.mp - HDFSn datu-fitxategiak sortzen ditu 10 errenkadarekin 6 hari paralelotan. Datuak ausazkoak dira, bere egitura antolatuta dago gure taulan txertatzeko

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

2) Grafikoa mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDW-k sortutako grafikoa gure taulan datuak txertatzea 10 hari paralelotan hasieratuz ((1) grafikoak sortutako proba-datuak erabiltzen dira)

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

3) Grafikoa mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDWk sortutako grafikoa, gure taula 10 hari paralelotan (1) grafikoan sortutako datu berrien (delta) zati bat erabiliz gure taula eguneratzeko inkrementala egiteko.

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin

Exekutatu dezagun beheko script-a NRT moduan:

  • 6 proba-lerro sortu
  • egin hasierako karga bat txertatu 6 proba-lerroa taula huts batean
  • errepikatu deskarga inkrementala 5 aldiz
    • 6 proba-lerro sortu
    • egin taulan 6 proba-errenkadako txertaketa gehigarria (kasu honetan, valid_to_ts iraungitze-denbora datu zaharrekin ezartzen da eta gako nagusi bera duten datu berriagoak txertatzen dira)

Eszenatoki honek negozio-sistema jakin baten benetako funtzionamendu modua imitatzen du: datu berrien zati handi samarra denbora errealean agertzen da eta berehala GreenPlum-era isurtzen da.

Ikus dezagun orain script-aren erregistroa:

Hasi Create_test_data.input.pset 2020-06-04an 11:49:11
Amaitu Create_test_data.input.pset 2020-06-04an 11:49:37
Hasi mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 11:49:37
Amaitu mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:50:42
Hasi Create_test_data.input.pset 2020-06-04an 11:50:42
Amaitu Create_test_data.input.pset 2020-06-04an 11:51:06
Hasi mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 11:51:06
Amaitu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:53:41
Hasi Create_test_data.input.pset 2020-06-04an 11:53:41
Amaitu Create_test_data.input.pset 2020-06-04an 11:54:04
Hasi mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 11:54:04
Amaitu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:56:51
Hasi Create_test_data.input.pset 2020-06-04an 11:56:51
Amaitu Create_test_data.input.pset 2020-06-04an 11:57:14
Hasi mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 11:57:14
Amaitu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:59:55
Hasi Create_test_data.input.pset 2020-06-04an 11:59:55
Amaitu Create_test_data.input.pset 2020-06-04an 12:00:23
Hasi mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 12:00:23
Amaitu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:23
Hasi Create_test_data.input.pset 2020-06-04an 12:03:23
Amaitu Create_test_data.input.pset 2020-06-04an 12:03:49
Hasi mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04an 12:03:49
Amaitu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:06:46

Irudi hau ateratzen da:

Grafikoa
Hasiera ordua
Amaitzeko ordua
Length

Sortu_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Sortu_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Sortu_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Sortu_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Sortu_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Sortu_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Ikusten dugu 6 gehikuntza-lerro prozesatzen direla 000 minututan, hau da, nahiko azkarra.
Helburu-taulan dauden datuak honela banatu dira:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Sber eskalak dituzunean. Ab Initio erabiliz Hive eta GreenPlum-ekin
Txertatutako datuek grafikoak abiarazi ziren denborarekin duten korrespondentzia ikus dezakezu.
Horrek esan nahi du datuen karga inkrementala GreenPlum-en Ab Initio-n oso maiztasun handiz exekutatu dezakezula eta datu horiek GreenPlum-en txertatzeko abiadura handia ikusi dezakezula. Noski, ezin izango da segundoan behin abiarazi, Ab Initiok, edozein ETL tresnak bezala, abiarazteko denbora behar baitu abiarazteko.

Ondorioa

Ab Initio gaur egun Sberbank-en erabiltzen da Unified Semantic Data Layer (ESS) bat eraikitzeko. Proiektu honek banku-negozio-entitate ezberdinen egoeraren bertsio bateratua eraikitzea dakar. Informazioa hainbat iturritatik dator, eta horien erreplikak Hadoop-en prestatzen dira. Negozio-beharretan oinarrituta, datu-eredu bat prestatzen da eta datu-eraldaketak deskribatzen dira. Ab Initio-k informazioa kargatzen du ESNn eta deskargatutako datuak berez negozioarentzat interesgarriak ez ezik, datu-martsak eraikitzeko iturri gisa ere balio du. Aldi berean, produktuaren funtzionaltasunak hainbat sistema erabil ditzakezu hargailu gisa (Hive, Greenplum, Teradata, Oracle), eta horri esker, negozio baterako datuak erraz prestatzea ahalbidetzen du behar dituen formatu ezberdinetan.

Ab Initio-ren gaitasunak zabalak dira; adibidez, sartutako MDW esparruak datu historiko teknikoak eta negozioak kaxatik kanpo sortzea ahalbidetzen du. Garatzaileentzat, Ab Initio-k gurpila ez berrasmatzea ahalbidetzen du, baina lehendik dauden osagai funtzional asko erabiltzea, funtsean datuekin lan egiteko beharrezkoak diren liburutegiak direnak.

Egilea Sberbank SberProfi DWH/BigData-ren komunitate profesionalean aditua da. SberProfi DWH/BigData komunitate profesionalak Hadoop ekosistema, Teradata, Oracle DB, GreenPlum, baita Qlik, SAP BO, Tableau eta abar BI tresnak bezalako arloetan konpetentziak garatzeaz arduratzen da.

Iturria: www.habr.com

Gehitu iruzkin berria