Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Kaniadto, nag-atubang kami sa pangutana sa pagpili sa usa ka himan sa ETL alang sa pagtrabaho kauban ang Big Data. Ang gigamit kaniadto nga Informatica BDM nga solusyon dili angay kanamo tungod sa limitado nga gamit. Ang paggamit niini gikunhoran ngadto sa usa ka balangkas alang sa paglansad sa spark-submit commands. Wala’y daghang mga analogue sa merkado nga, sa prinsipyo, makahimo sa pagtrabaho sa gidaghanon sa datos nga among giatubang matag adlaw. Sa katapusan gipili namo ang Ab Initio. Atol sa mga demonstrasyon sa piloto, ang produkto nagpakita sa taas kaayo nga katulin sa pagproseso sa datos. Halos wala’y kasayuran bahin sa Ab Initio sa Russian, mao nga nakahukom kami nga hisgutan ang among kasinatian sa Habré.

Ang Ab Initio adunay daghang mga klasiko ug dili kasagaran nga mga pagbag-o, ang kodigo nga mahimong mapalawig gamit ang kaugalingon nga PDL nga lengguwahe. Alang sa usa ka gamay nga negosyo, ang ingon usa ka kusgan nga himan lagmit nga sobra ka daghan, ug kadaghanan sa mga kapabilidad niini mahimong mahal ug wala magamit. Apan kung ang imong timbangan duol sa Sberov's, nan ang Ab Initio mahimong makapaikag kanimo.

Nagtabang kini sa usa ka negosyo nga makatigom og kahibalo sa tibuok kalibotan ug makaugmad ug ekosistema, ug ang usa ka developer aron mapauswag ang iyang kahanas sa ETL, mapauswag ang iyang kahibalo sa kabhang, maghatag ug kahigayonan sa pag-master sa PDL nga pinulongan, maghatag ug biswal nga hulagway sa mga proseso sa pagkarga, ug mopasimple sa kalamboan. tungod sa kadagaya sa functional components.

Sa kini nga post maghisgot ako bahin sa mga kapabilidad sa Ab Initio ug maghatag mga pagtandi nga mga kinaiya sa trabaho niini sa Hive ug GreenPlum.

  • Deskripsyon sa balangkas sa MDW ug pagtrabaho sa pag-customize niini para sa GreenPlum
  • Ab Initio pagtandi sa pasundayag tali sa Hive ug GreenPlum
  • Pagtrabaho sa Ab Initio sa GreenPlum sa Near Real Time mode


Ang pag-andar sa kini nga produkto kaylap kaayo ug nanginahanglan daghang oras sa pagtuon. Bisan pa, sa husto nga kahanas sa pagtrabaho ug husto nga mga setting sa pasundayag, ang mga sangputanan sa pagproseso sa datos makapahingangha kaayo. Ang paggamit sa Ab Initio para sa usa ka developer makahatag ug makapaikag nga kasinatian. Kini usa ka bag-o nga pagkuha sa ETL development, usa ka hybrid tali sa usa ka biswal nga palibot ug download development sa usa ka script-sama sa pinulongan.

Ang mga negosyo nagpalambo sa ilang mga ekosistema ug kini nga himan labi ka magamit kaysa kaniadto. Uban sa Ab Initio, mahimo nimong matigom ang kahibalo bahin sa imong karon nga negosyo ug magamit kini nga kahibalo aron mapalapad ang daan ug pagbukas sa bag-ong mga negosyo. Ang mga alternatibo sa Ab Initio naglakip sa visual development environment Informatica BDM ug non-visual development environment Apache Spark.

Deskripsyon sa Ab Initio

Ang Ab Initio, sama sa ubang mga gamit sa ETL, usa ka koleksyon sa mga produkto.

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Ang Ab Initio GDE (Graphical Development Environment) usa ka palibot alang sa developer diin iyang gi-configure ang mga pagbag-o sa datos ug gikonektar kini sa mga agos sa datos sa porma sa mga pana. Sa kini nga kaso, ang ingon nga usa ka hugpong sa mga pagbag-o gitawag nga usa ka graph:

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Ang input ug output nga mga koneksyon sa functional nga mga sangkap mao ang mga pantalan ug adunay mga field nga kalkulado sulod sa mga pagbag-o. Daghang mga graph nga konektado sa mga agos sa porma sa mga pana sa han-ay sa ilang pagpatuman gitawag nga plano.

Adunay pipila ka gatus ka mga functional nga mga sangkap, nga daghan. Daghan kanila espesyal kaayo. Ang mga kapabilidad sa mga klasiko nga pagbag-o sa Ab Initio mas lapad kaysa sa ubang mga gamit sa ETL. Pananglitan, ang Join adunay daghang mga output. Dugang pa sa resulta sa pagkonektar sa mga dataset, mahimo kang makakuha og mga rekord sa output sa mga input dataset kansang mga yawe dili makonektar. Mahimo ka usab makakuha mga pagsalikway, mga sayup ug usa ka log sa operasyon sa pagbag-o, nga mabasa sa parehas nga kolum ingon usa ka file sa teksto ug giproseso sa uban pang mga pagbag-o:

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

O, pananglitan, mahimo nimong materialize ang usa ka tigdawat sa datos sa porma sa usa ka lamesa ug basahon ang datos gikan niini sa parehas nga kolum.

Adunay mga orihinal nga pagbag-o. Pananglitan, ang pagbag-o sa Scan adunay gamit nga parehas sa analytical function. Adunay mga pagbag-o nga adunay mga ngalan nga nagpatin-aw sa kaugalingon: Paghimo Data, Pagbasa sa Excel, Pag-normalize, Pagsunud sa sulod sa mga Grupo, Pagdagan nga Programa, Pagdagan ang SQL, Pag-apil sa DB, ug uban pa. ang operating system. Ang mga file nga adunay andam nga set sa mga parameter nga gipasa sa graph gitawag nga parameter sets (psets).

Sama sa gipaabot, ang Ab Initio GDE adunay kaugalingong repository nga gitawag og EME (Enterprise Meta Environment). Ang mga developers adunay oportunidad sa pagtrabaho uban sa mga lokal nga bersyon sa code ug pagsusi sa ilang mga kalamboan ngadto sa sentral nga repositoryo.

Posible, sa panahon sa pagpatuman o pagkahuman sa pag-execute sa graph, nga mag-klik sa bisan unsang agos nga nagkonektar sa pagbag-o ug tan-awon ang datos nga milabay tali sa kini nga mga pagbag-o:

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Posible usab ang pag-klik sa bisan unsang sapa ug tan-awa ang mga detalye sa pagsubay - pila ka parallel ang nahimo sa pagbag-o, pila ka linya ug byte ang gikarga kung asa sa mga parallel:

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Posible nga bahinon ang pagpatuman sa graph sa mga hugna ug markahan nga ang pipila nga mga pagbag-o kinahanglan una nga himuon (sa zero nga hugna), ang mga sunod sa una nga hugna, ang mga sunod sa ikaduhang hugna, ug uban pa.

Alang sa matag pagbag-o, mahimo nimong pilion ang gitawag nga layout (diin kini ipatuman): nga walay mga parallel o sa parallel nga mga hilo, ang gidaghanon niini mahimong matino. Sa samang higayon, ang temporaryo nga mga file nga gihimo ni Ab Initio kung ang mga pagbag-o nagdagan mahimong ibutang sa server file system ug sa HDFS.

Sa matag pagbag-o, base sa default template, mahimo kang maghimo sa imong kaugalingon nga script sa PDL, nga medyo sama sa usa ka kabhang.

Uban sa PDL mahimo nimong i-extend ang pag-andar sa mga pagbag-o ug, labi na, mahimo nimo nga dinamiko (sa runtime) makamugna og mga arbitraryong mga tipik sa code depende sa mga parameter sa runtime.

Ang Ab Initio usab adunay maayo nga naugmad nga panagsama sa OS pinaagi sa kabhang. Sa piho, ang Sberbank naggamit sa linux ksh. Mahimo nimong ibaylo ang mga variable gamit ang kabhang ug gamiton kini ingon mga parameter sa graph. Mahimo nimong tawagan ang pagpatuman sa Ab Initio nga mga graph gikan sa kabhang ug ipangalagad ang Ab Initio.

Dugang pa sa Ab Initio GDE, daghang uban pang mga produkto ang gilakip sa paghatud. Adunay kaugalingon nga Co>Operation System nga adunay pag-angkon nga gitawag nga operating system. Adunay usa ka Control> Center diin mahimo nimong i-iskedyul ug bantayan ang mga agos sa pag-download. Adunay mga produkto alang sa paghimo og kalamboan sa mas karaan nga lebel kay sa gitugotan sa Ab Initio GDE.

Deskripsyon sa balangkas sa MDW ug pagtrabaho sa pag-customize niini para sa GreenPlum

Uban sa mga produkto niini, ang vendor nagsuplay sa produkto nga MDW (Metadata Driven Warehouse), nga usa ka graph configurator nga gidisenyo aron makatabang sa kasagarang mga buluhaton sa pagpopulate sa mga bodega sa datos o mga data vault.

Naglangkob kini sa custom (project-specific) metadata parser ug ready-made code generators gikan sa kahon.

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum
Isip input, ang MDW nakadawat og data model, configuration file alang sa pag-set up og koneksyon sa database (Oracle, Teradata o Hive) ug uban pang mga setting. Ang bahin nga espesipiko sa proyekto, pananglitan, nag-deploy sa modelo sa usa ka database. Ang out-of-the-box nga bahin sa produkto nagmugna og mga graph ug configuration file alang kanila pinaagi sa pagkarga og data ngadto sa mga modelo nga mga lamesa. Sa kini nga kaso, ang mga graph (ug mga pset) gihimo alang sa daghang mga paagi sa pagsugod ug pagdugang nga trabaho sa pag-update sa mga entidad.

Sa mga kaso sa Hive ug RDBMS, lain-laing mga graph ang namugna para sa initialization ug incremental data updates.

Sa kaso sa Hive, ang umaabot nga delta data konektado pinaagi sa Ab Initio Apil sa datos nga naa sa lamesa sa wala pa ang update. Ang mga loader sa datos sa MDW (pareho sa Hive ug RDBMS) dili lamang magsal-ot sa bag-ong datos gikan sa delta, apan magsira usab sa mga panahon nga may kalabutan sa datos kansang pangunang mga yawe nakadawat sa delta. Dugang pa, kinahanglan nimong isulat pag-usab ang wala mausab nga bahin sa datos. Apan kini kinahanglan nga buhaton tungod kay ang Hive walay pagtangtang o pag-update nga mga operasyon.

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Sa kaso sa RDBMS, ang mga graph alang sa incremental nga pag-update sa datos tan-awon nga mas maayo, tungod kay ang RDBMS adunay tinuod nga mga kapabilidad sa pag-update.

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Ang nadawat nga delta gikarga sa usa ka intermediate nga lamesa sa database. Pagkahuman niini, ang delta konektado sa datos nga naa sa lamesa sa wala pa ang pag-update. Ug kini gihimo gamit ang SQL gamit ang usa ka namugna nga SQL query. Sunod, gamit ang SQL commands delete+insert, ang bag-ong data gikan sa delta gisal-ot sa target nga lamesa ug ang mga panahon nga may kalabutan sa datos kansang mga nag-unang yawe nakadawat sa delta sirado.
Dili kinahanglan nga isulat pag-usab ang wala mausab nga datos.

Mao nga nakahinapos kami nga sa kaso sa Hive, ang MDW kinahanglan nga moadto aron isulat pag-usab ang tibuuk nga lamesa tungod kay ang Hive wala’y function sa pag-update. Ug wala nay mas maayo pa kaysa hingpit nga pagsulat pag-usab sa datos kung naimbento na ang pag-update. Sa kaso sa RDBMS, sa sukwahi, ang mga tiglalang sa produkto nakit-an nga kinahanglan nga itugyan ang koneksyon ug pag-update sa mga lamesa sa paggamit sa SQL.

Alang sa usa ka proyekto sa Sberbank, naghimo kami usa ka bag-o, magamit pag-usab nga pagpatuman sa usa ka loader sa database alang sa GreenPlum. Gihimo kini base sa bersyon nga gihimo sa MDW para sa Teradata. Ang Teradata, ug dili ang Oracle, ang labing duol ug labing maayo alang niini, tungod kay ... usa usab ka sistema sa MPP. Ang mga pamaagi sa pagtrabaho, ingon man ang syntax, sa Teradata ug GreenPlum nahimo nga parehas.

Ang mga pananglitan sa MDW-kritikal nga mga kalainan tali sa lain-laing mga RDBMS mao ang mosunod. Sa GreenPlum, dili sama sa Teradata, kung maghimo mga lamesa kinahanglan nimo nga magsulat usa ka clause

distributed by

Gisulat ni Teradata:

delete <table> all

, ug sa GreenPlum sila nagsulat

delete from <table>

Sa Oracle, alang sa mga katuyoan sa pag-optimize sila nagsulat

delete from t where rowid in (<соединение t с дельтой>)

, ug Teradata ug GreenPlum nagsulat

delete from t where exists (select * from delta where delta.pk=t.pk)

Namatikdan usab namo nga aron makatrabaho si Ab Initio sa GreenPlum, gikinahanglan nga i-install ang kliyente sa GreenPlum sa tanang node sa cluster sa Ab Initio. Kini tungod kay nagkonektar kami sa GreenPlum nga dungan gikan sa tanan nga mga node sa among cluster. Ug aron ang pagbasa gikan sa GreenPlum mahimong magkaparehas ug ang matag parallel nga Ab Initio nga hilo aron mabasa ang kaugalingon nga bahin sa datos gikan sa GreenPlum, kinahanglan namon ibutang ang usa ka pagtukod nga nasabtan ni Ab Initio sa seksyon nga "diin" sa mga pangutana sa SQL

where ABLOCAL()

ug pagtino sa bili niini nga pagtukod pinaagi sa pagtino sa parameter nga pagbasa gikan sa database sa pagbag-o

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, nga nag-compile sa usa ka butang nga sama sa

mod(sk,10)=3

, i.e. kinahanglan nimo nga aghaton ang GreenPlum sa usa ka tin-aw nga pagsala alang sa matag partisyon. Alang sa ubang mga database (Teradata, Oracle), ang Ab Initio makahimo niini nga parallelization awtomatik.

Ab Initio pagtandi sa pasundayag tali sa Hive ug GreenPlum

Ang Sberbank nagpahigayon og eksperimento aron itandi ang performance sa MDW-generated graphs kalabot sa Hive ug sa GreenPlum. Isip kabahin sa eksperimento, sa kaso sa Hive adunay 5 nodes sa samang cluster sama sa Ab Initio, ug sa kaso sa GreenPlum adunay 4 nodes sa usa ka bulag nga cluster. Mga. Ang hive adunay pipila ka bentaha sa hardware kaysa sa GreenPlum.

Among gikonsiderar ang duha ka parisan sa mga graph nga naghimo sa samang tahas sa pag-update sa datos sa Hive ug GreenPlum. Sa samang higayon, ang mga graph nga gihimo sa MDW configurator gilunsad:

  • inisyal nga load + incremental load sa random nga namugna nga data ngadto sa Hive table
  • inisyal nga load + incremental load sa random nga namugna nga datos ngadto sa samang lamesa sa GreenPlum

Sa duha ka mga kaso (Hive ug GreenPlum) nagpadagan sila og mga pag-upload sa 10 ka parallel thread sa samang Ab Initio cluster. Gitipigan ni Ab Initio ang intermediate data para sa mga kalkulasyon sa HDFS (sa termino sa Ab Initio, MFS layout gamit ang HDFS ang gigamit). Ang usa ka linya sa random nga nahimo nga datos nag-okupar sa 200 bytes sa duha ka mga kaso.

Ang resulta ingon niini:

hive:

Inisyal nga pagkarga sa Hive

Gisulod ang mga laray
6 000 000
60 000 000
600 000 000

Gidugayon sa pagsugod
download sa mga segundo
41
203
1 601

Dugang nga pagkarga sa Hive

Gidaghanon sa mga laray nga anaa sa
target nga lamesa sa pagsugod sa eksperimento
6 000 000
60 000 000
600 000 000

Gidaghanon sa mga linya sa delta nga gigamit sa
target nga lamesa sa panahon sa eksperimento
6 000 000
6 000 000
6 000 000

Gidugayon sa incremental
download sa mga segundo
88
299
2 541

GreenPlum:

Inisyal nga pagkarga sa GreenPlum

Gisulod ang mga laray
6 000 000
60 000 000
600 000 000

Gidugayon sa pagsugod
download sa mga segundo
72
360
3 631

Dugang nga pagkarga sa GreenPlum

Gidaghanon sa mga laray nga anaa sa
target nga lamesa sa pagsugod sa eksperimento
6 000 000
60 000 000
600 000 000

Gidaghanon sa mga linya sa delta nga gigamit sa
target nga lamesa sa panahon sa eksperimento
6 000 000
6 000 000
6 000 000

Gidugayon sa incremental
download sa mga segundo
159
199
321

Nakita namon nga ang katulin sa inisyal nga pagkarga sa Hive ug GreenPlum linearly nagdepende sa gidaghanon sa datos ug, tungod sa mas maayo nga hardware, mas paspas kini alang sa Hive kaysa sa GreenPlum.

Ang incremental loading sa Hive linearly usab nagdepende sa gidaghanon sa na-load na nga datos nga anaa sa target table ug hinayhinay nga nagpadayon samtang ang volume motubo. Kini tungod sa panginahanglan sa pagsulat pag-usab sa target nga lamesa sa hingpit. Kini nagpasabot nga ang pag-apply sa gagmay nga mga pagbag-o sa dagkong mga lamesa dili maayo nga kaso sa paggamit alang sa Hive.

Ang incremental nga pagkarga sa GreenPlum huyang nga nagdepende sa gidaghanon sa na-load na nga datos nga anaa sa target nga lamesa ug paspas nga nagpadayon. Nahitabo kini salamat sa SQL Joins ug sa arkitektura sa GreenPlum, nga nagtugot sa operasyon sa pagtangtang.

Busa, gidugang sa GreenPlum ang delta gamit ang delete+insert method, apan ang Hive walay delete o update nga mga operasyon, mao nga ang tibuok data array napugos nga isulat pag-usab sa tibuok panahon sa incremental update. Ang pagtandi sa mga selula nga gipasiugda sa bold mao ang labing nagpadayag, tungod kay kini katumbas sa labing komon nga kapilian alang sa paggamit sa resource-intensive downloads. Nakita namon nga gipildi sa GreenPlum ang Hive sa kini nga pagsulay sa 8 ka beses.

Pagtrabaho sa Ab Initio sa GreenPlum sa Near Real Time mode

Sa kini nga eksperimento, among sulayan ang katakus ni Ab Initio sa pag-update sa lamesa sa GreenPlum nga adunay random nga nahimo nga mga tipik sa datos sa hapit sa tinuud nga oras. Atong tagdon ang GreenPlum nga lamesa dev42_1_db_usl.TESTING_SUBJ_org_finval, diin kita magtrabaho.

Atong gamiton ang tulo ka Ab Initio graphs aron magamit kini:

1) Graph Create_test_data.mp – nagmugna og data files sa HDFS nga adunay 10 ka laray sa 6 ka parallel threads. Ang datos random, ang istruktura niini giorganisar alang sa pagsal-ot sa among lamesa

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

2) Graph mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – Ang MDW nakamugna og graph pinaagi sa pag-initial sa data insertion sa among table sa 10 parallel threads (test data nga gihimo sa graph (1) gigamit)

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

3) Graph mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – usa ka graph nga gihimo sa MDW para sa incremental nga pag-update sa among lamesa sa 10 ka parallel thread gamit ang usa ka bahin sa bag-ong nadawat nga datos (delta) nga namugna sa graph (1)

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum

Atong daganon ang ubos nga script sa NRT mode:

  • makamugna og 6 ka linya sa pagsulay
  • paghimo sa usa ka inisyal nga load insert 6 test rows ngadto sa usa ka walay sulod nga lamesa
  • balika ang incremental download 5 ka beses
    • makamugna og 6 ka linya sa pagsulay
    • paghimo ug incremental insert sa 6 test rows ngadto sa table (niini nga kaso, ang valid_to_ts expiration time gitakda sa daan nga data ug mas bag-o nga data nga adunay parehas nga primary key ang gisal-ot)

Ang kini nga senaryo nagsundog sa paagi sa tinuud nga operasyon sa usa ka sistema sa negosyo - usa ka medyo dako nga bahin sa bag-ong datos nga makita sa tinuud nga oras ug gibubo dayon sa GreenPlum.

Karon atong tan-awon ang log sa script:

Sugdi ang Create_test_data.input.pset sa 2020-06-04 11:49:11
Taposa ang Create_test_data.input.pset sa 2020-06-04 11:49:37
Sugdi ang mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:49:37
Taposa ang mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:50:42
Sugdi ang Create_test_data.input.pset sa 2020-06-04 11:50:42
Taposa ang Create_test_data.input.pset sa 2020-06-04 11:51:06
Sugdi ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:51:06
Taposa ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:53:41
Sugdi ang Create_test_data.input.pset sa 2020-06-04 11:53:41
Taposa ang Create_test_data.input.pset sa 2020-06-04 11:54:04
Sugdi ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:54:04
Taposa ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:56:51
Sugdi ang Create_test_data.input.pset sa 2020-06-04 11:56:51
Taposa ang Create_test_data.input.pset sa 2020-06-04 11:57:14
Sugdi ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:57:14
Taposa ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 11:59:55
Sugdi ang Create_test_data.input.pset sa 2020-06-04 11:59:55
Taposa ang Create_test_data.input.pset sa 2020-06-04 12:00:23
Sugdi ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 12:00:23
Taposa ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 12:03:23
Sugdi ang Create_test_data.input.pset sa 2020-06-04 12:03:23
Taposa ang Create_test_data.input.pset sa 2020-06-04 12:03:49
Sugdi ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 12:03:49
Taposa ang mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset sa 2020-06-04 12:06:46

Kini nahimo nga kini nga litrato:

Graph
Pagsugod panahon
Paghuman sa oras
gitas-on

Create_test_data.input.pset
04.06.2020: 11: 49: 11
04.06.2020: 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 49: 37
04.06.2020: 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020: 11: 50: 42
04.06.2020: 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 51: 06
04.06.2020: 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020: 11: 53: 41
04.06.2020: 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 54: 04
04.06.2020: 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020: 11: 56: 51
04.06.2020: 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 57: 14
04.06.2020: 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020: 11: 59: 55
04.06.2020: 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 00: 23
04.06.2020: 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020: 12: 03: 23
04.06.2020: 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 03: 49
04.06.2020: 12: 06: 46
00:02:57

Nakita namon nga 6 nga mga linya sa pagdugang ang giproseso sa 000 minuto, nga paspas kaayo.
Ang datos sa target nga lamesa nahimo nga gipang-apod-apod sama sa mosunod:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Kung naa kay timbangan sa Sber. Paggamit sa Ab Initio nga adunay Hive ug GreenPlum
Imong makita ang mga sulat sa gisal-ot nga datos sa mga panahon nga gilusad ang mga graph.
Nagpasabot kini nga mahimo nimong ipadagan ang incremental loading sa datos sa GreenPlum sa Ab Initio nga adunay taas kaayo nga frequency ug maobserbahan ang taas nga tulin sa pagsal-ot niini nga datos sa GreenPlum. Siyempre, dili posible nga maglansad kausa sa usa ka segundo, tungod kay ang Ab Initio, sama sa bisan unsang himan sa ETL, nanginahanglan oras sa "pagsugod" kung gilunsad.

konklusyon

Ang Ab Initio kay gigamit karon sa Sberbank sa paghimo ug Unified Semantic Data Layer (ESS). Kini nga proyekto naglambigit sa pagtukod sa usa ka hiniusa nga bersyon sa estado sa lainlaing mga entidad sa negosyo sa bangko. Ang kasayuran gikan sa lainlaing mga gigikanan, ang mga kopya niini giandam sa Hadoop. Pinasukad sa mga panginahanglanon sa negosyo, ang usa ka modelo sa datos giandam ug ang mga pagbag-o sa datos gihulagway. Ang Ab Initio nagkarga sa impormasyon ngadto sa ESN ug ang na-download nga datos dili lamang sa interes sa negosyo sa iyang kaugalingon, kondili nagsilbi usab nga tinubdan sa pagtukod og mga data mart. Sa parehas nga oras, ang pagpaandar sa produkto nagtugot kanimo sa paggamit sa lainlaing mga sistema ingon usa ka tigdawat (Hive, Greenplum, Teradata, Oracle), nga nagpaposible nga dali nga maandam ang datos alang sa usa ka negosyo sa lainlaing mga format nga gikinahanglan niini.

Lapad ang mga kapabilidad ni Ab Initio; pananglitan, ang gilakip nga balangkas sa MDW nagpaposible sa paghimo sa teknikal ug pangkasaysayan nga datos sa negosyo sa gawas sa kahon. Alang sa mga nag-develop, gipaposible sa Ab Initio nga dili mabag-o ang ligid, apan magamit ang daghang mga naglungtad nga mga sangkap nga magamit, nga hinungdanon nga mga librarya nga gikinahanglan kung nagtrabaho uban ang datos.

Ang tagsulat usa ka eksperto sa propesyonal nga komunidad sa Sberbank SberProfi DWH/BigData. Ang propesyonal nga komunidad sa SberProfi DWH/BigData maoy responsable sa pagpalambo sa mga kompetensya sa mga lugar sama sa Hadoop ecosystem, Teradata, Oracle DB, GreenPlum, ingon man BI nga mga himan Qlik, SAP BO, Tableau, ug uban pa.

Source: www.habr.com

Idugang sa usa ka comment