Pirms kÄda laika saskÄrÄmies ar jautÄjumu par ETL rÄ«ka izvÄli darbam ar Big Data. IepriekÅ” izmantotais Informatica BDM risinÄjums mums nederÄja ierobežotas funkcionalitÄtes dÄļ. TÄs izmantoÅ”ana ir samazinÄta lÄ«dz sistÄmai spark-submit komandu palaiÅ”anai. TirgÅ« nebija daudz analogu, kas principÄ bÅ«tu spÄjÄ«gi strÄdÄt ar datu apjomu, ar kuru mÄs strÄdÄjam katru dienu. BeigÄs izvÄlÄjÄmies Ab Initio. PilotdemonstrÄjumu laikÄ produkts uzrÄdÄ«ja ļoti lielu datu apstrÄdes Ätrumu. Krievu valodÄ par Ab Initio gandrÄ«z nav informÄcijas, tÄpÄc mÄs nolÄmÄm runÄt par savu pieredzi vietnÄ HabrĆ©.
Ab Initio ir daudz klasisku un neparastu transformÄciju, kuru kodu var paplaÅ”inÄt, izmantojot savu PDL valodu. Mazam uzÅÄmumam Å”Äds spÄcÄ«gs rÄ«ks, visticamÄk, bÅ«s pÄrspÄ«lÄts, un lielÄkÄ daļa tÄ iespÄju var bÅ«t dÄrgi un neizmantoti. Bet, ja jÅ«su mÄrogs ir tuvu Sberova mÄrogiem, tad Ab Initio var jums bÅ«t interesants.
Tas palÄ«dz biznesam globÄli uzkrÄt zinÄÅ”anas un attÄ«stÄ«t ekosistÄmu, bet izstrÄdÄtÄjam uzlabot prasmes ETL, uzlabot zinÄÅ”anas ÄaulÄ, sniedz iespÄju apgÅ«t PDL valodu, sniedz vizuÄlu priekÅ”statu par ielÄdes procesiem un vienkÄrÅ”o izstrÄdi. funkcionÄlo komponentu pÄrpilnÄ«bas dÄļ.
Å ajÄ ierakstÄ es runÄÅ”u par Ab Initio iespÄjÄm un sniegÅ”u salÄ«dzinoÅ”us raksturlielumus tÄ darbam ar Hive un GreenPlum.
- MDW ietvara apraksts un darbs pie tÄ pielÄgoÅ”anas GreenPlum
- Ab Initio veiktspÄjas salÄ«dzinÄjums starp Hive un GreenPlum
- Darbs Ab Initio ar GreenPlum gandrÄ«z reÄllaika režīmÄ
Å Ä« produkta funkcionalitÄte ir ļoti plaÅ”a un prasa daudz laika, lai to izpÄtÄ«tu. TomÄr ar atbilstoÅ”Äm darba iemaÅÄm un pareiziem veiktspÄjas iestatÄ«jumiem datu apstrÄdes rezultÄti ir ļoti iespaidÄ«gi. Ab Initio izmantoÅ”ana izstrÄdÄtÄjam var sniegt interesantu pieredzi. Å is ir jauns ETL izstrÄdes skatÄ«jums, hibrÄ«ds starp vizuÄlo vidi un lejupielÄdes izstrÄdi skriptiem lÄ«dzÄ«gÄ valodÄ.
UzÅÄmumi attÄ«sta savas ekosistÄmas, un Å”is rÄ«ks ir noderÄ«gÄks nekÄ jebkad agrÄk. Izmantojot Ab Initio, jÅ«s varat uzkrÄt zinÄÅ”anas par savu paÅ”reizÄjo biznesu un izmantot Ŕīs zinÄÅ”anas, lai paplaÅ”inÄtu vecos un atvÄrtos jaunus uzÅÄmumus. AlternatÄ«vas Ab Initio ietver vizuÄlÄs izstrÄdes vides Informatica BDM un nevizuÄlÄs izstrÄdes vides Apache Spark.
Ab Initio apraksts
Ab Initio, tÄpat kÄ citi ETL rÄ«ki, ir produktu kolekcija.
Ab Initio GDE (Graphical Development Environment) ir izstrÄdÄtÄja vide, kurÄ viÅÅ” konfigurÄ datu transformÄcijas un savieno tÄs ar datu plÅ«smÄm bultiÅu veidÄ. Å ajÄ gadÄ«jumÄ Å”Ädu transformÄciju kopu sauc par grafiku:
FunkcionÄlo komponentu ieejas un izejas savienojumi ir porti un satur laukus, kas aprÄÄ·inÄti transformÄciju ietvaros. VairÄkus grafikus, kas savienoti ar plÅ«smÄm bultiÅu veidÄ to izpildes secÄ«bÄ, sauc par plÄnu.
Ir vairÄki simti funkcionÄlo komponentu, kas ir daudz. Daudzi no tiem ir ļoti specializÄti. Ab Initio klasisko transformÄciju iespÄjas ir plaÅ”Äkas nekÄ citos ETL rÄ«kos. PiemÄram, savienojumam ir vairÄkas izejas. Papildus datu kopu savienoÅ”anas rezultÄtam varat iegÅ«t to ievades datu kopu izvades ierakstus, kuru atslÄgas nevarÄja savienot. Varat arÄ« iegÅ«t noraidÄ«jumus, kļūdas un transformÄcijas operÄcijas žurnÄlu, ko var nolasÄ«t tajÄ paÅ”Ä kolonnÄ ar teksta failu un apstrÄdÄt ar citÄm transformÄcijÄm:
Vai, piemÄram, jÅ«s varat materializÄt datu uztvÄrÄju tabulas veidÄ un nolasÄ«t datus no tÄ tajÄ paÅ”Ä kolonnÄ.
Ir oriÄ£inÄlas pÄrvÄrtÄ«bas. PiemÄram, skenÄÅ”anas transformÄcijas funkcionalitÄte ir lÄ«dzÄ«ga analÄ«tiskajÄm funkcijÄm. Ir transformÄcijas ar paÅ”saprotamiem nosaukumiem: izveidot datus, lasÄ«t Excel, normalizÄt, kÄrtot grupÄs, palaist programmu, palaist SQL, pievienoties ar DB utt. Grafikos var izmantot izpildlaika parametrus, tostarp iespÄju pÄrsÅ«tÄ«t parametrus no vai uz operÄtÄjsistÄma. Failus ar gatavu parametru kopu, kas nodota grafikam, sauc par parametru kopÄm (psets).
KÄ gaidÄ«ts, Ab Initio GDE ir savs repozitorijs ar nosaukumu EME (Enterprise Meta Environment). IzstrÄdÄtÄjiem ir iespÄja strÄdÄt ar vietÄjÄm koda versijÄm un pÄrbaudÄ«t to attÄ«stÄ«bu centrÄlajÄ repozitorijÄ.
Izpildes laikÄ vai pÄc grafika izpildes ir iespÄjams noklikŔķinÄt uz jebkuras plÅ«smas, kas savieno transformÄciju, un apskatÄ«t datus, kas tika nodoti starp Ŕīm transformÄcijÄm:
Ir iespÄjams arÄ« noklikŔķinÄt uz jebkuras straumes un redzÄt izsekoÅ”anas informÄciju - cik paralÄlÄs transformÄcija darbojÄs, cik rindu un baitu tika ielÄdÄts kurÄ no paralÄlÄm:
Grafa izpildi var sadalÄ«t fÄzÄs un atzÄ«mÄt, ka vispirms ir jÄveic dažas transformÄcijas (nulles fÄzÄ), nÄkamÄs pirmajÄ fÄzÄ, nÄkamÄs otrajÄ fÄzÄ utt.
Katrai transformÄcijai var izvÄlÄties tÄ saukto izkÄrtojumu (kur tas tiks izpildÄ«ts): bez paralÄlÄm vai paralÄlos pavedienos, kuru skaitu var norÄdÄ«t. TajÄ paÅ”Ä laikÄ pagaidu failus, ko Ab Initio izveido, kad notiek transformÄcijas, var ievietot gan servera failu sistÄmÄ, gan HDFS.
KatrÄ transformÄcijÄ, pamatojoties uz noklusÄjuma veidni, varat izveidot savu skriptu PDL, kas ir mazliet kÄ apvalks.
Izmantojot PDL, jÅ«s varat paplaÅ”inÄt transformÄciju funkcionalitÄti un jo Ä«paÅ”i dinamiski (izpildlaikÄ) Ä£enerÄt patvaļīgus koda fragmentus atkarÄ«bÄ no izpildlaika parametriem.
Ab Initio ir arÄ« labi attÄ«stÄ«ta integrÄcija ar OS, izmantojot apvalku. KonkrÄti, Sberbank izmanto linux ksh. Varat apmainÄ«ties ar mainÄ«gajiem ar apvalku un izmantot tos kÄ diagrammas parametrus. Varat izsaukt Ab Initio grafiku izpildi no Äaulas un administrÄt Ab Initio.
Papildus Ab Initio GDE piegÄdÄ ir iekļauti arÄ« daudzi citi produkti. Ir sava sadarbÄ«bas sistÄma ar prasÄ«bu saukt par operÄtÄjsistÄmu. Ir vadÄ«bas> centrs, kurÄ varat plÄnot un pÄrraudzÄ«t lejupielÄdes plÅ«smas. Ir produkti izstrÄdei primitÄ«vÄkÄ lÄ«menÄ«, nekÄ to pieļauj Ab Initio GDE.
MDW ietvara apraksts un darbs pie tÄ pielÄgoÅ”anas GreenPlum
KopÄ ar saviem produktiem pÄrdevÄjs piegÄdÄ MDW (Metadata Driven Warehouse) produktu, kas ir grafiku konfigurators, kas paredzÄts, lai palÄ«dzÄtu veikt tipiskus datu noliktavu vai datu glabÄtuvju aizpildÄ«Å”anas uzdevumus.
TajÄ ir iekļauti pielÄgoti (projektam specifiski) metadatu analizatori un gatavi kodu Ä£eneratori.
KÄ ievadi MDW saÅem datu modeli, konfigurÄcijas failu savienojuma izveidei ar datu bÄzi (Oracle, Teradata vai Hive) un dažus citus iestatÄ«jumus. PiemÄram, projektam specifiskÄ daļa izvieto modeli datu bÄzÄ. Produkta gatavÄ daļa Ä£enerÄ tiem grafikus un konfigurÄcijas failus, ielÄdÄjot datus modeļu tabulÄs. Å ajÄ gadÄ«jumÄ grafiki (un psets) tiek izveidoti vairÄkiem inicializÄÅ”anas un entÄ«tiju atjauninÄÅ”anas pakÄpeniska darba režīmiem.
Hive un RDBMS gadÄ«jumos inicializÄcijai un papildu datu atjauninÄÅ”anai tiek Ä£enerÄti dažÄdi grafiki.
Hive gadÄ«jumÄ ienÄkoÅ”ie delta dati tiek savienoti, izmantojot Ab Initio Join, ar datiem, kas bija tabulÄ pirms atjauninÄÅ”anas. Datu ielÄdÄtÄji MDW (gan Hive, gan RDBMS) ne tikai ievieto jaunus datus no delta, bet arÄ« aizver to datu atbilstÄ«bas periodus, kuru primÄrÄs atslÄgas saÅÄma delta. TurklÄt jums ir jÄpÄrraksta nemainÄ«tÄ datu daļa. Bet tas ir jÄdara, jo Hive nav dzÄÅ”anas vai atjauninÄÅ”anas darbÄ«bu.
RDBMS gadÄ«jumÄ grafiki pakÄpeniskai datu atjauninÄÅ”anai izskatÄs optimÄlÄki, jo RDBMS ir reÄlas atjauninÄÅ”anas iespÄjas.
SaÅemtÄ delta tiek ielÄdÄta datu bÄzes starptabulÄ. PÄc tam delta tiek savienota ar datiem, kas bija tabulÄ pirms atjauninÄÅ”anas. Un tas tiek darÄ«ts, izmantojot SQL, izmantojot Ä£enerÄtu SQL vaicÄjumu. TÄlÄk, izmantojot SQL komandas delete+insert, mÄrÄ·a tabulÄ tiek ievietoti jauni dati no delta un tiek aizvÄrti to datu atbilstÄ«bas periodi, kuru primÄrÄs atslÄgas saÅÄma delta.
Nav nepiecieÅ”ams pÄrrakstÄ«t nemainÄ«tos datus.
TÄtad mÄs nonÄcÄm pie secinÄjuma, ka Hive gadÄ«jumÄ MDW ir jÄiet pÄrrakstÄ«t visu tabulu, jo Hive nav atjauninÄÅ”anas funkcijas. Un nekas labÄks par datu pilnÄ«gu pÄrrakstÄ«Å”anu, kad ir izgudrota atjauninÄÅ”ana. RDBMS gadÄ«jumÄ, gluži pretÄji, produkta veidotÄji uzskatÄ«ja par nepiecieÅ”amu tabulu savienoÅ”anu un atjauninÄÅ”anu uzticÄt SQL lietoÅ”anai.
Sberbank projektam mÄs izveidojÄm jaunu, atkÄrtoti lietojamu datu bÄzes ielÄdÄtÄja ievieÅ”anu GreenPlum. Tas tika darÄ«ts, pamatojoties uz versiju, ko MDW Ä£enerÄ Teradata. Tas bija Teradata, nevis Oracle, kas tam bija vistuvÄkais un vislabÄkais, jo... ir arÄ« MPP sistÄma. Teradata un GreenPlum darba metodes, kÄ arÄ« sintakse izrÄdÄ«jÄs lÄ«dzÄ«gas.
MDW kritisko atŔķirÄ«bu piemÄri starp dažÄdÄm RDBMS ir Å”Ädi. ProgrammÄ GreenPlum, atŔķirÄ«bÄ no Teradata, veidojot tabulas, ir jÄraksta klauzula
distributed by
Teradata raksta:
delete <table> all
, un GreenPlum viÅi raksta
delete from <table>
Oracle optimizÄcijas nolÅ«kos viÅi raksta
delete from t where rowid in (<ŃŠ¾ŠµŠ“ŠøŠ½ŠµŠ½ŠøŠµ t Ń Š“ŠµŠ»ŃŃŠ¾Š¹>)
, un Teradata un GreenPlum raksta
delete from t where exists (select * from delta where delta.pk=t.pk)
MÄs arÄ« atzÄ«mÄjam, ka, lai Ab Initio strÄdÄtu ar GreenPlum, bija nepiecieÅ”ams instalÄt GreenPlum klientu visos Ab Initio klastera mezglos. Tas ir tÄpÄc, ka mÄs vienlaikus izveidojÄm savienojumu ar GreenPlum no visiem mÅ«su klastera mezgliem. Un, lai lasÄ«Å”ana no GreenPlum bÅ«tu paralÄla un katrs paralÄlais Ab Initio pavediens nolasÄ«tu savu datu daļu no GreenPlum, mums bija jÄievieto Ab Initio saprotama konstrukcija SQL vaicÄjumu sadaÄ¼Ä ākurā
where ABLOCAL()
un noteikt Ŕīs konstrukcijas vÄrtÄ«bu, norÄdot parametru nolasÄ«jumu no transformÄciju datu bÄzes
ablocal_expr=Ā«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))Ā»
, kas apkopo uz kaut ko līdzīgu
mod(sk,10)=3
, t.i. jums ir jÄpieprasa GreenPlum ar skaidru filtru katram nodalÄ«jumam. CitÄm datu bÄzÄm (Teradata, Oracle) Ab Initio var veikt Å”o paralÄlizÄciju automÄtiski.
Ab Initio veiktspÄjas salÄ«dzinÄjums starp Hive un GreenPlum
Sberbank veica eksperimentu, lai salÄ«dzinÄtu MDW Ä£enerÄto grafiku veiktspÄju saistÄ«bÄ ar Hive un GreenPlum. Eksperimenta ietvaros Hive gadÄ«jumÄ tajÄ paÅ”Ä klasterÄ«, kur Ab Initio, bija 5 mezgli, savukÄrt GreenPlum gadÄ«jumÄ atseviÅ”Ä·Ä klasterÄ« bija 4 mezgli. Tie. Hive bija dažas aparatÅ«ras priekÅ”rocÄ«bas salÄ«dzinÄjumÄ ar GreenPlum.
MÄs izskatÄ«jÄm divus grafiku pÄrus, kas veic vienu un to paÅ”u datu atjauninÄÅ”anas uzdevumu Hive un GreenPlum. TajÄ paÅ”Ä laikÄ tika palaisti MDW konfiguratora Ä£enerÄtie grafiki:
- sÄkotnÄjÄ slodze + nejauÅ”i Ä£enerÄtu datu pakÄpeniska slodze Hive tabulÄ
- sÄkotnÄjÄ slodze + nejauÅ”i Ä£enerÄtu datu pakÄpeniska slodze tajÄ paÅ”Ä GreenPlum tabulÄ
Abos gadÄ«jumos (Hive un GreenPlum) tie veica augÅ”upielÄdi 10 paralÄlos pavedienos tajÄ paÅ”Ä Ab Initio klasterÄ«. Ab Initio saglabÄja starpposma datus aprÄÄ·iniem HDFS (attiecÄ«bÄ uz Ab Initio tika izmantots MFS izkÄrtojums, izmantojot HDFS). Viena nejauÅ”i Ä£enerÄtu datu rinda abos gadÄ«jumos aizÅÄma 200 baitus.
RezultÄts bija Å”Äds:
Strops:
SÄkotnÄjÄ ielÄde Hive
Rindas ir ievietotas
6 000 000
60 000 000
600 000 000
InicializÄcijas ilgums
lejupielÄdes sekundÄs
41
203
1 601
PakÄpeniska iekrauÅ”ana stropÄ
Pieejamo rindu skaits
mÄrÄ·a tabula eksperimenta sÄkumÄ
6 000 000
60 000 000
600 000 000
Pielietoto delta līniju skaits
mÄrÄ·a tabula eksperimenta laikÄ
6 000 000
6 000 000
6 000 000
Pieaugumu ilgums
lejupielÄdes sekundÄs
88
299
2 541
GreenPlum:
SÄkotnÄjÄ ielÄde GreenPlum
Rindas ir ievietotas
6 000 000
60 000 000
600 000 000
InicializÄcijas ilgums
lejupielÄdes sekundÄs
72
360
3 631
PakÄpeniska iekrauÅ”ana GreenPlum
Pieejamo rindu skaits
mÄrÄ·a tabula eksperimenta sÄkumÄ
6 000 000
60 000 000
600 000 000
Pielietoto delta līniju skaits
mÄrÄ·a tabula eksperimenta laikÄ
6 000 000
6 000 000
6 000 000
Pieaugumu ilgums
lejupielÄdes sekundÄs
159
199
321
MÄs redzam, ka sÄkotnÄjÄs ielÄdes Ätrums gan Hive, gan GreenPlum ir lineÄri atkarÄ«gs no datu apjoma un labÄkas aparatÅ«ras dÄļ Hive ir nedaudz ÄtrÄks nekÄ GreenPlum.
PakÄpeniskÄ ielÄde Hive arÄ« lineÄri ir atkarÄ«ga no iepriekÅ” ielÄdÄto datu apjoma, kas pieejams mÄrÄ·a tabulÄ, un notiek diezgan lÄni, pieaugot apjomam. To izraisa nepiecieÅ”amÄ«ba pilnÄ«bÄ pÄrrakstÄ«t mÄrÄ·a tabulu. Tas nozÄ«mÄ, ka nelielu izmaiÅu piemÄroÅ”ana milzÄ«gÄm tabulÄm nav piemÄrota Hive lietoÅ”anai.
PakÄpeniskÄ ielÄde GreenPlum ir vÄji atkarÄ«ga no iepriekÅ” ielÄdÄto datu apjoma, kas pieejams mÄrÄ·a tabulÄ, un notiek diezgan Ätri. Tas notika, pateicoties SQL Joins un GreenPlum arhitektÅ«rai, kas ļauj veikt dzÄÅ”anas darbÄ«bu.
TÄtad, GreenPlum pievieno delta, izmantojot metodi dzÄÅ”ana + ievietoÅ”ana, bet Hive nav dzÄÅ”anas vai atjauninÄÅ”anas darbÄ«bu, tÄpÄc pakÄpeniskas atjauninÄÅ”anas laikÄ viss datu masÄ«vs bija spiests pilnÄ«bÄ pÄrrakstÄ«t. TreknrakstÄ iezÄ«mÄto Ŕūnu salÄ«dzinÄjums ir visizteiktÄkais, jo tas atbilst visizplatÄ«tÄkajai resursietilpÄ«go lejupielÄžu izmantoÅ”anai. MÄs redzam, ka GreenPlum Å”ajÄ testÄ pÄrspÄja Hive 8 reizes.
Darbs Ab Initio ar GreenPlum gandrÄ«z reÄllaika režīmÄ
Å ajÄ eksperimentÄ mÄs pÄrbaudÄ«sim Ab Initio spÄju atjauninÄt GreenPlum tabulu ar nejauÅ”i Ä£enerÄtiem datu gabaliem gandrÄ«z reÄllaikÄ. ApskatÄ«sim GreenPlum tabulu dev42_1_db_usl.TESTING_SUBJ_org_finval, ar kuru mÄs strÄdÄsim.
Lai strÄdÄtu ar to, mÄs izmantosim trÄ«s Ab Initio diagrammas:
1) Graph Create_test_data.mp ā izveido datu failus HDFS ar 10 6 000 rindÄm 000 paralÄlos pavedienos. Dati ir nejauÅ”i, to struktÅ«ra ir sakÄrtota ievietoÅ”anai mÅ«su tabulÄ
2) Grafs mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ā MDW Ä£enerÄts grafiks, inicializÄjot datu ievietoÅ”anu mÅ«su tabulÄ 10 paralÄlos pavedienos (tiek izmantoti testa dati, ko Ä£enerÄ grafiks (1))
3) Grafs mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ā grafiks, ko Ä£enerÄ MDW mÅ«su tabulas pakÄpeniskai atjauninÄÅ”anai 10 paralÄlos pavedienos, izmantojot daļu no tikko saÅemtajiem datiem (delta), ko Ä£enerÄ grafiks (1)
PalaidÄ«sim tÄlÄk norÄdÄ«to skriptu NRT režīmÄ:
- Ä£enerÄt 6 000 000 testa lÄ«niju
- veiciet sÄkotnÄjo ielÄdi, ievietojiet 6 000 000 testa rindas tukÅ”Ä tabulÄ
- atkÄrtojiet pakÄpenisku lejupielÄdi 5 reizes
- Ä£enerÄt 6 000 000 testa lÄ«niju
- veiciet 6 000 000 testa rindu pakÄpenisku ievietoÅ”anu tabulÄ (Å”ajÄ gadÄ«jumÄ derÄ«guma termiÅÅ” valid_to_ts tiek iestatÄ«ts uz vecajiem datiem un tiek ievietoti jaunÄki dati ar to paÅ”u primÄro atslÄgu)
Å is scenÄrijs atdarina noteiktas biznesa sistÄmas reÄlÄs darbÄ«bas režīmu - diezgan liela daļa jaunu datu parÄdÄs reÄllaikÄ un nekavÄjoties tiek ielieti GreenPlum.
Tagad apskatÄ«sim skripta žurnÄlu:
SÄkt Create_test_data.input.pset 2020-06-04 11:49:11
Pabeigt Create_test_data.input.pset 2020-06-04 11:49:37
SÄkt mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:49:37
Pabeigt mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:50:42
SÄkt Create_test_data.input.pset 2020-06-04 11:50:42
Pabeigt Create_test_data.input.pset 2020-06-04 11:51:06
SÄkt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:51:06
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:53:41
SÄkt Create_test_data.input.pset 2020-06-04 11:53:41
Pabeigt Create_test_data.input.pset 2020-06-04 11:54:04
SÄkt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:54:04
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:56:51
SÄkt Create_test_data.input.pset 2020-06-04 11:56:51
Pabeigt Create_test_data.input.pset 2020-06-04 11:57:14
SÄkt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:57:14
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:59:55
SÄkt Create_test_data.input.pset 2020-06-04 11:59:55
Pabeigt Create_test_data.input.pset 2020-06-04 12:00:23
SÄkt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:00:23
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:23
SÄkt Create_test_data.input.pset 2020-06-04 12:03:23
Pabeigt Create_test_data.input.pset 2020-06-04 12:03:49
SÄkt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:49
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:06:46
IzrÄdÄs Å”is attÄls:
Diagramma
SÄkuma laiks
Pabeigt laiku
Garums
Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26
mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05
Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35
Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47
Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41
Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00
Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57
MÄs redzam, ka 6 000 000 pieauguma rindas tiek apstrÄdÄtas 3 minÅ«tÄs, kas ir diezgan Ätri.
Dati mÄrÄ·a tabulÄ izrÄdÄ«jÄs sadalÄ«ti Å”Ädi:
select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;
JÅ«s varat redzÄt ievietoto datu atbilstÄ«bu grafiku palaiÅ”anas laikiem.
Tas nozÄ«mÄ, ka jÅ«s varat palaist pakÄpenisku datu ielÄdi GreenPlum programmÄ Ab Initio ar ļoti augstu frekvenci un novÄrot lielu Ätrumu Å”o datu ievietoÅ”anai GreenPlum. Protams, to nevarÄs palaist reizi sekundÄ, jo Ab Initio, tÄpat kÄ jebkuram ETL rÄ«kam, ir nepiecieÅ”ams laiks, lai palaistu darbÄ«bu.
SecinÄjums
PaÅ”laik Sberbank izmanto Ab Initio, lai izveidotu vienotu semantisko datu slÄni (ESS). Å is projekts paredz dažÄdu banku biznesa vienÄ«bu valsts vienotas versijas izveidi. InformÄcija nÄk no dažÄdiem avotiem, kuru kopijas ir sagatavotas vietnÄ Hadoop. Pamatojoties uz biznesa vajadzÄ«bÄm, tiek sagatavots datu modelis un aprakstÄ«tas datu transformÄcijas. Ab Initio ielÄdÄ informÄciju ESN, un lejupielÄdÄtie dati ne tikai interesÄ paÅ”u uzÅÄmumu, bet arÄ« kalpo kÄ avots datu tirgu veidoÅ”anai. TajÄ paÅ”Ä laikÄ produkta funkcionalitÄte ļauj izmantot dažÄdas sistÄmas kÄ uztvÄrÄju (Hive, Greenplum, Teradata, Oracle), kas ļauj Ärti sagatavot datus biznesam dažÄdos tam nepiecieÅ”amajos formÄtos.
Ab Initio iespÄjas ir plaÅ”as, piemÄram, iekļautais MDW ietvars ļauj no kastes izveidot tehniskos un biznesa vÄsturiskos datus. IzstrÄdÄtÄjiem Ab Initio dod iespÄju nevis izgudrot riteni no jauna, bet izmantot daudzus esoÅ”os funkcionÄlos komponentus, kas bÅ«tÄ«bÄ ir bibliotÄkas, kas nepiecieÅ”amas, strÄdÄjot ar datiem.
Autors ir Sberbank SberProfi DWH/BigData profesionÄlÄs kopienas eksperts. SberProfi DWH/BigData profesionÄlÄ kopiena ir atbildÄ«ga par kompetenÄu attÄ«stÄ«Å”anu tÄdÄs jomÄs kÄ Hadoop ekosistÄma, Teradata, Oracle DB, GreenPlum, kÄ arÄ« BI rÄ«ki Qlik, SAP BO, Tableau utt.
Avots: www.habr.com