Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Waqti ka hor, waxaan la kulannay su'aasha ah doorashada qalab ETL ah oo lagula shaqeynayo Xogta Weyn. Xalka Informatica BDM ee hore loo isticmaalay nooma ay habboonayn shaqada xaddidan awgeed. Isticmaalkeeda ayaa loo dhimay qaab-dhismeedka lagu bilaabayo amarada dhimbiil-gudbinta. Ma jirin wax badan oo analoog ah oo suuqa ku jiray, kuwaas oo mabda 'ahaan, awood u leh inay la shaqeeyaan mugga xogta ee aan la macaamilno maalin kasta. Ugu dambeyntii waxaan dooranay Ab Initio. Intii lagu guda jiray bandhigyada tijaabada, alaabtu waxay muujisay xawaare farsamayneed oo aad u sarreeya. Ku dhawaad ​​ma jiraan wax macluumaad ah oo ku saabsan Ab Initio oo Ruush ah, sidaa darteed waxaan go'aansanay inaan ka hadalno khibradeena Habré.

Ab Initio waxay leedahay isbedelo badan oo caadi ah oo aan caadi ahayn, kuwaas oo koodka lagu kordhin karo luqadeeda PDL. Meherad yar, qalabkan xoogga badan waxa ay u badan tahay in uu noqon doono mid xad dhaaf ah, inta badana awooddiisu waxa ay noqon kartaa mid qaali ah oo aan la isticmaalin. Laakiin haddii miisaankaagu u dhow yahay Sberov's, markaa Ab Initio ayaa laga yaabaa inay xiiso kuu yeelato.

Waxay ka caawisaa ganacsigu inuu ururiyo aqoonta caalamiga ah oo uu horumariyo nidaamka deegaanka, iyo horumariye si uu u horumariyo xirfadihiisa ETL, wanaajiyo aqoontiisa qolofka, waxay siisaa fursad uu ku barto luqadda PDL, wuxuu bixiyaa sawir muuqaal ah oo ku saabsan hababka rarka, oo fududeeya horumarka. iyadoo ay ugu wacan tahay badnaanta qaybaha shaqada.

Maqaalkan waxaan ka hadli doonaa awoodaha Ab Initio waxaanan bixin doonaa sifooyin isbarbardhig ah oo ku saabsan shaqadeeda Hive iyo GreenPlum.

  • Sharaxaada qaabka MDW iyo ka shaqaynta habaynteeda GreenPlum
  • Isbarbardhigga waxqabadka Ab Initio ee u dhexeeya Hive iyo GreenPlum
  • Ku shaqaynta Ab Initio oo leh GreenPlum qaabka Wakhtiga-dhabta ah


Shaqada alaabtani waa mid aad u ballaaran waxayna u baahan tahay waqti badan oo lagu barto. Si kastaba ha noqotee, iyada oo leh xirfadaha shaqo ee saxda ah iyo goobaha waxqabadka saxda ah, natiijooyinka habaynta xogta waa mid aad u cajiib ah. Isticmaalka Ab Initio horumariyaha waxay ku siin kartaa khibrad xiiso leh. Tani waa aragti cusub oo ku saabsan horumarinta ETL, isku-dhafan u dhexeeya jawi muuqaal ah iyo horumarinta soo dejinta luqadda qoraalka u eg.

Ganacsiyadu waxay horumarinayaan hab-nololeedkooda, qalabkanina wuxuu si ka badan sidii hore u anfacaa. Ab Initio, waxaad ku ururin kartaa aqoonta ku saabsan ganacsigaaga hadda oo waxaad isticmaali kartaa aqoontan si aad u ballaariso ganacsiyadii hore iyo furitaanka. Beddelka Ab Initio waxaa ka mid ah deegaanka horumarinta aragga Informatica BDM iyo deegaan horumarinta aan muuqaal ahayn Apache Spark.

Sharaxaada Ab Initio

Ab Initio, sida qalabka kale ee ETL, waa alaab ururin.

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Ab Initio GDE (Graphical Development Environment) waa deegaan loogu talagalay horumariyaha kaas oo uu ku habeeyo isbeddelka xogta oo uu ku xidho qulqulka xogta qaab fallaadho ah. Xaaladdan oo kale, isbeddellada noocaan ah waxaa loo yaqaan garaaf:

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Xidhiidhada wax-gelinta iyo soo-saarka ee qaybaha shaqayntu waa dekedo waxayna ka kooban yihiin goobo lagu xisaabiyay isbeddellada dhexdooda. Garaafyo dhowr ah oo ku xiran qulqulka qaabka falaadhaha ee habka ay u fulinayaan ayaa loo yaqaan qorshe.

Waxaa jira dhowr boqol oo qaybood oo shaqeynaya, taas oo ah wax badan. Qaar badan oo iyaga ka mid ah ayaa ah kuwo aad ugu takhasusay. Awoodaha isbeddellada caadiga ah ee Ab Initio way ka ballaaran yihiin qalabka kale ee ETL. Tusaale ahaan, ku biirku waxa uu leeyahay wax soo saar badan. Marka lagu daro natiijada isku xirka xog-ururinta, waxaad heli kartaa diiwaannada soo-saarka xogta kaydka ee furayaasha aan la xidhi karin. Waxa kale oo aad heli kartaa diidmo, khaladaad iyo diiwaanka hawlgalka isbeddelka, kaas oo lagu akhrin karo isla tiirka faylka qoraalka oo lagu farsameeyo isbeddello kale:

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Ama, tusaale ahaan, waxaad ka dhigi kartaa xogta qaataha qaab shax ah oo aad xogta ka akhrido isla tiiradda.

Waxaa jira isbeddello asal ah. Tusaale ahaan, isbeddelka Scan wuxuu leeyahay hawlqabad la mid ah hawlaha falanqaynta. Waxaa jira isbeddello leh magacyo is-sharaxaya: Abuur Xogta, Akhri Excel, Caadiye, U kala sooc kooxaha, Barnaamijka Run, Orod SQL, Ku biir DB, iwm. nidaamka hawlgalka . Faylasha leh jaangooyooyin diyaarsan oo loo gudbiyay garaafka waxaa loo yaqaan 'parameter sets' (psets).

Sida la filayo, Ab Initio GDE waxay leedahay kayd u ​​gaar ah oo loo yaqaan EME (Enterprise Meta Environment). Horumariyayaashu waxay fursad u haystaan ​​inay la shaqeeyaan noocyada koodka gudaha oo ay hubiyaan horumarkooda kaydka dhexe.

Waxaa suurtogal ah, inta lagu jiro fulinta ama ka dib fulinta garaafka, si aad u riixdo qulqul kasta oo isku xira isbeddelka oo aad eegto xogta dhex martay isbeddeladan:

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Waxa kale oo suurtogal ah in la riixo qulqul kasta oo la arko faahfaahinta dabagalka - inta isbarbardhigga isbeddelku ka shaqeeyay, inta xariiq iyo bayt lagu rakibay midkee barbar socda:

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Waxaa suurtogal ah in fulinta garaafyada loo qaybiyo wejiyo oo la calaamadiyo in isbeddellada qaarkood loo baahan yahay in la sameeyo marka hore (wajiga eber), kuwa soo socda ee wejiga koowaad, kuwa soo socda ee wejiga labaad, iwm.

Isbeddel kasta, waxaad dooran kartaa waxa loogu yeero qaabeynta (meesha lagu fulin doono): iyada oo aan isbarbardhigin ama isku-dhafka isku midka ah, tirada kuwaas oo la cayimi karo. Isla mar ahaantaana, faylasha ku meel gaadhka ah ee Ab Initio ay abuurto marka isbeddelku socdo waxaa lagu dhejin karaa labadaba nidaamka faylka serverka iyo HDFS.

Isbeddel kasta, oo ku salaysan qaabka caadiga ah, waxaad samayn kartaa qoraalkaaga PDL, kaas oo u eg qolof kale.

PDL waxaad ku kordhin kartaa shaqeynta isbeddellada, gaar ahaan, waxaad si firfircooni ah (waqtiga runtime) u abuuri kartaa jajab kood aan sabab lahayn iyadoo ku xiran cabbirrada runtime.

Ab Initio waxa kale oo uu si fiican u horumaray is dhexgalka OS iyada oo loo marayo qolof. Gaar ahaan, Sberbank waxay isticmaashaa linux ksh. Waxaad ku beddelan kartaa doorsoomayaasha qolofka oo aad u isticmaali kartaa cabbir garaaf ahaan. Waxaad wici kartaa fulinta garaafyada Ab Initio qolofka oo maamul Ab Initio.

Marka lagu daro Ab Initio GDE, badeecooyin kale oo badan ayaa lagu daray gaarsiinta. Waxaa jira iskaashi u gaar ah>Operation System oo leh sheegashada loogu yeero nidaamka hawlgalka. Waxa jira Xarun Control>Xarun ah oo aad ka ballansan karto oo aad kula socon karto socodka soo dejinta. Waxaa jira badeecooyin loogu talagalay samaynta horumarinta heer hore oo ka badan inta Ab Initio GDE oggol yahay.

Sharaxaada qaabka MDW iyo ka shaqaynta habaynteeda GreenPlum

Iyada oo la socota alaabteeda, iibiyuhu wuxuu bixiyaa MDW (Metadata Driven Warehouse), kaas oo ah qaabeeyaha garaaf ee loogu talagalay inuu ka caawiyo hawlaha caadiga ah ee buuxinta bakhaarrada xogta ama khasnadaha xogta.

Waxay ka kooban tahay caadadii (mashruuc-gaar ah) baarayaasha xogta badan iyo koronto-dhaliyeyaasha diyaarsan ee ka baxsan sanduuqa.

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum
Gelin ahaan, MDW waxa ay heshaa qaabka xogta, faylka qaabeynta ee dejinta xidhiidhka xogta xogta (Oracle, Teradata ama Hive) iyo qaar kale oo dejin ah. Qaybta gaarka ah ee mashruuca, tusaale ahaan, waxa ay geysaa moodalka kaydka xogta. Qaybta sanduuqa ka baxsan ee alaabtu waxay soo saartaa garaafyo iyo faylal qaabayn iyaga oo xogta ku shubaya miisaska moodeelka. Xaaladdan oo kale, garaafyo (iyo psets) ayaa loo abuuray dhowr nooc oo shaqo bilaabis iyo kordhin ah oo ku saabsan cusboonaysiinta hay'adaha.

Xaaladaha Hive iyo RDBMS, garaafyo kala duwan ayaa loo sameeyay bilowga iyo kordhinta xogta.

Xaaladda Hive, xogta delta ee soo socota waxay ku xidhan tahay Ab Initio Ku biir xogta ku jirtay shaxda ka hor cusboonaysiinta. Raadiyeyaasha xogta ee MDW (labadaba ku jira Hive iyo RDBMS) kaliya ma gelinayaan xogta cusub ee delta, laakiin sidoo kale waxay xidhaan xilliyada ku habboonaanta xogta furahooda aasaasiga ah ay heleen delta. Intaa waxaa dheer, waa inaad dib u qortaa qaybta aan isbeddelin ee xogta. Laakiin tan waa in la sameeyaa sababtoo ah Hive ma laha wax tirtirid ama cusbooneysiin.

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Marka laga hadlayo RDBMS, garaafyada cusboonaysiinta xogta kordhinta waxay u muuqdaan kuwo aad u wanaagsan, sababtoo ah RDBMS waxay leedahay awoodo cusbooneysiin oo dhab ah.

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Deelta la helay waxa lagu shubaa miis dhexe oo kaydka xogta ah. Taas ka dib, delta waxay ku xiran tahay xogta ku jirtay miiska ka hor cusbooneysiinta. Tan waxaa lagu sameeyaa iyadoo la adeegsanayo SQL iyadoo la adeegsanayo weydiinta SQL ee la soo saaray. Marka xigta, iyadoo la adeegsanayo amarrada SQL tirtirka + gelista, xogta cusub ee delta ayaa la geliyaa miiska bartilmaameedka iyo xilliyada khuseeya xogta furayaasha aasaasiga ah ee helay delta waa la xiray.
Looma baahna in dib loo qoro xogta aan isbeddelin.

Markaa waxaan gaadhnay in marka laga hadlayo Hive, MDW ay tahay inay tagto si ay dib ugu qorto miiska oo dhan sababtoo ah Hive ma laha wax cusub. Mana jiraan wax ka fiican in gabi ahaanba dib loo qoro xogta marka la cusboonaysiinayo la alifay. Marka laga hadlayo RDBMS, liddi ku ah, abuurayaasha badeecadu waxay ogaadeen inay lagama maarmaan tahay in lagu aamino isku xirka iyo cusboonaysiinta miisaska isticmaalka SQL.

Mashruuc ka socda Sberbank, waxaan u abuurnay dhaqangelin dib loo isticmaali karo oo cusub oo ah kaydiyaha xogta GreenPlum. Tan waxaa la sameeyay iyadoo lagu salaynayo nooca ay MDW u soo saarto Teradata. Waxay ahayd Teradata, oo ma ahayn Oracle, kan ugu dhowaa uguna wanagsan tan, sababtoo ah... sidoo kale waa nidaamka MPP. Hababka shaqada, iyo sidoo kale syntax, ee Teradata iyo GreenPlum waxay noqdeen kuwo isku mid ah.

Tusaalooyinka MDW-kala duwanaanshaha muhiimka ah ee u dhexeeya RDBMS-yada kala duwan waa sida soo socota. GreenPlum, si ka duwan Teradata, marka aad samaynayso miisaska waxaad u baahan tahay inaad qorto qodob

distributed by

Teradata ayaa qoray:

delete <table> all

, iyo GreenPlum waxay ku qoraan

delete from <table>

Gudaha Oracle, ujeedooyinka wanaajinta ayay wax u qoraan

delete from t where rowid in (<соединение t с дельтой>)

, iyo Teradata iyo GreenPlum ayaa qoraya

delete from t where exists (select * from delta where delta.pk=t.pk)

Waxaan sidoo kale ogaanay in Ab Initio si uu ula shaqeeyo GreenPlum, ay lagama maarmaan noqotay in lagu rakibo macmiilka GreenPlum dhammaan qanjidhada Ab Initio. Tani waa sababta oo ah waxaan isku mar ku xidhnay GreenPlum dhammaan noodyada kutladayada. Si akhriska GreenPlum uu u noqdo mid barbar socda oo mid kasta oo barbar socda dunta Ab Initio si ay u akhrido qaybteeda xogta GreenPlum, waxay ahayd in aan dhigno dhisme uu fahmay Ab Initio qaybta "meesha" ee weydiimaha SQL.

where ABLOCAL()

oo go'aanso qiimaha dhismahan adoo qeexaya akhrinta halbeegga ee kaydka isbeddelka

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, kaas oo soo ururinaya wax la mid ah

mod(sk,10)=3

, i.e. Waa inaad ku soo gudbisaa GreenPlum shaandheyn cad qayb kasta. Xogta kale (Teradata, Oracle), Ab Initio wuxuu si toos ah u samayn karaa isbarbardhiggan.

Isbarbardhigga waxqabadka Ab Initio ee u dhexeeya Hive iyo GreenPlum

Sberbank waxa ay samaysay tijaabo ay ku barbar dhigayso waxqabadka garaafyada MDW-ku soo saaray ee la xidhiidha Hive iyo la xidhiidha GreenPlum. Iyada oo qayb ka ah tijaabada, kiiska Hive waxaa jiray 5 noodes oo isku mid ah kutlada Ab Initio, iyo kiiska GreenPlum waxaa jiray 4 noodes oo ku yaal koox gaar ah. Kuwaas. Hive ayaa xoogaa faa'iido qalabeed ah ka heshay GreenPlum.

Waxaan tixgelinay laba lammaane oo garaafyo ah oo fulinaya hawl isku mid ah oo ah cusboonaysiinta xogta gudaha Hive iyo GreenPlum. Isla mar ahaantaana, garaafyada uu sameeyay isku xidhka MDW ayaa la bilaabay:

  • culayska hore
  • culeyska bilowga ah + korodhka xogta si aan kala sooc lahayn loo soo saaray isla miiska GreenPlum

Labada xaaladoodba (Hive iyo GreenPlum) waxay ku shubeen 10 taxane oo isku mid ah isla kooxda Ab Initio. Ab Initio wuxuu keydiyay xogta dhexe ee xisaabinta HDFS (marka la eego Ab Initio, qaabeynta MFS iyadoo la adeegsanayo HDFS ayaa la isticmaalay). Hal xariiq oo xog ah oo si aan kala sooc lahayn loo soo saaray ayaa labada kiisba qabsaday 200 bytes.

Natiijadu waxay ahayd sidan:

Naafo:

Soo dejinta hore ee Hive

Saf la geliyey
6 000 000
60 000 000
600 000 000

Muddada bilaabista
downloads in ilbiriqsi gudahood
41
203
1 601

Kordhinta culeyska ee Hive

Tirada safafka laga heli karo
miiska bartilmaameedka bilowga tijaabada
6 000 000
60 000 000
600 000 000

Tirada khadadka delta ee lagu dabaqay
miiska bartilmaameedka inta lagu jiro tijaabada
6 000 000
6 000 000
6 000 000

Muddada korodhka
downloads in ilbiriqsi gudahood
88
299
2 541

GreenPlum:

Soo dejinta hore ee GreenPlum

Saf la geliyey
6 000 000
60 000 000
600 000 000

Muddada bilaabista
downloads in ilbiriqsi gudahood
72
360
3 631

Kordhinta rarka ee GreenPlum

Tirada safafka laga heli karo
miiska bartilmaameedka bilowga tijaabada
6 000 000
60 000 000
600 000 000

Tirada khadadka delta ee lagu dabaqay
miiska bartilmaameedka inta lagu jiro tijaabada
6 000 000
6 000 000
6 000 000

Muddada korodhka
downloads in ilbiriqsi gudahood
159
199
321

Waxaan aragnaa in xawaaraha rarka bilowga ah ee Hive iyo GreenPlum ay si toos ah ugu xiran tahay qaddarka xogta iyo, sababaha qalabyada wanaagsan awgeed, ay waxyar uga dhaqso badan tahay Hive marka loo eego GreenPlum.

Kordhinta kordhinta ee Hive sidoo kale waxay si toos ah ugu xidhan tahay mugga xogta hore loo raray ee laga heli karo shaxda bartilmaameedka waxayna u socotaa si tartiib tartiib ah marka mugga uu kordho. Tan waxaa sabab u ah baahida loo qabo in dib loo qoro miiska la beegsaday gabi ahaanba. Tani waxay ka dhigan tahay in ku dabaqida isbeddelada yaryar ee miisaska waaweyn aysan ahayn kiis la isticmaalo oo wanaagsan oo loogu talagalay Hive.

Kordhinta kordhinta GreenPlum si liidata waxay kuxirantahay mugga xogta hore loo raray ee laga heli karo shaxda bartilmaameedka waxayna u socotaa si dhakhso ah. Tani waxay dhacday iyada oo ay mahad iska leedahay SQL Joins iyo qaab dhismeedka GreenPlum, kaas oo u oggolaanaya hawlgalka tirtirka.

Marka, GreenPlum waxay ku darsataa delta iyadoo la isticmaalayo habka tirtirka+ gelista, laakiin Hive ma laha wax tirtirid ama cusbooneysiin, sidaa darteed xogta oo dhan ayaa lagu qasbay in gabi ahaanba dib loo qoro inta lagu jiro cusbooneysiinta kordhinta. Isbarbardhigga unugyada lagu muujiyey geesinimada ayaa ah mid muujinaya sida ugu badan, maadaama ay u dhiganto ikhtiyaarka ugu badan ee isticmaalka agabka dhaqsaha badan. Waxaan aragnaa in GreenPlum ay ku garaacday Hive imtixaankan 8 jeer.

Ku shaqaynta Ab Initio oo leh GreenPlum qaabka Wakhtiga-dhabta ah

Tijaabadan, waxaanu ku tijaabin doonaa awooda Ab Initio inuu cusboonaysiiyo miiska GreenPlum isagoo wata xog si aan kala sooc lahayn loo soo saaray wakhtiga dhabta ah. Aynu tixgelinno miiska GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, kaas oo aan la shaqayn doono.

Waxaan isticmaali doonaa saddex garaaf Ab Initio si aan ula shaqeyno:

1) Graph Create_test_data.mp - wuxuu ku abuuraa faylal xog HDFS oo wata 10 saf oo 6 taxane ah oo barbar socda. Xogtu waa random, qaabdhismeedkeedu waxa loo habeeyey in la geliyo miiskayaga

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

2) Graph mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDW garaaf la sameeyay iyadoo lagu bilaabayo galinta xogta shaxdayada 10 dun isku mid ah (xogta tijaabada ee garaaf (1) ayaa la isticmaalay)

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

3) Graph mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – garaaf ay soo saartay MDW si loogu kordhiyo cusboonaysiinta miiskayaga oo ku jira 10 taxane oo isbarbar socda iyadoo la adeegsanayo qayb xogta dhawaan la helay (delta) ee garaaf (1)

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum

Aan ku socodsiino qoraalka hoose qaab NRT:

  • soo saara 6 oo khadadka tijaabada ah
  • Samee gelin gelinta bilowga ah 6 oo saf oo tijaabo ah oo geli miis madhan
  • ku celi kordhinta soo dejinta 5 jeer
    • soo saara 6 oo khadadka tijaabada ah
    • Samee gelinta kordhinta 6 ee safka tijaabada ah miiska (kiiskan, wakhtiga uu dhacayo ansax_to_ts waxa lagu dejiyay xogtii hore iyo xogtii u dambaysay ee leh isla furihii aasaasiga ahaa ayaa la galiyay)

Muuqaalkani wuxuu ku dayanayaa habka dhabta ah ee nidaamka ganacsiga gaarka ah - qayb aad u badan oo xog cusub ah ayaa soo muuqda wakhtiga dhabta ah waxaana isla markiiba lagu shubaa GreenPlum.

Haddaba aan eegno qoraalka qoraalka:

Bilow Create_test_data.input.pset 2020-06-04 11:49:11
dhame Create_test_data.input.pset 2020-06-04 11:49:37
Ka bilow mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:49:37
dhame mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:50:42
Bilow Create_test_data.input.pset 2020-06-04 11:50:42
dhame Create_test_data.input.pset 2020-06-04 11:51:06
Ka bilow mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:51:06
dhame mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:53:41
Bilow Create_test_data.input.pset 2020-06-04 11:53:41
dhame Create_test_data.input.pset 2020-06-04 11:54:04
Ka bilow mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:54:04
dhame mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:56:51
Bilow Create_test_data.input.pset 2020-06-04 11:56:51
dhame Create_test_data.input.pset 2020-06-04 11:57:14
Ka bilow mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:57:14
dhame mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 11:59:55
Bilow Create_test_data.input.pset 2020-06-04 11:59:55
dhame Create_test_data.input.pset 2020-06-04 12:00:23
Ka bilow mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 12:00:23
dhame mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 12:03:23
Bilow Create_test_data.input.pset 2020-06-04 12:03:23
dhame Create_test_data.input.pset 2020-06-04 12:03:49
Ka bilow mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 12:03:49
dhame mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saacada 2020-06-04 12:06:46

Waxaa soo baxay sawirkan:

Sawir
Bilow waqti
Dhammaadka wakhtiga
Length

Abuur_data_data.input.pset
04.06.2020: 11: 49: 11
04.06.2020: 11: 49: 37
00:00:26

mdw_load.day_one.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 49: 37
04.06.2020: 11: 50: 42
00:01:05

Abuur_data_data.input.pset
04.06.2020: 11: 50: 42
04.06.2020: 11: 51: 06
00:00:24

mdw_load.joogto ah.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 51: 06
04.06.2020: 11: 53: 41
00:02:35

Abuur_data_data.input.pset
04.06.2020: 11: 53: 41
04.06.2020: 11: 54: 04
00:00:23

mdw_load.joogto ah.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 54: 04
04.06.2020: 11: 56: 51
00:02:47

Abuur_data_data.input.pset
04.06.2020: 11: 56: 51
04.06.2020: 11: 57: 14
00:00:23

mdw_load.joogto ah.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 57: 14
04.06.2020: 11: 59: 55
00:02:41

Abuur_data_data.input.pset
04.06.2020: 11: 59: 55
04.06.2020: 12: 00: 23
00:00:28

mdw_load.joogto ah.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 00: 23
04.06.2020: 12: 03: 23
00:03:00

Abuur_data_data.input.pset
04.06.2020: 12: 03: 23
04.06.2020: 12: 03: 49
00:00:26

mdw_load.joogto ah.hadda.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 03: 49
04.06.2020: 12: 06: 46
00:02:57

Waxaan aragnaa in 6 khadadka kordhinta lagu farsameeyo 000 daqiiqo gudahood, taas oo aad u degdeg badan.
Xogta ku jirta shaxda bartilmaameedka ayaa noqotay sida soo socota:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Markaad haysato miisaanka Sber. Isticmaalka Ab Initio leh rugta iyo GreenPlum
Waxaad arki kartaa isu-xidhka xogta la geliyo wakhtiyada garaafyada la bilaabay.
Tani waxay ka dhigan tahay inaad ku shubi karto xogta korodhka ah ee GreenPlum ee Ab Initio oo leh soo noqnoqoshada aad u sareysa oo aad u fiirsato xawaaraha sare ee xogtan GreenPlum. Dabcan, suurtagal ma noqon doonto in la bilaabo hal mar ilbiriqsi, tan iyo Ab Initio, sida qalab kasta oo ETL ah, wuxuu u baahan yahay waqti uu "bilaabo" marka la bilaabo.

gunaanad

Ab Initio waxa hadda laga isticmaalaa Sberbank si loo dhiso Xogta Semantic Midaysan (ESS). Mashruucani waxa uu ku lug leeyahay dhisidda nooc midaysan oo ah xaaladda qaybaha kala duwan ee ganacsiga bangiyada. Xogta ayaa ka imanaysa ilo kala duwan, kuwaas oo nuqul ka mid ah lagu diyaariyey Hadoop. Iyada oo ku saleysan baahida ganacsiga, qaab xogeed ayaa la diyaariyay iyo isbeddelka xogta ayaa lagu sifeeyay. Ab Initio wuxuu ku shubaa macluumaadka ESN-ka xogta la soo dejiyayna ma aha oo kaliya danta ganacsiga lafteeda, laakiin sidoo kale waxay u adeegtaa sida ilaha dhismaha xogta marts. Isla mar ahaantaana, shaqeynta alaabtu waxay kuu ogolaaneysaa inaad isticmaasho nidaamyo kala duwan sida aqbale (Hive, Greenplum, Teradata, Oracle), taas oo suurtogal ka dhigaysa in si fudud loo diyaariyo xogta ganacsiga ee qaababka kala duwan ee ay u baahan tahay.

Awoodaha Ab Initio waa ballaaran yihiin; tusaale ahaan, qaabka MDW ee ku jira ayaa suurtogal ka dhigaya in la dhiso xogta taariikheed ee farsamada iyo ganacsiga ee sanduuqa. Horumarinta, Ab Initio waxay suurtogal ka dhigtaa in aan dib loo soo celin giraangiraha, laakiin in la isticmaalo qaybo badan oo shaqeynaya, kuwaas oo asal ahaan maktabadaha loo baahan yahay marka xogta lagu shaqeynayo.

Qoraagu waa khabiir ka tirsan bulshada xirfadleyda ah ee Sberbank SberProfi DWH/BigData. Bulshada xirfadleyda ah ee SberProfi DWH/BigData ayaa mas'uul ka ah horumarinta aqoonta meelaha sida Hadoop ecosystem, Teradata, Oracle DB, GreenPlum, iyo sidoo kale BI qalabyada Qlik, SAP BO, Tableau, iwm.

Source: www.habr.com

Add a comment