Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Xi żmien ilu, konna ffaċċjati bil-kwistjoni li nagħżlu għodda ETL biex naħdmu mal-Big Data. Is-soluzzjoni Informatica BDM użata qabel ma kinitx adattata għalina minħabba funzjonalità limitata. L-użu tiegħu ġie mnaqqas għal qafas għat-tnedija ta 'kmandi ta' spark-submit. Ma kienx hemm ħafna analogi fis-suq li kienu, fil-prinċipju, kapaċi jaħdmu bil-volum ta 'data li nittrattaw kuljum. Fl-aħħar għażilna Ab Initio. Matul dimostrazzjonijiet pilota, il-prodott wera veloċità għolja ħafna għall-ipproċessar tad-dejta. M'hemm kważi l-ebda informazzjoni dwar Ab Initio bir-Russu, għalhekk iddeċidejna li nitkellmu dwar l-esperjenza tagħna fuq Habré.

Ab Initio għandu ħafna trasformazzjonijiet klassiċi u mhux tas-soltu, li l-kodiċi tagħhom jista 'jiġi estiż bl-użu tal-lingwa PDL tiegħu stess. Għal negozju żgħir, għodda b'saħħitha bħal din x'aktarx tkun eċċessiva, u ħafna mill-kapaċitajiet tagħha jistgħu jkunu għaljin u mhux użati. Imma jekk l-iskala tiegħek hija qrib dik ta 'Sberov, allura Ab Initio jista' jkun interessanti għalik.

Jgħin lin-negozju biex jakkumula l-għarfien globalment u jiżviluppa ekosistema, u żviluppatur biex itejjeb il-ħiliet tiegħu fl-ETL, itejjeb l-għarfien tiegħu fil-qoxra, jipprovdi l-opportunità li jgħallem il-lingwa PDL, jagħti stampa viżwali tal-proċessi tat-tagħbija, u jissimplifika l-iżvilupp minħabba l-abbundanza ta 'komponenti funzjonali.

F'din il-kariga se nitkellem dwar il-kapaċitajiet ta 'Ab Initio u nipprovdi karatteristiċi komparattivi tax-xogħol tagħha ma' Hive u GreenPlum.

  • Deskrizzjoni tal-qafas MDW u xogħol fuq l-adattament tiegħu għal GreenPlum
  • Paragun tal-prestazzjoni Ab Initio bejn Hive u GreenPlum
  • Ħidma Ab Initio ma 'GreenPlum fil-modalità Near Real Time


Il-funzjonalità ta 'dan il-prodott hija wiesgħa ħafna u teħtieġ ħafna ħin biex tistudja. Madankollu, bil-ħiliet tax-xogħol xierqa u l-issettjar tal-prestazzjoni t-tajba, ir-riżultati tal-ipproċessar tad-dejta huma impressjonanti ħafna. L-użu ta' Ab Initio għal żviluppatur jista' jipprovdi esperjenza interessanti. Din hija ħarsa ġdida dwar l-iżvilupp ETL, ibridu bejn ambjent viżiv u żvilupp ta 'tniżżil f'lingwa bħal skript.

In-negozji qed jiżviluppaw l-ekosistemi tagħhom u din l-għodda tiġi utli aktar minn qatt qabel. B'Ab Initio, tista' takkumula għarfien dwar in-negozju attwali tiegħek u tuża dan l-għarfien biex tespandi negozji qodma u tiftaħ negozji ġodda. Alternattivi għal Ab Initio jinkludu ambjenti ta 'żvilupp viżiv Informatica BDM u ambjenti ta' żvilupp mhux viżiv Apache Spark.

Deskrizzjoni ta' Ab Initio

Ab Initio, bħal għodod ETL oħra, hija ġabra ta 'prodotti.

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Ab Initio GDE (Ambjent tal-Iżvilupp Grafiku) huwa ambjent għall-iżviluppatur li fih jikkonfigura trasformazzjonijiet tad-dejta u jgħaqqadhom ma 'flussi tad-dejta fil-forma ta' vleġeġ. F'dan il-każ, sett ta' trasformazzjonijiet bħal dan jissejjaħ graff:

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Il-konnessjonijiet tad-dħul u tal-ħruġ tal-komponenti funzjonali huma portijiet u fihom oqsma kkalkulati fi ħdan trasformazzjonijiet. Diversi graffs konnessi minn flussi fil-forma ta 'vleġeġ fl-ordni tal-eżekuzzjoni tagħhom jissejħu pjan.

Hemm diversi mijiet ta 'komponenti funzjonali, li huwa ħafna. Ħafna minnhom huma speċjalizzati ħafna. Il-kapaċitajiet tat-trasformazzjonijiet klassiċi f'Ab Initio huma usa 'minn f'għodod ETL oħra. Per eżempju, Join għandha outputs multipli. Minbarra r-riżultat tal-konnessjoni tas-settijiet tad-dejta, tista 'tikseb rekords tal-ħruġ ta' settijiet tad-dejta tal-input li ċ-ċwievet tagħhom ma setgħux jiġu konnessi. Tista 'wkoll tikseb rifjuti, żbalji u log tal-operazzjoni ta' trasformazzjoni, li jistgħu jinqraw fl-istess kolonna bħal fajl ta 'test u pproċessati ma' trasformazzjonijiet oħra:

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Jew, pereżempju, tista 'timmaterjalizza riċevitur tad-dejta fil-forma ta' tabella u taqra d-dejta minnha fl-istess kolonna.

Hemm trasformazzjonijiet oriġinali. Pereżempju, it-trasformazzjoni Scan għandha funzjonalità simili għal funzjonijiet analitiċi. Hemm trasformazzjonijiet b'ismijiet li jispjegaw lilhom infushom: Oħloq Data, Aqra Excel, Normalizza, Sort fi ħdan Gruppi, Mexxi Programm, Mexxi SQL, Ingħaqad ma' DB, eċċ. Grafiċi jistgħu jużaw parametri run-time, inkluża l-possibbiltà li jgħaddu parametri minn jew għal is-sistema operattiva. Fajls b'sett ta' parametri lesti mgħoddija lill-graff jissejħu settijiet ta' parametri (psets).

Kif mistenni, Ab Initio GDE għandu repożitorju tiegħu stess imsejjaħ EME (Enterprise Meta Environment). L-iżviluppaturi għandhom l-opportunità li jaħdmu ma 'verżjonijiet lokali tal-kodiċi u jiċċekkjaw l-iżviluppi tagħhom fir-repożitorju ċentrali.

Huwa possibbli, waqt l-eżekuzzjoni jew wara l-eżekuzzjoni tal-graff, li tikklikkja fuq kwalunkwe fluss li jgħaqqad it-trasformazzjoni u tħares lejn id-dejta li għaddiet bejn dawn it-trasformazzjonijiet:

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Huwa wkoll possibbli li tikklikkja fuq kwalunkwe fluss u tara d-dettalji tat-traċċar - f'kemm paralleli ħadmet it-trasformazzjoni, kemm linji u bytes ġew mgħobbija f'liema paralleli:

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Huwa possibbli li taqsam l-eżekuzzjoni tal-graff f'fażijiet u timmarka li xi trasformazzjonijiet jeħtieġ li jsiru l-ewwel (fil-fażi żero), dawk li jmiss fl-ewwel fażi, dawk li jmiss fit-tieni fażi, eċċ.

Għal kull trasformazzjoni, tista 'tagħżel l-hekk imsejjaħ tqassim (fejn se jiġi eżegwit): mingħajr paralleli jew f'ħjut paralleli, li n-numru tagħhom jista' jiġi speċifikat. Fl-istess ħin, fajls temporanji li Ab Initio joħloq meta t-trasformazzjonijiet ikunu qed jaħdmu jistgħu jitqiegħdu kemm fis-sistema tal-fajls tas-server kif ukoll f'HDFS.

F'kull trasformazzjoni, ibbażata fuq il-mudell default, tista 'toħloq l-iskript tiegħek stess f'PDL, li huwa daqsxejn bħal qoxra.

Bil-PDL tista' testendi l-funzjonalità tat-trasformazzjonijiet u, b'mod partikolari, tista' b'mod dinamiku (fl-runtime) tiġġenera frammenti ta' kodiċi arbitrarji skont il-parametri tar-runtime.

Ab Initio għandu wkoll integrazzjoni żviluppata sew mal-OS permezz tal-qoxra. Speċifikament, Sberbank juża linux ksh. Tista' tiskambja varjabbli mal-qoxra u tużahom bħala parametri tal-graff. Tista' ċċempel l-eżekuzzjoni tal-graffs Ab Initio mill-qoxra u tamministra Ab Initio.

Minbarra Ab Initio GDE, ħafna prodotti oħra huma inklużi fil-kunsinna. Hemm is-Sistema ta' Ko>Operazzjoni tagħha stess bi talba li tissejjaħ sistema operattiva. Hemm Kontroll> Ċentru fejn tista’ tiskeda u tissorvelja l-flussi tat-tniżżil. Hemm prodotti biex isir żvilupp f'livell aktar primittiv milli jippermetti Ab Initio GDE.

Deskrizzjoni tal-qafas MDW u xogħol fuq l-adattament tiegħu għal GreenPlum

Flimkien mal-prodotti tiegħu, il-bejjiegħ iforni l-prodott MDW (Metadata Driven Warehouse), li huwa konfiguratur tal-graff iddisinjat biex jgħin fil-kompiti tipiċi ta 'populazzjoni ta' mħażen tad-dejta jew kaxxa-forti tad-dejta.

Fiha parsers tal-metadata tad-dwana (speċifiċi għall-proġett) u ġeneraturi tal-kodiċi lesti barra mill-kaxxa.

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum
Bħala input, MDW tirċievi mudell tad-dejta, fajl ta 'konfigurazzjoni għat-twaqqif ta' konnessjoni ma 'database (Oracle, Teradata jew Hive) u xi settings oħra. Il-parti speċifika għall-proġett, pereżempju, tiskjera l-mudell għal database. Il-parti barra mill-kaxxa tal-prodott tiġġenera graffs u fajls ta 'konfigurazzjoni għalihom billi tgħabbi d-dejta f'tabelli tal-mudell. F'dan il-każ, graphs (u psets) huma maħluqa għal diversi modi ta 'inizjalizzazzjoni u xogħol inkrementali fuq l-aġġornament ta' entitajiet.

Fil-każijiet ta' Hive u RDBMS, jiġu ġġenerati graffs differenti għall-inizjalizzazzjoni u aġġornamenti inkrementali tad-dejta.

Fil-każ ta 'Hive, id-dejta tad-delta li tidħol hija konnessa permezz ta' Ab Initio Join mad-dejta li kienet fit-tabella qabel l-aġġornament. Il-loaders tad-dejta fl-MDW (kemm f'Hive kif ukoll f'RDBMS) mhux biss jiddaħħlu dejta ġdida mid-delta, iżda wkoll jagħlqu l-perjodi ta 'rilevanza tad-dejta li ċ-ċwievet primarji tagħhom irċevew id-delta. Barra minn hekk, għandek tikteb mill-ġdid il-parti mhux mibdula tad-dejta. Iżda dan irid isir minħabba li Hive m'għandux operazzjonijiet ta 'tħassir jew ta' aġġornament.

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Fil-każ ta' RDBMS, il-graffs għall-aġġornament tad-dejta inkrimentali jidhru aktar ottimali, minħabba li l-RDBMS għandhom kapaċitajiet reali ta' aġġornament.

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Id-delta riċevuta titgħabba f'tabella intermedja fid-database. Wara dan, id-delta hija konnessa mad-dejta li kienet fit-tabella qabel l-aġġornament. U dan isir bl-użu ta 'SQL bl-użu ta' mistoqsija SQL ġġenerata. Sussegwentement, bl-użu tal-kmandi SQL ħassar + daħħal, tiddaħħal dejta ġdida mid-delta fit-tabella fil-mira u l-perjodi ta 'rilevanza tad-dejta li ċ-ċwievet primarji tagħha rċevew id-delta jingħalqu.
M'hemmx bżonn li terġa' tikteb data mhux mibdula.

Allura wasalna għall-konklużjoni li fil-każ ta 'Hive, MDW trid tmur tikteb mill-ġdid it-tabella kollha minħabba li Hive m'għandux funzjoni ta' aġġornament. U xejn aħjar milli kompletament kitba mill-ġdid tad-data meta l-aġġornament ikun ġie ivvintat. Fil-każ ta 'RDBMS, għall-kuntrarju, il-ħallieqa tal-prodott sabu li huwa meħtieġ li jafdaw il-konnessjoni u l-aġġornament tat-tabelli għall-użu ta' SQL.

Għal proġett fi Sberbank, ħloqna implimentazzjoni ġdida u li tista’ terġa’ tintuża ta’ loader tad-database għal GreenPlum. Dan sar ibbażat fuq il-verżjoni li tiġġenera MDW għal Teradata. Kien Teradata, u mhux Oracle, li resqet l-aktar qrib u l-aħjar għal dan, għax... hija wkoll sistema MPP. Il-metodi ta’ ħidma, kif ukoll is-sintassi, ta’ Teradata u GreenPlum irriżultaw li kienu simili.

Eżempji ta' differenzi kritiċi għall-MDW bejn RDBMSs differenti huma kif ġej. F'GreenPlum, b'differenza Teradata, meta toħloq tabelli trid tikteb klawżola

distributed by

Teradata jikteb:

delete <table> all

, u fi GreenPlum jiktbu

delete from <table>

Fl-Oracle, għal skopijiet ta 'ottimizzazzjoni huma jiktbu

delete from t where rowid in (<соединение t с дельтой>)

, u Teradata u GreenPlum jiktbu

delete from t where exists (select * from delta where delta.pk=t.pk)

Aħna ninnotaw ukoll li biex Ab Initio jaħdem ma' GreenPlum, kien meħtieġ li jiġi installat il-klijent GreenPlum fuq in-nodi kollha tal-cluster Ab Initio. Dan għaliex aħna konnessi ma' GreenPlum simultanjament min-nodi kollha fil-cluster tagħna. U sabiex il-qari minn GreenPlum ikun parallel u kull ħajt parallel Ab Initio jaqra l-porzjon tiegħu stess tad-dejta minn GreenPlum, kellna npoġġu kostruzzjoni mifhuma minn Ab Initio fit-taqsima "fejn" tal-mistoqsijiet SQL

where ABLOCAL()

u tiddetermina l-valur ta 'din il-kostruzzjoni billi tispeċifika l-qari tal-parametri mid-database tat-trasformazzjoni

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, li jikkompila għal xi ħaġa simili

mod(sk,10)=3

, i.e. trid tħeġġeġ GreenPlum b'filtru espliċitu għal kull partizzjoni. Għal databases oħra (Teradata, Oracle), Ab Initio jista 'jwettaq din il-parallelizzazzjoni awtomatikament.

Paragun tal-prestazzjoni Ab Initio bejn Hive u GreenPlum

Sberbank wettaq esperiment biex iqabbel il-prestazzjoni ta 'grafiċi ġenerati mill-MDW fir-rigward ta' Hive u fir-rigward ta 'GreenPlum. Bħala parti mill-esperiment, fil-każ ta 'Hive kien hemm 5 nodi fuq l-istess cluster bħal Ab Initio, u fil-każ ta' GreenPlum kien hemm 4 nodi fuq cluster separat. Dawk. Doqqajs kellu xi vantaġġ tal-ħardwer fuq GreenPlum.

Aħna ikkunsidrajna żewġ pari ta 'grafiċi li jwettqu l-istess kompitu ta' aġġornament tad-dejta f'Hive u GreenPlum. Fl-istess ħin, ġew imnedija l-grafiċi ġġenerati mill-konfiguratur MDW:

  • tagħbija inizjali + tagħbija inkrementali ta 'dejta ġġenerata b'mod każwali f'tabella Hive
  • tagħbija inizjali + tagħbija inkrementali ta 'dejta ġġenerata b'mod każwali fl-istess tabella GreenPlum

Fiż-żewġ każijiet (Hive u GreenPlum) wettqu uploads għal 10 ħjut paralleli fuq l-istess cluster Ab Initio. Ab Initio issejvja dejta intermedja għall-kalkoli f'HDFS (f'termini ta' Ab Initio, intuża t-tqassim tal-MFS bl-użu tal-HDFS). Linja waħda ta' data ġġenerata b'mod każwali kienet tokkupa 200 byte fiż-żewġ każijiet.

Ir-riżultat kien bħal dan:

Doqqajs:

Tagħbija inizjali f'Hive

Ringieli mdaħħla
6 000 000
60 000 000
600 000 000

Tul ta' l-inizjalizzazzjoni
downloads f'sekondi
41
203
1 601

Tagħbija inkrementali f'Hive

Numru ta' ringieli disponibbli fi
tabella tal-mira fil-bidu tal-esperiment
6 000 000
60 000 000
600 000 000

Numru ta' linji delta applikati għalihom
tabella mira matul l-esperiment
6 000 000
6 000 000
6 000 000

Tul ta' żmien inkrementali
downloads f'sekondi
88
299
2 541

GreenPlum:

Tagħbija inizjali f'GreenPlum

Ringieli mdaħħla
6 000 000
60 000 000
600 000 000

Tul ta' l-inizjalizzazzjoni
downloads f'sekondi
72
360
3 631

Tagħbija inkrementali f'GreenPlum

Numru ta' ringieli disponibbli fi
tabella tal-mira fil-bidu tal-esperiment
6 000 000
60 000 000
600 000 000

Numru ta' linji delta applikati għalihom
tabella mira matul l-esperiment
6 000 000
6 000 000
6 000 000

Tul ta' żmien inkrementali
downloads f'sekondi
159
199
321

Naraw li l-veloċità tat-tagħbija inizjali kemm f'Hive kif ukoll f'GreenPlum tiddependi linearment fuq l-ammont ta 'dejta u, għal raġunijiet ta' ħardwer aħjar, hija kemmxejn aktar mgħaġġla għal Hive milli għal GreenPlum.

It-tagħbija inkrementali f'Hive tiddependi wkoll b'mod lineari fuq il-volum ta 'dejta mgħobbija qabel disponibbli fit-tabella fil-mira u tipproċedi pjuttost bil-mod hekk kif il-volum jikber. Dan huwa kkawżat mill-ħtieġa li t-tabella fil-mira tinkiteb mill-ġdid kompletament. Dan ifisser li l-applikazzjoni ta 'bidliet żgħar għal tabelli enormi mhuwiex każ ta' użu tajjeb għal Hive.

It-tagħbija inkrementali f'GreenPlum tiddependi dgħajjef fuq il-volum ta 'dejta mgħobbija qabel disponibbli fit-tabella fil-mira u tipproċedi pjuttost malajr. Dan ġara grazzi għal SQL Joins u l-arkitettura GreenPlum, li tippermetti l-operazzjoni tat-tħassir.

Għalhekk, GreenPlum iżid id-delta billi juża l-metodu tħassar + daħħal, iżda Hive m'għandux operazzjonijiet ta 'tħassir jew taġġorna, għalhekk il-firxa kollha tad-dejta kienet sfurzata li terġa' tinkiteb kompletament waqt aġġornament inkrementali. It-tqabbil taċ-ċelluli enfasizzati b'tipa grassa huwa l-aktar li jiżvela, peress li jikkorrispondi għall-iktar għażla komuni għall-użu ta' downloads li jużaw ħafna riżorsi. Naraw li GreenPlum għeleb lil Hive f'dan it-test bi 8 darbiet.

Ħidma Ab Initio ma 'GreenPlum fil-modalità Near Real Time

F'dan l-esperiment, se nittestjaw il-kapaċità ta 'Ab Initio li taġġorna t-tabella GreenPlum b'biċċiet ta' dejta ġġenerati b'mod każwali fi kważi ħin reali. Ejja nikkunsidraw it-tabella GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, li se naħdmu magħha.

Se nużaw tliet Ab Initio graphs biex naħdmu magħha:

1) Grafika Create_test_data.mp - toħloq fajls tad-dejta f'HDFS b'10 ringieli f'6 ħjut paralleli. Id-dejta hija każwali, l-istruttura tagħha hija organizzata għall-inserzjoni fit-tabella tagħna

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

2) Graff mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - Graff iġġenerat MDW billi inizjalizza l-inserzjoni tad-dejta fit-tabella tagħna f'10 ħjut paralleli (jintuża d-dejta tat-test ġġenerata mill-graff (1))

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

3) Graff mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – graff iġġenerat minn MDW għal aġġornament inkrementali tat-tabella tagħna f'10 ħjut paralleli bl-użu ta' porzjon ta' dejta riċevuta friska (delta) ġġenerata mill-graff (1)

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum

Ejja nħaddmu l-iskript hawn taħt fil-modalità NRT:

  • jiġġenera 6 linja tat-test
  • wettaq tagħbija inizjali daħħal 6 ringieli tat-test f'tabella vojta
  • irrepeti download inkrementali 5 darbiet
    • jiġġenera 6 linja tat-test
    • wettaq inserzjoni inkrementali ta' 6 ringieli tat-test fit-tabella (f'dan il-każ, il-ħin ta' skadenza valid_to_ts huwa ssettjat għad-dejta l-qadima u tiddaħħal dejta aktar reċenti bl-istess ċavetta primarja)

Dan ix-xenarju jimita l-mod ta 'tħaddim reali ta' ċerta sistema tan-negozju - porzjon pjuttost kbir ta 'dejta ġdida tidher f'ħin reali u immedjatament titferra' f'GreenPlum.

Issa ejja nħarsu lejn il-ġurnal tal-iskript:

Ibda Create_test_data.input.pset fi 2020-06-04 11:49:11
Temm Create_test_data.input.pset fi 2020-06-04 11:49:37
Ibda mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:49:37
Temm mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:50:42
Ibda Create_test_data.input.pset fi 2020-06-04 11:50:42
Temm Create_test_data.input.pset fi 2020-06-04 11:51:06
Ibda mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:51:06
Temm mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:53:41
Ibda Create_test_data.input.pset fi 2020-06-04 11:53:41
Temm Create_test_data.input.pset fi 2020-06-04 11:54:04
Ibda mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:54:04
Temm mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:56:51
Ibda Create_test_data.input.pset fi 2020-06-04 11:56:51
Temm Create_test_data.input.pset fi 2020-06-04 11:57:14
Ibda mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:57:14
Temm mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 11:59:55
Ibda Create_test_data.input.pset fi 2020-06-04 11:59:55
Temm Create_test_data.input.pset fi 2020-06-04 12:00:23
Ibda mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 12:00:23
Temm mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 12:03:23
Ibda Create_test_data.input.pset fi 2020-06-04 12:03:23
Temm Create_test_data.input.pset fi 2020-06-04 12:03:49
Ibda mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 12:03:49
Temm mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset fi 2020-06-04 12:06:46

Jirriżulta din l-istampa:

Grafika
Ħin tal-bidu
Spiċċa l-ħin
Tul

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Naraw li 6 linji inkrement huma pproċessati fi 000 minuti, li huwa pjuttost mgħaġġel.
Id-dejta fit-tabella fil-mira rriżulta li tqassmet kif ġej:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Meta jkollok skali Sber. L-użu ta' Ab Initio ma' Hive u GreenPlum
Tista 'tara l-korrispondenza tad-dejta mdaħħla mal-ħinijiet li tnedew il-graffs.
Dan ifisser li tista' tħaddem tagħbija inkrementali ta' dejta f'GreenPlum f'Ab Initio bi frekwenza għolja ħafna u tosserva veloċità għolja ta' dħul ta' din id-dejta f'GreenPlum. Naturalment, mhux se jkun possibbli li titnieda darba kull sekonda, peress li Ab Initio, bħal kull għodda ETL, jeħtieġ ħin biex "tibda" meta titnieda.

Konklużjoni

Ab Initio bħalissa jintuża fi Sberbank biex jinbena Saff ta' Dejta Semantika Unifikata (ESS). Dan il-proġett jinvolvi l-bini ta’ verżjoni unifikata tal-istat ta’ diversi entitajiet kummerċjali bankarji. L-informazzjoni ġejja minn diversi sorsi, li r-repliki tagħhom huma ppreparati fuq Hadoop. Ibbażat fuq il-ħtiġijiet tan-negozju, jitħejja mudell tad-dejta u jiġu deskritti trasformazzjonijiet tad-dejta. Ab Initio jgħabbi l-informazzjoni fl-ESN u d-dejta mniżżla mhix biss ta 'interess għan-negozju fih innifsu, iżda sservi wkoll bħala sors għall-bini ta' data marts. Fl-istess ħin, il-funzjonalità tal-prodott tippermettilek tuża diversi sistemi bħala riċevitur (Hive, Greenplum, Teradata, Oracle), li jagħmilha possibbli li tipprepara faċilment data għal negozju fil-formati varji li teħtieġ.

Il-kapaċitajiet ta 'Ab Initio huma wesgħin, pereżempju, il-qafas MDW inkluż jagħmilha possibbli li tinbena data storika teknika u kummerċjali barra mill-kaxxa. Għall-iżviluppaturi, Ab Initio jagħmilha possibbli li r-rota ma terġax tiġi vvinta, iżda li tuża ħafna komponenti funzjonali eżistenti, li huma essenzjalment libreriji meħtieġa meta taħdem mad-dejta.

L-awtur huwa espert fil-komunità professjonali ta 'Sberbank SberProfi DWH/BigData. Il-komunità professjonali SberProfi DWH/BigData hija responsabbli għall-iżvilupp ta’ kompetenzi f’oqsma bħall-ekosistema Hadoop, Teradata, Oracle DB, GreenPlum, kif ukoll għodod BI Qlik, SAP BO, Tableau, eċċ.

Sors: www.habr.com

Żid kumment