Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Demek berê, em bi pirsa hilbijartina amûrek ETL re ji bo xebata bi Daneyên Mezin re rû bi rû bûn. Çareseriya Informatica BDM ya ku berê hatî bikar anîn ji ber fonksiyona tixûbdar ne li gorî me ye. Bikaranîna wê di çarçoveyek ji bo destpêkirina fermanên spark-submit de kêm bûye. Li sûkê gelek analog tunebûn ku, di prensîbê de, karibin bi qebareya daneya ku em her roj pê re mijûl dibin bixebitin. Di dawiyê de me Ab Initio hilbijart. Di dema xwenîşandanên pîlot de, hilber leza hilberandina daneyê pir zêde nîşan da. Bi rûsî di derbarê Ab Initio de hema hema agahdarî tune, ji ber vê yekê me biryar da ku em li ser serpêhatiya xwe li ser Habré biaxivin.

Ab Initio gelek veguherînên klasîk û neasayî hene, koda ku dikare bi karanîna zimanê xwe yê PDL were dirêj kirin. Ji bo karsaziyek piçûk, amûrek wusa hêzdar dibe ku pir zêde be, û dibe ku piraniya kapasîteyên wê biha û neyên bikar anîn. Lê heke pîvana we nêzî ya Sberov be, wê hingê dibe ku Ab Initio ji we re balkêş be.

Ew ji karsaziyek re dibe alîkar ku zanyarî li gerdûnî berhev bike û ekosîstemek pêş bixe, û pêşdebirek ku jêhatîbûnên xwe di ETL de baştir bike, zanîna xwe di şêlê de baştir bike, fersendê dide ku zimanê PDL serdest bike, wêneyek dîtbar a pêvajoyên barkirinê dide, û pêşkeftinê hêsan dike. ji ber pirbûna pêkhateyên fonksiyonel.

Di vê postê de ez ê li ser kapasîteyên Ab Initio biaxivim û taybetmendiyên berawirdî yên xebata wê bi Hive û GreenPlum re peyda bikim.

  • Danasîna çarçoveya MDW-ê û li ser xweşkirina wê ji bo GreenPlum kar bikin
  • Berhevdana performansa Ab Initio di navbera Hive û GreenPlum de
  • Karkirina Ab Initio bi GreenPlum re di moda Wexta Nêzîkî Rast de


Karbidestiya vê hilberê pir berfireh e û ji bo lêkolînê gelek dem hewce dike. Lêbelê, digel jêhatîbûna xebatê ya rast û mîhengên performansa rast, encamên hilberandina daneyê pir bi heybet in. Bikaranîna Ab Initio ji bo pêşdebirek dikare ezmûnek balkêş peyda bike. Ev nihêrînek nû ye li ser pêşkeftina ETL, hevberek di navbera hawîrdorek dîtbar û pêşkeftina dakêşanê de bi zimanek mîna skrîptê.

Karsaz ekosîstemên xwe pêş dixin û ev amûr ji her demê bêtir bi kêr tê. Bi Ab Initio re, hûn dikarin di derbarê karsaziya xweya heyî de zanyariyan berhev bikin û vê zanînê bikar bînin da ku karsaziyên kevn û nû vekin. Alternatîfên Ab Initio hawîrdorên pêşkeftina dîtbarî Informatica BDM û hawîrdorên pêşkeftina ne-dîtbar Apache Spark hene.

Danasîna Ab Initio

Ab Initio, mîna amûrên din ên ETL, berhevokek hilberan e.

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Ab Initio GDE (Jîngehek Pêşveçûna Grafikê) ji bo pêşdebiran jîngehek e ku tê de ew veguheztinên daneyê mîheng dike û wan bi herikandina daneyan re di forma tîran de girêdide. Di vê rewşê de, komek veguherînên weha grafîk tê gotin:

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Têkiliyên ketin û derketinê yên pêkhateyên fonksiyonel port in û zeviyên ku di nav veguherînan de têne hesibandin hene. Çend grafikên ku bi herikandinan ve di rêza cîbicîkirina wan de bi awayê tîran ve girêdayî ne, plan tê gotin.

Bi sedan pêkhateyên fonksiyonel hene, ku pir e. Gelek ji wan pir pispor in. Kapasîteyên veguherînên klasîk ên di Ab Initio de ji amûrên din ên ETL berfirehtir in. Mînakî, Tevlêbûn xwedan derketinên pirjimar e. Ji bilî encama girêdana danehevan, hûn dikarin tomarên derketinê yên danûstendinên têketinê yên ku mifteyên wan nehatine girêdan bistînin. Her weha hûn dikarin redkirin, xeletî û têketinek operasyona veguherînê bistînin, ku dikare di heman stûnê de wekî pelek nivîsê were xwendin û bi veguhertinên din re were pêvajo kirin:

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

An jî, wek nimûne, hûn dikarin wergirê daneyê di forma tabloyê de bicîh bikin û di heman stûnê de daneyan jê bixwînin.

Veguherînên orîjînal hene. Mînakî, veguherîna Scan fonksiyonek mîna fonksiyonên analîtîk heye. Veguherînên bi navên xweser hene: Dane biafirîne, Excel bixwîne, normalîze bike, di nav koman de bicivîne, bernameyê bixebitîne, SQL bixebitîne, bi DB-ê re tevlê bibe, hwd. pergala xebatê. Ji pelên bi komek parametreyên hazir ên ku di grafîkê de derbas dibin jê re komên parameteran (psets) tê gotin.

Wekî ku tê hêvî kirin, Ab Initio GDE depoya xwe ya bi navê EME (Enterprise Meta Environment) heye. Pêşdebiran derfet heye ku bi guhertoyên kodê yên herêmî re bixebitin û pêşkeftinên xwe di depoya navendî de kontrol bikin.

Mimkun e, di dema darvekirinê de an piştî pêkanîna grafîkê, li ser her herikîna ku veguherînê girêdide bikirtînin û li daneyên ku di navbera van veguherînan de derbas bûne binêrin:

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Di heman demê de gengaz e ku meriv li ser her çemek bikirtînin û hûrguliyên şopandinê bibînin - veguhertin di çend paralelan de xebitî, çend rêz û byte di kîjan paralelan de hatine barkirin:

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Mimkun e ku meriv pêkanîna grafîkê li qonaxan dabeş bike û nîşan bide ku hin veguherîn hewce ne ku pêşî (di qonaxa sifir de), yên din di qonaxa yekem de, yên din di qonaxa duyemîn de, hwd.

Ji bo her veguheztinê, hûn dikarin bi vî rengî sêwirana hilbijêrin (ku ew ê lê were darve kirin): bêyî paralel an di nav mijarên paralel de, ku hejmara wan dikare were destnîşan kirin. Di heman demê de, pelên demkî yên ku Ab Initio diafirîne dema ku veguherîn têne xebitandin dikarin hem di pergala pelê serverê û hem jî di HDFS de bêne danîn.

Di her veguheztinê de, li ser bingeha şablona xwerû, hûn dikarin skrîpta xwe di PDL-ê de biafirînin, ku piçek mîna şêlê ye.

Bi PDL re, hûn dikarin fonksiyona veguherînan dirêj bikin û, bi taybetî, hûn dikarin bi dînamîk (di dema xebitandinê de) li gorî pîvanên dema xebitandinê perçeyên kodê yên kêfî biafirînin.

Ab Initio di heman demê de bi OS-ê re bi şêlê re entegrasyona baş-pêşkeftî heye. Bi taybetî, Sberbank linux ksh bikar tîne. Hûn dikarin guhêrbaran bi şêlê re biguhezînin û wan wekî pîvanên grafîkê bikar bînin. Hûn dikarin ji şêlê gazî pêkanîna grafikên Ab Initio bikin û Ab Initio birêve bibin.

Ji bilî Ab Initio GDE, gelek hilberên din di radestkirinê de hene. Pergala wê ya Hevkariyê heye ku bi îdîaya ku jê re pergala xebitandinê tê gotin heye. Navendek Kontrol>Navend heye ku hûn dikarin herikîna dakêşanê plansaz bikin û bişopînin. Berhemên ji bo kirina pêşkeftinê di astek primitivetir ji ya ku Ab Initio GDE destûrê dide hene.

Danasîna çarçoveya MDW-ê û li ser xweşkirina wê ji bo GreenPlum kar bikin

Li gel hilberên xwe, firoşkar hilbera MDW (Metadata Driven Warehouse) peyda dike, ku konfiguratorek grafîkî ye ku ji bo arîkariya peywirên tîpîk ên nifûsa depoyên daneyê an şaneyên daneyê hatî çêkirin.

Ew parserên metadata xwerû (proje-taybet) û hilberînerên kodê yên amade yên ji qutiyê vedihewîne.

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re
Wekî têketinê, MDW modelek daneyê, pelek vesazkirinê ji bo sazkirina girêdanek bi databasek (Oracle, Teradata an Hive) û hin mîhengên din distîne. Ji bo nimûne, beşa proje-taybetî, modelê li ser databasê bicîh dike. Parçeya derveyî ya hilberê grafîkan û pelên vesazkirinê ji wan re bi barkirina daneyan li tabloyên modelê diafirîne. Di vê rewşê de, grafîk (û pset) ji bo çend awayên destpêkirin û xebata zêdekirina li ser nûvekirina saziyan têne afirandin.

Di rewşên Hive û RDBMS de, grafikên cihêreng ji bo destpêkkirin û nûvekirinên daneya zêde têne çêkirin.

Di doza Hive de, daneyên deltaya hatî bi navgîniya Ab Initio Join bi daneyên ku berî nûvekirinê di tabloyê de bûn ve girêdayî ye. Barkerên daneyê di MDW de (hem di Hive û RDBMS de) ne tenê daneyên nû ji deltayê têxin, lê di heman demê de serdemên têkildariya daneyên ku bişkojkên bingehîn wan delta wergirtine jî digirin. Digel vê yekê, hûn neçar in ku beşa neguhêrbar a daneyê ji nû ve binivîsin. Lê divê ev were kirin ji ber ku Hive operasyonên jêbirin an nûvekirinê tune.

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Di mijara RDBMS de, grafikên ji bo nûvekirina daneya zêdekirî çêtirîn xuya dikin, ji ber ku RDBMS xwedan kapasîteyên nûvekirina rastîn in.

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Deltaya wergirtî di databasê de di tabloyek navîn de tê barkirin. Piştî vê yekê, delta bi daneyên ku beriya nûvekirinê di tabloyê de bûn ve girêdayî ye. Û ev bi karanîna SQL-ê bi karanîna pirsek SQL-ya çêkirî tête kirin. Dûv re, bi karanîna fermanên SQL jêbirin + têxe, daneyên nû yên ji deltayê di tabloya armancê de tê danîn û heyamên têkildariya daneyên ku bişkojkên bingehîn ên wan delta wergirtine têne girtin.
Ne hewce ye ku daneyên neguherî ji nû ve binivîsin.

Ji ber vê yekê em gihîştin wê encamê ku di doza Hive de, MDW neçar e ku biçe tabloya tevahî ji nû ve binivîsîne ji ber ku Hive fonksiyonek nûvekirinê tune. Û tiştek ji nûvekirina bi tevahî ji nûvekirina daneyan çêtir nîne. Di mijara RDBMS de, berevajî, afirînerên hilberê hewce dît ku girêdan û nûvekirina tabloyan bi karanîna SQL ve spartin.

Ji bo projeyek li Sberbank, me ji bo GreenPlum pêkanîna nû, vebikaranîna barkerek databasê çêkir. Ev li ser guhertoya ku MDW ji bo Teradata çêdike hate çêkirin. Ew Teradata bû, û ne Oracle, ji bo vê çêtirîn û nêzîktirîn bû, ji ber ku ... di heman demê de pergala MPP ye. Rêbazên xebatê, û hem jî hevoksaziya Teradata û GreenPlum wekî hev derketin.

Mînakên cûdahiyên krîtîk ên MDW di navbera RDBMS-yên cihêreng de wiha ne. Di GreenPlum de, berevajî Teradata, dema çêkirina tabloyan hûn hewce ne ku bendek binivîsin

distributed by

Teradata dinivîse:

delete <table> all

, û di GreenPlum de ew dinivîsin

delete from <table>

Li Oracle, ji bo armancên xweşbîniyê ew dinivîsin

delete from t where rowid in (<соединение t с дельтой>)

, û Teradata û GreenPlum dinivîsin

delete from t where exists (select * from delta where delta.pk=t.pk)

Em her weha destnîşan dikin ku ji bo ku Ab Initio bi GreenPlum re bixebite, pêdivî bû ku xerîdar GreenPlum li ser hemî girêkên koma Ab Initio saz bike. Ev e ji ber ku em bi hevdemî ji hemî girêkên di koma xwe de bi GreenPlum ve girêdayî ye. Û ji bo ku xwendina ji GreenPlum paralel be û her xêza Ab Initio ya paralel beşa xwe ya daneya ji GreenPlum bixwîne, diviya bû ku me avahiyek ku ji hêla Ab Initio ve tê fam kirin di beşa "ku" ya pirsên SQL de bi cîh bikin.

where ABLOCAL()

û nirxa vê avakirinê bi diyarkirina xwendina parametreyê ji databasa veguherînê diyar bike

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, ku ji bo tiştek mîna berhev dike

mod(sk,10)=3

, yanî divê hûn ji bo her dabeşkirinê parzûnek eşkere ji GreenPlum re bibêjin. Ji bo databasên din (Teradata, Oracle), Ab Initio dikare vê paralelbûnê bixweber pêk bîne.

Berhevdana performansa Ab Initio di navbera Hive û GreenPlum de

Sberbank ceribandinek kir da ku performansa grafikên ku ji hêla MDW ve hatî hilberandin di derheqê Hive û têkildarî GreenPlum de bidin ber hev. Di çarçoveya ceribandinê de, di bûyera Hive de 5 girêk li ser heman komê wekî Ab Initio, û di bûyera GreenPlum de jî 4 girêk li ser komek cûda hebûn. Ewan. Hive xwedan hin avantajên hardware li ser GreenPlum bû.

Me du cot grafikên ku heman peywira nûvekirina daneyan di Hive û GreenPlum de pêk tînin fikirîn. Di heman demê de, grafikên ku ji hêla vesazkerê MDW ve hatî çêkirin hatin destpêkirin:

  • barkirina destpêkê + barkirina zêde ya daneyên ku bi rengekî rasthatî têne hilberandin di tabloyek Hive de
  • barkirina destpêkê + barkirina zêde ya daneyên ku bi rengek rasthatî têne hilberandin di heman tabloya GreenPlum de

Di her du rewşan de (Hive û GreenPlum) wan li ser heman komê Ab Initio li 10 mijarên paralel barkirin. Ab Initio ji bo hesabên di HDFS de daneyên navîn tomar kir (di warê Ab Initio de, sêwirana MFS bi karanîna HDFS hate bikar anîn). Rêzikek daneyên ku bi rengek rasthatî hatî hilberandin di her du rewşan de 200 byte dagir kir.

Encam wiha bû:

Hêlîn:

Barkirina destpêkê li Hive

Rêz hatin xistin
6 000 000
60 000 000
600 000 000

Demjimêra destpêkê
dakêşanan di çirkeyan de
41
203
1 601

Barkirina zêde li Hive

Hejmara rêzikên tê de berdest in
sifrê hedef di destpêka ceribandinê de
6 000 000
60 000 000
600 000 000

Hejmara xetên delta ku li ser hatine sepandin
sifrê hedef di dema ceribandinê de
6 000 000
6 000 000
6 000 000

Duration of incremental
dakêşanan di çirkeyan de
88
299
2 541

GreenPlum:

Barkirina destpêkê li GreenPlum

Rêz hatin xistin
6 000 000
60 000 000
600 000 000

Demjimêra destpêkê
dakêşanan di çirkeyan de
72
360
3 631

Barkirina zêde li GreenPlum

Hejmara rêzikên tê de berdest in
sifrê hedef di destpêka ceribandinê de
6 000 000
60 000 000
600 000 000

Hejmara xetên delta ku li ser hatine sepandin
sifrê hedef di dema ceribandinê de
6 000 000
6 000 000
6 000 000

Duration of incremental
dakêşanan di çirkeyan de
159
199
321

Em dibînin ku leza barkirina destpêkê hem di Hive û hem jî di GreenPlum de bi xêzikî ve girêdayî mîqdara daneyê ye û, ji ber sedemên hardware çêtir, ew ji bo Hive ji ya GreenPlum hinekî zûtir e.

Barkirina zêde ya li Hive di heman demê de xêzek bi qebareya daneyên berê yên barkirî yên ku di tabloya armancê de peyda dibin ve girêdayî ye û her ku hêjmar mezin dibe pir hêdî pêşve diçe. Ev ji ber hewcedariya ji nû ve nivîsandina tabloya armancê bi tevahî çêdibe. Ev tê vê wateyê ku sepandina guhertinên piçûk li tabloyên mezin ji bo Hive ne karekî baş e.

Barkirina zêde ya li GreenPlum bi qelsî bi qebareya daneyên berê yên barkirî yên di tabloya armancê de peyda dibin ve girêdayî ye û pir zû pêşde diçe. Ev bi saya SQL Joins û mîmariya GreenPlum, ku destûrê dide operasyona jêbirinê, çêbû.

Ji ber vê yekê, GreenPlum bi karanîna rêbaza jêbirin + têxe deltayê lê zêde dike, lê Hive ne xwediyê operasyonên jêbirin an nûvekirinê ye, ji ber vê yekê tevahiya rêzika daneyê neçar bû ku di dema nûvekirinek zêde de bi tevahî ji nû ve were nivîsandin. Berawirdkirina hucreyên ku bi stûr hatine ronî kirin pir eşkere ye, ji ber ku ew bi vebijarka herî gelemperî ya ji bo karanîna dakêşandinên çavkaniyê-dijwar re têkildar e. Em dibînin ku GreenPlum di vê ceribandinê de 8 carî Hive têk bir.

Karkirina Ab Initio bi GreenPlum re di moda Wexta Nêzîkî Rast de

Di vê ceribandinê de, em ê kapasîteya Ab Initio biceribînin ku tabloya GreenPlum bi perçeyên daneyên ku bi rengek rasthatî hatine hilberandin di demek rast de nûve bike. Ka em tabloya GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, ya ku em ê pê re bixebitin, bifikirin.

Em ê sê grafikên Ab Initio bikar bînin ku pê re bixebitin:

1) Graph Create_test_data.mp - pelên daneyê di HDFS de bi 10 rêzan di 6 mijarên paralel de diafirîne. Daneyên random e, avahiya wê ji bo têxistina tabloya me hatî organîze kirin

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

2) Grafîk mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDW grafîk çêkir bi destpêkirina danasîna daneyê di tabloya me de di 10 mijarên paralel de (daneyên ceribandinê yên ku ji hêla grafikê (1) ve hatî çêkirin tê bikar anîn)

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

3) Grafîk mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - grafîkek ku ji hêla MDW ve hatî çêkirin ji bo nûvekirina zêde ya tabloya me di 10 mijarên paralel de bi karanîna beşek daneya nû hatî wergirtin (delta) ku ji hêla grafikê ve hatî çêkirin (1)

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re

Ka em skrîpta jêrîn di moda NRT de bimeşînin:

  • 6 xetên testê çêbikin
  • barkirina destpêkê 6 rêzikên ceribandinê têxin tabloyek vala
  • dakêşana zêdebûyî 5 caran dubare bike
    • 6 xetên testê çêbikin
    • 6 rêzikên ceribandinê di tabloyê de zêde bikin (di vê rewşê de, dema qedandina valid_to_ts li gorî daneyên kevn tê danîn û daneyên herî dawî yên bi heman mifteya bingehîn tê danîn)

Ev senaryo şêwaza xebata rastîn a pergalek karsaziyek diyar dike - beşek pir mezin a daneyên nû di wextê rast de xuya dike û tavilê di GreenPlum de tê rijandin.

Naha em li têketina skrîptê binêrin:

Dest bi Create_test_data.input.pset bikin 2020-06-04 11:49:11
Biqedînin Create_test_data.input.pset li 2020-06-04 11:49:37
Mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 11:49:37 dest pê bikin
Biqedînin mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 11:50:42
Dest bi Create_test_data.input.pset bikin 2020-06-04 11:50:42
Biqedînin Create_test_data.input.pset li 2020-06-04 11:51:06
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 11:51:06 dest pê bikin
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset di 2020-06-04 11:53:41 de biqedînin
Dest bi Create_test_data.input.pset bikin 2020-06-04 11:53:41
Biqedînin Create_test_data.input.pset li 2020-06-04 11:54:04
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 11:54:04 dest pê bikin
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset di 2020-06-04 11:56:51 de biqedînin
Dest bi Create_test_data.input.pset bikin 2020-06-04 11:56:51
Biqedînin Create_test_data.input.pset li 2020-06-04 11:57:14
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 11:57:14 dest pê bikin
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset di 2020-06-04 11:59:55 de biqedînin
Dest bi Create_test_data.input.pset bikin 2020-06-04 11:59:55
Biqedînin Create_test_data.input.pset li 2020-06-04 12:00:23
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 12:00:23 dest pê bikin
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset di 2020-06-04 12:03:23 de biqedînin
Dest bi Create_test_data.input.pset bikin 2020-06-04 12:03:23
Biqedînin Create_test_data.input.pset li 2020-06-04 12:03:49
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset li 2020-06-04 12:03:49 dest pê bikin
Mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset di 2020-06-04 12:06:46 de biqedînin

Ev wêne derdikeve:

Dîyagram
Dema destpêkê
Wextê qedandin
Dirêjî

Create_test_data.input.pset
04.06.2020: 11: 49: 11
04.06.2020: 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 49: 37
04.06.2020: 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020: 11: 50: 42
04.06.2020: 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 51: 06
04.06.2020: 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020: 11: 53: 41
04.06.2020: 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 54: 04
04.06.2020: 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020: 11: 56: 51
04.06.2020: 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 57: 14
04.06.2020: 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020: 11: 59: 55
04.06.2020: 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 00: 23
04.06.2020: 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020: 12: 03: 23
04.06.2020: 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 03: 49
04.06.2020: 12: 06: 46
00:02:57

Em dibînin ku 6 xetên zêdebûnê di 000 hûrdeman de têne hilberandin, ku pir zû ye.
Daneyên di tabloya armancê de derket holê ku bi vî rengî têne belav kirin:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Dema ku hûn pîvanên Sber hene. Bikaranîna Ab Initio bi Hive û GreenPlum re
Hûn dikarin hevahengiya daneyên ku hatine danîn bi demên destpêkirina grafîkan re bibînin.
Ev tê vê wateyê ku hûn dikarin barkirina zêde ya daneyan di nav GreenPlum-ê de di Ab Initio de bi frekansek pir zêde bimeşînin û leza zêde ya xistina van daneyan li GreenPlum-ê temaşe bikin. Bê guman, ew ê ne gengaz be ku meriv saniyeyekê carekê bide destpêkirin, ji ber ku Ab Initio, mîna her amûrek ETL, dema ku were destpêkirin dem hewce dike ku "destpêk bike".

encamê

Ab Initio niha li Sberbank tê bikar anîn da ku Pêvek Daneya Semantîk a Yekgirtî (ESS) ava bike. Ev proje avakirina guhertoyek yekgirtî ya rewşa gelek saziyên karsaziya bankingê pêk tîne. Agahdarî ji çavkaniyên cihêreng tê, kopiyên ku li ser Hadoop têne amadekirin. Li ser bingeha hewcedariyên karsaziyê, modelek daneyê tê amadekirin û veguherînên daneyê têne vegotin. Ab Initio agahdarî li ESN-ê bar dike û daneyên dakêşandî ne tenê ji karsaziyê re bi xwe re eleqedar e, lê di heman demê de wekî çavkaniyek ji bo avakirina martên daneyê jî kar dike. Di heman demê de, fonksiyona hilberê dihêle hûn pergalên cûrbecûr wekî wergirek bikar bînin (Hive, Greenplum, Teradata, Oracle), ku dihêle hûn bi hêsanî daneyan ji bo karsaziyek di cûrbecûr formên ku ew hewce dike de amade bikin.

Kapasîteyên Ab Initio berfireh in, mînakî, çarçoweya MDW-ê ya ku tê de tê de heye ku meriv daneyên dîrokî yên teknîkî û karsaziyê ji qutiyê ava bike. Ji bo pêşdebiran, Ab Initio gengaz dike ku ne ji nû ve çerxê îcad bikin, lê bikar bînin gelek hêmanên fonksiyonel ên heyî, ku di bingeh de pirtûkxane hewce ne dema ku bi daneyan re dixebitin.

Nivîskar di civata pîşeyî ya Sberbank SberProfi DWH/BigData de pispor e. Civaka pîşeyî ya SberProfi DWH / BigData berpirsiyar e ku di warên wekî ekosîstema Hadoop, Teradata, Oracle DB, GreenPlum, û her weha amûrên BI-yê Qlik, SAP BO, Tableau, hwd de pêşkeftina jêhatîbûnê pêk bîne.

Source: www.habr.com

Add a comment