Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Kèk tan de sa, nou te fè fas a kesyon an nan chwazi yon zouti ETL pou travay ak BigData. Solisyon Informatica BDM te itilize anvan an pa t 'kostim nou akòz fonksyonalite limite. Itilizasyon li yo te redwi a yon fondasyon pou kouri kòmandman spark-soumèt. Pa te gen anpil analogue sou mache a ki, nan prensip, yo te kapab travay ak kantite done ke nou fè fas ak chak jou. Nan fen a, nou te chwazi Ab Initio. Pandan demonstrasyon pilòt yo, pwodwi a te montre vitès trè wo nan pwosesis done yo. Prèske pa gen enfòmasyon sou Ab Initio an Ris, kidonk nou deside pale sou eksperyans nou sou Habré.

Ab Initio gen anpil transfòmasyon klasik ak etranj, kòd ki ka pwolonje lè l sèvi avèk pwòp lang PDL pa l. Pou yon ti biznis, tankou yon zouti pwisan gen anpil chans yo dwe redondants, ak pi fò nan karakteristik li yo ka chè epi yo pa reklame. Men, si echèl ou a tou pre sa ki nan Sber, Lè sa a, ou ta ka enterese nan Ab Initio.

Li ede biznis la akimile konesans globalman ak devlope ekosistèm nan, ak pwomotè a amelyore konpetans yo nan ETL, amelyore konesans nan koki a, bay opòtinite pou metrize langaj PDL la, bay yon imaj vizyèl nan pwosesis chaj yo, epi senplifye devlopman. akòz abondans nan eleman fonksyonèl.

Nan pòs la mwen pral pale sou kapasite yo nan Ab Initio epi bay karakteristik konparatif nan travay li yo ak Hive ak GreenPlum.

  • Deskripsyon nan fondasyon an MDW ak travay sou rekonfigirasyon li yo pou GreenPlum
  • Konparezon pèfòmans Ab Initio ak Hive ak GreenPlum
  • Initio ap travay ak GreenPlum nan Near Real Time mòd


Fonksyonalite pwodwi sa a trè laj epi li mande anpil tan pou aprann. Sepandan, ak ladrès travay apwopriye ak anviwònman yo pèfòmans dwa, rezilta yo nan pwosesis done yo trè enpresyonan. Sèvi ak Ab Initio pou yon pwomotè ka ba li yon eksperyans enteresan. Li se yon nouvo pran sou devlopman ETL, yon ibrid ant yon anviwònman vizyèl ak devlopman telechaje nan yon lang ki sanble ak script.

Biznis devlope ekosistèm li yo ak zouti sa a pi itil pase tout tan. Avèk Ab Initio, ou ka akimile konesans sou biznis ou ye kounye a epi sèvi ak konesans sa a pou elaji ansyen biznis ak louvri nouvo biznis. Yo ka rele altènatif pou Ab Initio nan anviwònman devlopman vizyèl Informatica BDM ak nan anviwònman ki pa vizyèl - Apache Spark.

Deskripsyon Ab Initio

Ab Initio, tankou lòt zouti ETL, se yon seri pwodwi.

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Ab Initio GDE (Anviwònman Devlopman Grafik) se yon anviwònman pou pwomotè a kote li mete sou pye transfòmasyon done epi konekte yo ak kouran done sou fòm flèch. Anplis, yon seri transfòmasyon sa yo rele yon graf:

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Antre ak pwodiksyon koneksyon eleman fonksyonèl yo se pò epi yo gen jaden yo kalkile andedan transfòmasyon yo. Plizyè graf ki konekte pa koule nan fòm flèch nan lòd la nan ekzekisyon yo rele yon plan.

Gen plizyè santèn eleman fonksyonèl, ki se yon anpil. Anpil nan yo se trè espesyalize. Posiblite transfòmasyon klasik nan Ab Initio yo pi laj pase nan lòt zouti ETL. Pou egzanp, Join gen plizyè rezilta. Anplis de sa nan rezilta a nan konekte done ansanm, ou ka jwenn dosye nan ansanm done antre nan pwodiksyon an, kle yo ki pa t 'kapab konekte. Ou ka jwenn tou rejte, erè ak boutèy demi lit operasyon transfòmasyon an, ki ka li nan menm kolòn ak yon dosye tèks epi trete pa lòt transfòmasyon:

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Oswa, pou egzanp, ou ka konkretize reseptè a done nan fòm lan nan yon tab epi li done ki soti nan li nan menm kolòn nan.

Gen transfòmasyon orijinal yo. Pou egzanp, transfòmasyon Scan la gen menm fonksyonalite ak fonksyon analyse. Gen transfòmasyon ak non ki di: Kreye Done, Li Excel, Nòmalize, Triye nan Gwoup, Kouri Pwogram, Kouri SQL, Antre ak DB, elatriye. Grafik yo ka itilize paramèt tan exécuter, ki gen ladan paramèt pase nan sistèm operasyon an oswa nan fonksyone. sistèm. Fichye ki gen yon seri paramèt pare yo pase nan graf la yo rele ansanm paramèt (psets).

Kòm espere, Ab Initio GDE gen pwòp repozitwa li yo rele EME (Enterprise Meta Environment). Devlopè yo gen opòtinite pou yo travay ak vèsyon lokal nan kòd la epi tcheke nan devlopman yo nan depo santral la.

Li posib pandan ekzekisyon an oswa apre ekzekisyon graf la pou klike sou nenpòt kouran ki konekte transfòmasyon yo epi gade done ki pase ant transfòmasyon sa yo:

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Li posib tou pou klike sou nenpòt kouran epi wè detay yo swiv - konbyen paralèl transfòmasyon an te travay nan, konbyen liy ak byte yo te chaje nan kilès nan paralèl yo:

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Li posib pou divize ekzekisyon graf la an faz epi make ke kèk transfòmasyon dwe fèt an premye (nan faz zewo), pwochen an nan premye faz, pwochen an nan dezyèm faz, elatriye.

Pou chak transfòmasyon, ou ka chwazi sa yo rele Layout la (kote li pral fèt): san paralèl oswa nan kouran paralèl, ki kantite ki ka espesifye. An menm tan an, fichye tanporè ke Ab Initio kreye pandan transfòmasyon yo ka mete tou de nan sistèm fichye sèvè a ak nan HDFS.

Nan chak transfòmasyon, ki baze sou modèl default la, ou ka kreye pwòp script PDL ou a, ki se yon ti jan tankou yon koki.

Avèk PDL, ou ka pwolonje fonksyonalite transfòmasyon yo epi, an patikilye, ou ka dinamikman (nan ègzekutabl) jenere fragman kòd abitrè depann sou paramèt ègzekutabl.

Epitou nan Ab Initio, entegrasyon ak eksplwatasyon an atravè koki a byen devlope. Espesyalman, Sberbank itilize linux ksh. Ou ka fè echanj varyab ak kokiy la epi sèvi ak yo kòm paramèt graf. Li posib pou rele ekzekisyon graf Ab Initio epi administre Ab Initio nan kokiy la.

Anplis Ab Initio GDE, livrezon an gen ladan anpil lòt pwodwi. Gen pwòp sistèm Ko>operasyon li yo ak yon reklamasyon yo dwe rele yon sistèm opere. Gen Kontwòl> Sant, kote ou ka planifye epi kontwole koule download. Gen pwodwi pou fè devlopman nan yon nivo pi primitif pase Ab Initio GDE pèmèt.

Deskripsyon nan fondasyon an MDW ak travay sou rekonfigirasyon li yo pou GreenPlum

Ansanm ak pwodwi li yo, vandè a bay pwodwi MDW (Metadata Driven Warehouse), ki se yon konfigirateur graf ki fèt pou ede ak travay tipik nan peple depo done oswa vout done.

Li gen ladan analizeur metadata koutim (espesifik pou pwojè) ak jeneratè kòd ki pa nan bwat la.

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum
Nan opinyon an, MDW resevwa yon modèl done, yon dosye konfigirasyon pou mete kanpe yon koneksyon ak yon baz done (Oracle, Teradata oswa Hive) ak kèk lòt paramèt. Pati espesifik pwojè a, pou egzanp, deplwaye modèl la nan baz done a. Pati nan bwat pwodwi a jenere graf ak fichye konfigirasyon pou yo lè yo chaje done nan tablo modèl yo. Sa a kreye graf (ak psets) pou plizyè mòd inisyalize ak travay incrémentielle sou mete ajou antite.

Nan ka Hive ak RDBMS, diferan graf yo pwodwi pou inisyalize ak mizajou done incrémentielle.

Nan ka Hive, done delta fèk ap rantre yo ansanm ak Ab Initio Join ak done ki te nan tablo anvan aktyalizasyon an. Charger done nan MDW (tou de nan Hive ak RDBMS) pa sèlman mete nouvo done ki soti nan delta a, men tou fèmen peryòd yo validite nan done yo ki gen kle prensipal yo te resevwa delta a. Anplis de sa, ou dwe reekri pati ki pa chanje nan done yo. Men, ou dwe fè sa, paske Hive pa gen operasyon efase oswa aktyalizasyon.

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Nan ka RDBMS, graf yo pou aktyalizasyon done incrémentielle sanble pi pi bon, paske RDBMS gen kapasite aktyalizasyon reyèl.

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Delta kap vini an chaje nan yon tab entèmedyè nan baz done a. Apre sa, delta a rantre nan done ki te nan tablo a anvan aktyalizasyon a. Lè sa a se fè pa fòs SQL atravè rechèch la SQL pwodwi. Lè sa a, lè l sèvi avèk efase + mete kòmandman SQL yo, mete nouvo done ki soti nan delta a nan tab la sib epi fèmen peryòd yo nan enpòtans done pou kle prensipal yo ki delta a te resevwa.
Done ki pa chanje yo pa bezwen ranplase.

Kidonk, nou te rive nan konklizyon ke nan ka Hive, MDW ta dwe ale pou reekri tab la tout antye, paske Hive pa gen yon fonksyon aktyalizasyon. E pa gen anyen ki pi bon pase yon reekri konplè done pandan yon aktyalizasyon te envante. Nan ka RDBMS, okontrè, kreyatè yo nan pwodwi a te wè anfòm fè konfyans koneksyon an ak ajou nan tab yo sèvi ak SQL.

Pou yon pwojè nan Sberbank, nou te kreye yon nouvo aplikasyon ki kapab itilize ankò nan loader baz done a pou GreenPlum. Sa a te fè ki baze sou vèsyon an ke MDW jenere pou Teradata. Li te Teradata, epi yo pa Oracle, ki te vini pi byen ak pi pre sa a, paske se tou yon sistèm MPP. Fason yo nan travay, osi byen ke sentaks la nan Teradata ak GreenPlum te tounen soti yo dwe fèmen.

Men kèk egzanp sou diferans enpòtan pou MDW ant RDBMS diferan yo jan sa a. Nan GreenPlum, kontrèman ak Teradata, lè w ap kreye tab, ou bezwen ekri yon kloz

distributed by

Teradata ekri

delete <table> all

, ak nan GreenPlum yo ekri

delete from <table>

Nan Oracle, yo nan lòd yo optimize, yo ekri

delete from t where rowid in (<соединение t с дельтой>)

, ak nan Teradata ak GreenPlum yo ekri

delete from t where exists (select * from delta where delta.pk=t.pk)

Nou sonje tou ke pou Ab Initio travay ak GreenPlum, li te nesesè pou enstale kliyan GreenPlum la sou tout nœuds nan gwoup Ab Initio. Sa a se paske nou konekte ak GreenPlum an menm tan an nan tout nœuds yo nan gwoup nou an. Ak nan lòd pou lekti ki soti nan GreenPlum yo te paralèl ak pou chak fil paralèl Ab Initio li pòsyon li yo nan done ki soti nan GreenPlum, li te nesesè yo mete konstriksyon an konprann pa Ab Initio nan seksyon "kote" nan demann SQL.

where ABLOCAL()

epi detèmine valè konstriksyon sa a lè w espesifye lekti paramèt transfòmasyon nan baz done a

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, ki konpile nan yon bagay tankou

mod(sk,10)=3

, i.e. ou dwe di GreenPlum yon filtè eksplisit pou chak patisyon. Pou lòt baz done (Teradata, Oracle), Ab Initio ka fè paralelizasyon sa a otomatikman.

Konparezon pèfòmans Ab Initio ak Hive ak GreenPlum

Yo te fè yon eksperyans nan Sberbank pou konpare pèfòmans graf MDW te pwodwi an relasyon ak Hive ak an relasyon ak GreenPlum. Kòm yon pati nan eksperyans la, nan ka Hive te gen 5 nœuds sou menm gwoup ak Ab Initio, ak nan ka a nan GreenPlum te gen 4 nœuds sou yon gwoup separe. Moun sa yo. Hive te gen kèk kwen sou GreenPlum an tèm de pyès ki nan konpitè.

Yo te konsidere de pè graf ki fè menm travay aktyalizasyon done nan Hive ak nan GreenPlum. An menm tan an, yo te lanse graf yo ki te pwodwi pa konfigirateur MDW:

  • inisyalize chaj + loading incrémentielle nan done owaza pwodwi nan tab Hive
  • inisyalize chaj + loading incrémentielle nan done pwodwi owaza nan menm tab GreenPlum la

Nan de ka yo (Hive ak GreenPlum), telechajman yo te kouri nan 10 kouran paralèl sou menm gwoup Ab Initio la. Ab Initio sove done entèmedyè pou kalkil nan HDFS (an tèm de Ab Initio, yo te itilize MFS layout lè l sèvi avèk HDFS). Yon liy done ki te pwodwi owaza te okipe 200 octets nan tou de ka yo.

Rezilta a se sa a:

Ruch:

Inisyalize chaj nan Hive

Ranje yo mete
6 000 000
60 000 000
600 000 000

Dire init la
telechaje an segonn
41
203
1 601

Chajman enkreman nan Hive

Nimewo a nan liy nan
tab sib nan kòmansman eksperyans lan
6 000 000
60 000 000
600 000 000

Kantite ranje delta aplike a
tab sib pandan eksperyans la
6 000 000
6 000 000
6 000 000

Enkreman dire
telechaje an segonn
88
299
2 541

Green Plum:

Inisyalize bòt nan GreenPlum

Ranje yo mete
6 000 000
60 000 000
600 000 000

Dire init la
telechaje an segonn
72
360
3 631

Téléchargement incrémentielle nan GreenPlum

Nimewo a nan liy nan
tab sib nan kòmansman eksperyans lan
6 000 000
60 000 000
600 000 000

Kantite ranje delta aplike a
tab sib pandan eksperyans la
6 000 000
6 000 000
6 000 000

Enkreman dire
telechaje an segonn
159
199
321

Nou wè ke vitès la nan chaj la inisyalizasyon nan tou de Hive ak GreenPlum depann lineyèman sou kantite a nan done epi, pou rezon ki pi bon pyès ki nan konpitè, li se yon ti jan pi vit pou Hive pase pou GreenPlum.

Chajman enkreman nan Hive tou depann sou kantite done ki te deja chaje nan tab la sib epi li se byen dousman pandan kantite lajan an ap grandi. Sa a se akòz bezwen an ranplase tab la sib nèt. Sa vle di ke aplike ti chanjman nan tab gwo se pa yon bon ka itilize pou Hive.

Chajman enkreman nan GreenPlum depann fèb sou kantite done deja chaje nan tab la sib epi li se byen vit. Li te tounen soti gras a SQL Joins ak achitekti a GreenPlum, ki pèmèt operasyon an efase.

Se konsa, GreenPlum enjekte delta a lè l sèvi avèk metòd efase + insert, ak Hive pa gen operasyon efase oswa aktyalizasyon, kidonk tout etalaj la done te dwe konplètman reekri pandan mizajou incrémentielle. Konparezon selil ki make an fonse se pi indicatif, paske li koresponn ak itilizasyon ki pi souvan nan telechajman ki gen anpil resous. Nou wè ke GreenPlum bat Hive nan tès sa a pa 8 fwa.

Initio ap travay ak GreenPlum nan Near Real Time mòd

Nan eksperyans sa a, nou pral teste kapasite Ab Initio pou mete ajou tablo GreenPlum la ak moso done ki te pwodwi owaza nan prèske tan reyèl. Konsidere tablo GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval pou travay avèk yo.

Nou pral sèvi ak twa graf Ab Initio pou travay avèk li:

1) Konte Create_test_data.mp - kreye dosye ak done nan HDFS pou 10 liy nan 6 fil paralèl. Done yo se o aza, estriktire yo dwe mete nan tablo nou an

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

2) Grafik mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - graf ki te pwodwi pa MDW pa inisyalize ensèsyon done nan tab nou an nan 10 fil paralèl (done tès ki te pwodwi pa graf (1) yo itilize))

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

3) Grafik mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - graf ki te pwodwi pa MDW pou aktyalizasyon incrémentielle nan tablo nou an nan 10 fil paralèl lè l sèvi avèk yon pòsyon nan nouvo done fèk ap rantre (delta) ki te pwodwi pa graf (1)

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum

Kouri script sa a nan mòd NRT:

  • jenere 6 fisèl tès
  • fè yon premye chaj insert 6 ranje tès nan yon tab vid
  • repete chaj incrémentielle 5 fwa
    • jenere 6 fisèl tès
    • fè yon insert incrémentielle de 6 ranje tès nan tablo a (nan ka sa a, yo bay ansyen done yo yon valid_to_ts tan ekspirasyon ak done ki pi resan yo mete ak menm kle prensipal la)

Tankou yon senaryo imite mòd nan operasyon reyèl nan yon sistèm biznis sèten - yon pòsyon jistis gwo nouvo done parèt an tan reyèl epi imedyatman koule nan GreenPlum.

Koulye a, ann wè jounal la nan script la:

Kòmanse Create_test_data.input.pset nan 2020-06-04 11:49:11
Fini Create_test_data.input.pset nan 2020-06-04 11:49:37
Kòmanse mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:49:37
Fini mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:50:42
Kòmanse Create_test_data.input.pset nan 2020-06-04 11:50:42
Fini Create_test_data.input.pset nan 2020-06-04 11:51:06
Kòmanse mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:51:06
Fini mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:53:41
Kòmanse Create_test_data.input.pset nan 2020-06-04 11:53:41
Fini Create_test_data.input.pset nan 2020-06-04 11:54:04
Kòmanse mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:54:04
Fini mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:56:51
Kòmanse Create_test_data.input.pset nan 2020-06-04 11:56:51
Fini Create_test_data.input.pset nan 2020-06-04 11:57:14
Kòmanse mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:57:14
Fini mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 11:59:55
Kòmanse Create_test_data.input.pset nan 2020-06-04 11:59:55
Fini Create_test_data.input.pset nan 2020-06-04 12:00:23
Kòmanse mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 12:00:23
Fini mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 12:03:23
Kòmanse Create_test_data.input.pset nan 2020-06-04 12:03:23
Fini Create_test_data.input.pset nan 2020-06-04 12:03:49
Kòmanse mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 12:03:49
Fini mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset nan 2020-06-04 12:06:46

Li sanble foto sa a:

Fè chema
Kòmanse tan
Fini tan
Longè

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:01:05

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:02:35

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:02:47

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:02:41

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:03:00

Create_test_data.input.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
KOUMAN POU KONNEN: KOUMAN POU: KOULYE
00:02:57

Nou wè ke 6 ranje enkreman yo trete nan 000 minit, ki se byen vit.
Done ki nan tablo sib la distribye jan sa a:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Lè ou gen balans Sber. Sèvi ak Ab Initio ak Hive ak GreenPlum
Ou ka wè korespondans done yo mete nan moman yo lè graf yo te lanse.
Sa vle di ke ou ka kouri nan Ab Initio incrémentielle done chaje nan GreenPlum ak yon frekans trè wo epi obsève gwo vitès la nan mete done sa yo nan GreenPlum. Natirèlman, li pa pral travay nan kouri yon fwa yon segonn, depi Ab Initio, tankou nenpòt zouti ETL, pran tan pou "bati" lè yo lanse.

Konklizyon

Koulye a, Ab Initio yo itilize nan Sberbank pou konstwi yon Kouch Done Semantik Inifye (ESS). Pwojè sa a enplike nan bati yon vèsyon sèl nan eta a nan divès antite biznis bankè. Enfòmasyon yo soti nan divès sous, kopi yo ap prepare sou Hadoop. Dapre bezwen biznis la, yo prepare yon modèl done epi yo dekri transfòmasyon done yo. Ab Initio telechaje enfòmasyon nan ECC a epi done yo telechaje pa sèlman nan enterè biznis la nan tèt li, men tou li sèvi kòm yon sous pou bati done mart. An menm tan an, fonksyonalite a nan pwodwi a pèmèt itilize sistèm divès kalite (Ruch, Greenplum, Teradata, Oracle) kòm yon reseptè, ki fè li posib yo prepare done pou biznis nan fòma divès kalite mande pa li san anpil efò.

Posiblite yo nan Ab Initio yo lajè, pou egzanp, fondasyon an MDW tache fè li posib yo bati done istorik teknik ak biznis soti nan bwat la. Pou devlopè, Ab Initio fè li posib pou "pa reenvante volan an", men pou sèvi ak anpil eleman fonksyonèl ki disponib, ki an reyalite se bibliyotèk ki nesesè lè w ap travay ak done.

Otè a se yon ekspè nan kominote pwofesyonèl Sberbank SberProfi DWH/BigData. Kominote pwofesyonèl SberProfi DWH/BigData responsab pou devlope konpetans nan domèn tankou ekosistèm Hadoop, Teradata, Oracle DB, GreenPlum, ansanm ak zouti BI Qlik, SAP BO, Tableau, elatriye.

Sous: www.habr.com

Add nouvo kòmantè