Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Wakati fulani uliopita, tulikabiliwa na swali la kuchagua zana ya ETL ya kufanya kazi na Data Kubwa. Suluhisho la Informatica BDM lililotumika awali halikufaa kwa sababu ya utendakazi mdogo. Matumizi yake yamepunguzwa hadi mfumo wa kuzindua amri za kuwasilisha cheche. Hakukuwa na analogi nyingi kwenye soko ambazo, kimsingi, zilikuwa na uwezo wa kufanya kazi na idadi ya data ambayo tunashughulika nayo kila siku. Mwishowe tulichagua Ab Initio. Wakati wa maonyesho ya majaribio, bidhaa ilionyesha kasi ya juu sana ya usindikaji wa data. Karibu hakuna habari kuhusu Ab Initio kwa Kirusi, kwa hivyo tuliamua kuzungumza juu ya uzoefu wetu kuhusu HabrΓ©.

Ab Initio ina mabadiliko mengi ya kawaida na yasiyo ya kawaida, msimbo ambao unaweza kupanuliwa kwa kutumia lugha yake ya PDL. Kwa biashara ndogo, chombo chenye nguvu kama hicho kinaweza kuwa kikubwa zaidi, na uwezo wake mwingi unaweza kuwa ghali na haujatumiwa. Lakini ikiwa kiwango chako kiko karibu na Sberov, basi Ab Initio inaweza kukuvutia.

Inasaidia biashara kukusanya maarifa ulimwenguni kote na kukuza mfumo wa ikolojia, na msanidi programu kuboresha ujuzi wake katika ETL, kuboresha maarifa yake kwenye ganda, hutoa fursa ya kujua lugha ya PDL, inatoa taswira ya michakato ya upakiaji, na kurahisisha maendeleo. kutokana na wingi wa vipengele vya kazi.

Katika chapisho hili nitazungumza juu ya uwezo wa Ab Initio na kutoa sifa za kulinganisha za kazi yake na Hive na GreenPlum.

  • Maelezo ya mfumo wa MDW na ufanyie kazi ubinafsishaji wake kwa GreenPlum
  • Ulinganisho wa utendaji wa Ab Initio kati ya Hive na GreenPlum
  • Kufanya kazi Ab Initio na GreenPlum katika hali ya Karibu na Saa Halisi


Utendaji wa bidhaa hii ni pana sana na inahitaji muda mwingi wa kusoma. Hata hivyo, kwa ujuzi sahihi wa kazi na mipangilio sahihi ya utendaji, matokeo ya usindikaji wa data ni ya kushangaza sana. Kutumia Ab Initio kwa msanidi kunaweza kutoa matumizi ya kuvutia. Huu ni mtazamo mpya kuhusu ukuzaji wa ETL, mseto kati ya mazingira ya kuona na ukuzaji wa upakuaji katika lugha inayofanana na hati.

Biashara zinaendeleza mifumo yao ya ikolojia na zana hii inakuja kwa manufaa zaidi kuliko hapo awali. Ukiwa na Ab Initio, unaweza kukusanya maarifa kuhusu biashara yako ya sasa na kutumia maarifa haya kupanua biashara za zamani na kufungua biashara mpya. Njia mbadala za Ab Initio ni pamoja na mazingira ya maendeleo ya kuona Informatica BDM na mazingira ya maendeleo yasiyo ya kuona ya Apache Spark.

Maelezo ya Ab Initio

Ab Initio, kama zana zingine za ETL, ni mkusanyiko wa bidhaa.

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Ab Initio GDE (Mazingira ya Ukuzaji wa Michoro) ni mazingira ya msanidi programu ambamo yeye husanidi mabadiliko ya data na kuyaunganisha na mtiririko wa data kwa njia ya mishale. Katika kesi hii, seti kama hiyo ya mabadiliko inaitwa grafu:

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Miunganisho ya ingizo na pato ya vipengee vya utendaji ni milango na ina sehemu zilizokokotolewa ndani ya mabadiliko. Grafu kadhaa zilizounganishwa na mtiririko kwa namna ya mishale kwa utaratibu wa utekelezaji wao huitwa mpango.

Kuna vipengele mia kadhaa vya kazi, ambayo ni mengi. Wengi wao ni maalumu sana. Uwezo wa mabadiliko ya kawaida katika Ab Initio ni pana kuliko zana zingine za ETL. Kwa mfano, Jiunge ina matokeo mengi. Kando na matokeo ya kuunganisha seti za data, unaweza kupata rekodi za pato za seti za data za ingizo ambazo funguo zake hazikuweza kuunganishwa. Unaweza pia kupata kukataliwa, makosa na logi ya operesheni ya mabadiliko, ambayo inaweza kusomwa kwenye safu sawa na faili ya maandishi na kusindika na mabadiliko mengine:

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Au, kwa mfano, unaweza kubadilisha kipokea data kwa namna ya jedwali na kusoma data kutoka kwake kwenye safu wima sawa.

Kuna mabadiliko ya asili. Kwa mfano, ubadilishaji wa Scan ina utendakazi sawa na utendakazi wa uchanganuzi. Kuna mabadiliko yenye majina yanayojieleza: Unda Data, Soma Excel, Weka Kawaida, Panga ndani ya Vikundi, Run Program, Run SQL, Jiunge na DB, n.k. Grafu zinaweza kutumia vigezo vya muda, ikijumuisha uwezekano wa kupitisha vigezo kutoka au kwenda. mfumo wa uendeshaji. Faili zilizo na seti iliyopangwa tayari ya vigezo vilivyopitishwa kwenye grafu huitwa seti za parameter (psets).

Kama inavyotarajiwa, Ab Initio GDE ina hazina yake inayoitwa EME (Enterprise Meta Environment). Watengenezaji wana fursa ya kufanya kazi na matoleo ya ndani ya msimbo na kuangalia maendeleo yao kwenye hazina kuu.

Inawezekana, wakati wa utekelezaji au baada ya kutekeleza grafu, kubonyeza mtiririko wowote unaounganisha mabadiliko na uangalie data iliyopitishwa kati ya mabadiliko haya:

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Pia inawezekana kubofya kwenye mtiririko wowote na kuona maelezo ya ufuatiliaji - ni mfanano ngapi ambao ubadilishaji ulifanya kazi, ni mistari na baiti ngapi zilipakiwa katika ipi kati ya ulinganifu:

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Inawezekana kugawanya utekelezaji wa grafu katika awamu na alama kwamba baadhi ya mabadiliko yanahitajika kufanywa kwanza (katika awamu ya sifuri), ijayo katika awamu ya kwanza, ijayo katika awamu ya pili, nk.

Kwa kila mabadiliko, unaweza kuchagua kinachojulikana mpangilio (ambapo kitatekelezwa): bila kufanana au kwa nyuzi zinazofanana, idadi ambayo inaweza kutajwa. Wakati huo huo, faili za muda ambazo Ab Initio huunda wakati mabadiliko yanaendeshwa yanaweza kuwekwa katika mfumo wa faili wa seva na katika HDFS.

Katika kila mabadiliko, kulingana na kiolezo chaguo-msingi, unaweza kuunda hati yako katika PDL, ambayo ni kama ganda.

Ukiwa na PDL, unaweza kupanua utendakazi wa mabadiliko na, haswa, unaweza kwa nguvu (wakati wa kukimbia) kutoa vipande vya msimbo wa kiholela kulingana na vigezo vya wakati wa kukimbia.

Ab Initio pia ina muunganisho uliokuzwa vizuri na OS kupitia ganda. Hasa, Sberbank hutumia linux ksh. Unaweza kubadilisha vijiti na ganda na kuzitumia kama vigezo vya grafu. Unaweza kupiga simu utekelezaji wa grafu za Ab Initio kutoka kwa ganda na kusimamia Ab Initio.

Mbali na Ab Initio GDE, bidhaa nyingine nyingi zimejumuishwa katika utoaji. Kuna Co>Operation System yake yenyewe yenye madai ya kuitwa mfumo endeshi. Kuna Kidhibiti>Kituo ambapo unaweza kuratibu na kufuatilia mtiririko wa upakuaji. Kuna bidhaa za kufanya maendeleo katika kiwango cha awali zaidi kuliko Ab Initio GDE inaruhusu.

Maelezo ya mfumo wa MDW na ufanyie kazi ubinafsishaji wake kwa GreenPlum

Pamoja na bidhaa zake, muuzaji hutoa bidhaa ya MDW (Metadata Driven Warehouse), ambayo ni kisanidi cha grafu kilichoundwa ili kusaidia kazi za kawaida za kujaza maghala ya data au vaults za data.

Ina vichanganuzi vya metadata maalum (maalum vya mradi) na jenereta za msimbo zilizotengenezwa tayari nje ya kisanduku.

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum
Kama ingizo, MDW hupokea modeli ya data, faili ya usanidi kwa ajili ya kusanidi muunganisho kwenye hifadhidata (Oracle, Teradata au Hive) na mipangilio mingineyo. Sehemu mahususi ya mradi, kwa mfano, hupeleka kielelezo kwenye hifadhidata. Sehemu ya nje ya kisanduku cha bidhaa hutengeneza grafu na faili za usanidi kwa ajili yao kwa kupakia data kwenye majedwali ya mfano. Katika kesi hii, grafu (na psets) huundwa kwa njia kadhaa za kuanzisha na kuongeza kazi ya kusasisha vyombo.

Katika hali ya Hive na RDBMS, grafu tofauti hutolewa kwa ajili ya kuanzishwa na masasisho ya data ya ziada.

Kwa upande wa Hive, data inayoingia ya delta imeunganishwa kupitia Ab Initio Jiunge na data iliyokuwa kwenye jedwali kabla ya sasisho. Vipakiaji data katika MDW (zote katika Hive na RDBMS) sio tu huingiza data mpya kutoka kwenye delta, lakini pia hufunga vipindi vya umuhimu wa data ambazo funguo zake za msingi zilipokea delta. Kwa kuongeza, unapaswa kuandika upya sehemu isiyobadilika ya data. Lakini hii lazima ifanyike kwa sababu Hive haina shughuli za kufuta au kusasisha.

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Kwa upande wa RDBMS, grafu za usasishaji wa data unaoongezeka huonekana bora zaidi, kwa sababu RDBMS ina uwezo halisi wa kusasisha.

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Delta iliyopokelewa imepakiwa kwenye jedwali la kati katika hifadhidata. Baada ya hayo, delta imeunganishwa na data iliyokuwa kwenye meza kabla ya sasisho. Na hii inafanywa kwa kutumia SQL kwa kutumia swala la SQL linalozalishwa. Ifuatayo, kwa kutumia amri za SQL futa+ingiza, data mpya kutoka kwa delta inaingizwa kwenye jedwali lengwa na vipindi vya umuhimu wa data ambayo funguo za msingi zilizopokea delta zimefungwa.
Hakuna haja ya kuandika upya data ambayo haijabadilishwa.

Kwa hivyo tulifikia hitimisho kwamba kwa upande wa Hive, MDW lazima iende kuandika tena jedwali zima kwa sababu Hive haina kazi ya kusasisha. Na hakuna kitu bora zaidi kuliko kuandika upya kabisa data wakati uppdatering umevumbuliwa. Kwa upande wa RDBMS, kinyume chake, waundaji wa bidhaa waliona ni muhimu kukabidhi uunganisho na uppdatering wa meza kwa matumizi ya SQL.

Kwa mradi katika Sberbank, tuliunda utekelezaji mpya, unaoweza kutumika tena wa kipakiaji cha hifadhidata kwa GreenPlum. Hili lilifanywa kulingana na toleo ambalo MDW hutoa kwa Teradata. Ilikuwa Teradata, na sio Oracle, ambayo ilikuja karibu na bora zaidi kwa hili, kwa sababu ... pia ni mfumo wa MPP. Njia za kufanya kazi, pamoja na syntax, ya Teradata na GreenPlum iligeuka kuwa sawa.

Mifano ya tofauti muhimu za MDW kati ya RDBMS tofauti ni kama ifuatavyo. Katika GreenPlum, tofauti na Teradata, wakati wa kuunda meza unahitaji kuandika kifungu

distributed by

Teradata anaandika:

delete <table> all

, na katika GreenPlum wanaandika

delete from <table>

Katika Oracle, kwa madhumuni ya uboreshaji wanaandika

delete from t where rowid in (<соСдинСниС t с Π΄Π΅Π»ΡŒΡ‚ΠΎΠΉ>)

, na Teradata na GreenPlum wanaandika

delete from t where exists (select * from delta where delta.pk=t.pk)

Pia tunakumbuka kuwa ili Ab Initio ifanye kazi na GreenPlum, ilikuwa ni lazima kusakinisha mteja wa GreenPlum kwenye nodi zote za nguzo ya Ab Initio. Hii ni kwa sababu tuliunganisha kwa GreenPlum wakati huo huo kutoka kwa nodi zote kwenye nguzo yetu. Na ili usomaji kutoka kwa GreenPlum ufanane na kila uzi unaofanana wa Ab Initio kusoma sehemu yake ya data kutoka GreenPlum, ilitubidi kuweka ujenzi unaoeleweka na Ab Initio katika sehemu ya "wapi" ya maswali ya SQL.

where ABLOCAL()

na kuamua thamani ya ujenzi huu kwa kutaja usomaji wa parameter kutoka kwa hifadhidata ya mabadiliko

ablocal_expr=Β«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))Β»

, ambayo inajumuisha kitu kama

mod(sk,10)=3

, i.e. inabidi uulize GreenPlum na kichujio wazi kwa kila kizigeu. Kwa hifadhidata zingine (Teradata, Oracle), Ab Initio inaweza kutekeleza ulinganishaji huu kiotomatiki.

Ulinganisho wa utendaji wa Ab Initio kati ya Hive na GreenPlum

Sberbank ilifanya jaribio la kulinganisha utendakazi wa grafu zinazozalishwa na MDW kuhusiana na Hive na kuhusiana na GreenPlum. Kama sehemu ya jaribio, kwa upande wa Hive kulikuwa na nodi 5 kwenye nguzo sawa na Ab Initio, na kwa upande wa GreenPlum kulikuwa na nodi 4 kwenye nguzo tofauti. Wale. Hive ilikuwa na faida ya maunzi zaidi ya GreenPlum.

Tulizingatia jozi mbili za grafu zinazofanya kazi sawa ya kusasisha data katika Hive na GreenPlum. Wakati huo huo, grafu zinazozalishwa na kisanidi cha MDW zilizinduliwa:

  • mzigo wa awali + mzigo wa nyongeza wa data inayozalishwa kwa nasibu kwenye jedwali la Hive
  • mzigo wa awali + mzigo wa nyongeza wa data inayozalishwa bila mpangilio kwenye jedwali lile lile la GreenPlum

Katika visa vyote viwili (Hive na GreenPlum) zilipakia upakiaji kwa nyuzi 10 sambamba kwenye nguzo moja ya Ab Initio. Ab Initio ilihifadhi data ya kati kwa hesabu katika HDFS (kwa mujibu wa Ab Initio, mpangilio wa MFS kwa kutumia HDFS ulitumika). Mstari mmoja wa data iliyozalishwa bila mpangilio ulichukua baiti 200 katika visa vyote viwili.

Matokeo yake yalikuwa hivi:

Mzinga:

Upakiaji wa awali kwenye Hive

Safu mlalo zimeingizwa
6 000 000
60 000 000
600 000 000

Muda wa uanzishaji
vipakuliwa kwa sekunde
41
203
1 601

Upakiaji wa ziada katika Hive

Idadi ya safu mlalo zinazopatikana ndani
jedwali lengwa mwanzoni mwa jaribio
6 000 000
60 000 000
600 000 000

Idadi ya mistari ya delta inayotumika
jedwali lengwa wakati wa jaribio
6 000 000
6 000 000
6 000 000

Muda wa nyongeza
vipakuliwa kwa sekunde
88
299
2 541

GreenPlum:

Upakiaji wa awali katika GreenPlum

Safu mlalo zimeingizwa
6 000 000
60 000 000
600 000 000

Muda wa uanzishaji
vipakuliwa kwa sekunde
72
360
3 631

Upakiaji wa ziada katika GreenPlum

Idadi ya safu mlalo zinazopatikana ndani
jedwali lengwa mwanzoni mwa jaribio
6 000 000
60 000 000
600 000 000

Idadi ya mistari ya delta inayotumika
jedwali lengwa wakati wa jaribio
6 000 000
6 000 000
6 000 000

Muda wa nyongeza
vipakuliwa kwa sekunde
159
199
321

Tunaona kwamba kasi ya upakiaji wa awali katika Hive na GreenPlum kwa mstari inategemea kiasi cha data na, kwa sababu za maunzi bora, ni haraka zaidi kwa Hive kuliko kwa GreenPlum.

Upakiaji wa kuongezeka katika Hive pia kwa mstari hutegemea kiasi cha data iliyopakiwa awali inayopatikana katika jedwali lengwa na huendelea polepole kadri sauti inavyoongezeka. Hii inasababishwa na hitaji la kuandika upya jedwali lengwa kabisa. Hii inamaanisha kuwa kutumia mabadiliko madogo kwenye jedwali kubwa sio kesi nzuri ya utumiaji kwa Hive.

Upakiaji wa ongezeko katika GreenPlum kwa udhaifu hutegemea kiasi cha data iliyopakiwa hapo awali inayopatikana kwenye jedwali lengwa na huendelea haraka sana. Hii ilitokea shukrani kwa SQL Joins na usanifu wa GreenPlum, ambayo inaruhusu operesheni ya kufuta.

Kwa hivyo, GreenPlum inaongeza delta kwa kutumia njia ya kufuta+insert, lakini Hive haina shughuli za kufuta au kusasisha, kwa hivyo safu nzima ya data ililazimika kuandikwa upya kabisa wakati wa sasisho la nyongeza. Ulinganisho wa seli zilizoangaziwa kwa herufi nzito hufichua zaidi, kwa kuwa inalingana na chaguo la kawaida la kutumia upakuaji unaotumia rasilimali nyingi. Tunaona kwamba GreenPlum ilishinda Hive kwenye jaribio hili kwa mara 8.

Kufanya kazi Ab Initio na GreenPlum katika hali ya Karibu na Saa Halisi

Katika jaribio hili, tutajaribu uwezo wa Ab Initio kusasisha jedwali la GreenPlum kwa vipande vya data vilivyotolewa bila mpangilio katika muda halisi. Hebu tuzingatie jedwali la GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, ambalo tutafanya kazi nalo.

Tutatumia grafu tatu za Ab Initio kufanya kazi nayo:

1) Grafu Create_test_data.mp - huunda faili za data katika HDFS na safu mlalo 10 katika nyuzi 6 zinazofanana. Data ni ya nasibu, muundo wake umepangwa kwa kuingizwa kwenye meza yetu

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

2) Grafu mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - Grafu iliyotengenezwa na MDW kwa kuanzisha uwekaji wa data kwenye jedwali letu katika nyuzi 10 sambamba (data ya majaribio inayotolewa na grafu (1) inatumiwa)

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

3) Grafu mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - grafu inayotolewa na MDW kwa usasishaji wa nyongeza wa jedwali letu katika nyuzi 10 sambamba kwa kutumia sehemu ya data iliyopokelewa upya (delta) inayotolewa na grafu (1)

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum

Wacha tuendeshe maandishi hapa chini katika hali ya NRT:

  • kuzalisha mistari 6 ya majaribio
  • tekeleza upakiaji wa awali ingiza safu mlalo za majaribio 6 kwenye jedwali tupu
  • rudia upakuaji wa nyongeza mara 5
    • kuzalisha mistari 6 ya majaribio
    • ingiza safu mlalo 6 za majaribio kwenye jedwali (katika hali hii, muda halali wa kuisha muda wa matumizi umewekwa kwenye data ya zamani na data ya hivi majuzi iliyo na ufunguo wa msingi sawa imeingizwa)

Hali hii inaiga hali ya uendeshaji halisi wa mfumo fulani wa biashara - sehemu kubwa ya data mpya inaonekana kwa wakati halisi na hutiwa mara moja kwenye GreenPlum.

Sasa hebu tuangalie logi ya hati:

Anza Create_test_data.input.pset saa 2020-06-04 11:49:11
Maliza Create_test_data.input.pset saa 2020-06-04 11:49:37
Anza mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:49:37
Maliza mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:50:42
Anza Create_test_data.input.pset saa 2020-06-04 11:50:42
Maliza Create_test_data.input.pset saa 2020-06-04 11:51:06
Anza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:51:06
Maliza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:53:41
Anza Create_test_data.input.pset saa 2020-06-04 11:53:41
Maliza Create_test_data.input.pset saa 2020-06-04 11:54:04
Anza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:54:04
Maliza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:56:51
Anza Create_test_data.input.pset saa 2020-06-04 11:56:51
Maliza Create_test_data.input.pset saa 2020-06-04 11:57:14
Anza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:57:14
Maliza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 11:59:55
Anza Create_test_data.input.pset saa 2020-06-04 11:59:55
Maliza Create_test_data.input.pset saa 2020-06-04 12:00:23
Anza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 12:00:23
Maliza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 12:03:23
Anza Create_test_data.input.pset saa 2020-06-04 12:03:23
Maliza Create_test_data.input.pset saa 2020-06-04 12:03:49
Anza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 12:03:49
Maliza mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset saa 2020-06-04 12:06:46

Inageuka picha hii:

Graph
Anza wakati
Maliza wakati
urefu

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.kawaida.sasa.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.kawaida.sasa.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.kawaida.sasa.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.kawaida.sasa.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.kawaida.sasa.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Tunaona kwamba mistari ya nyongeza 6 inachakatwa kwa dakika 000, ambayo ni haraka sana.
Data katika jedwali lengwa ilisambazwa kama ifuatavyo:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Unapokuwa na mizani ya Sber. Kutumia Ab Initio na Hive na GreenPlum
Unaweza kuona mawasiliano ya data iliyoingizwa kwa nyakati ambazo grafu zilizinduliwa.
Hii inamaanisha kuwa unaweza kuendesha upakiaji wa data unaoongezeka kwenye GreenPlum katika Ab Initio na masafa ya juu sana na uangalie kasi ya juu ya kuingiza data hii kwenye GreenPlum. Bila shaka, haitawezekana kuzindua mara moja kwa sekunde, kwa kuwa Ab Initio, kama zana yoyote ya ETL, inahitaji muda wa "kuanzisha" inapozinduliwa.

Hitimisho

Ab Initio kwa sasa inatumika katika Sberbank kujenga Tabaka la Data la Semantiki Iliyounganishwa (ESS). Mradi huu unahusisha kujenga toleo la umoja wa hali ya mashirika mbalimbali ya biashara ya benki. Habari hutoka kwa vyanzo anuwai, nakala zake ambazo zimetayarishwa kwenye Hadoop. Kulingana na mahitaji ya biashara, muundo wa data huandaliwa na mabadiliko ya data yanaelezwa. Ab Initio hupakia maelezo kwenye ESN na data iliyopakuliwa sio tu ya manufaa kwa biashara yenyewe, lakini pia hutumika kama chanzo cha kujenga mifumo ya data. Wakati huo huo, utendakazi wa bidhaa hukuruhusu kutumia mifumo mbali mbali kama mpokeaji (Hive, Greenplum, Teradata, Oracle), ambayo inafanya uwezekano wa kuandaa data kwa biashara kwa urahisi katika fomati anuwai inayohitaji.

Uwezo wa Ab Initio ni mpana; kwa mfano, mfumo wa MDW uliojumuishwa huwezesha kuunda data ya kiufundi na ya kihistoria ya biashara nje ya boksi. Kwa watengenezaji, Ab Initio inafanya uwezekano wa kutoanzisha tena gurudumu, lakini kutumia vipengee vingi vya kazi vilivyopo, ambavyo kimsingi ni maktaba zinazohitajika wakati wa kufanya kazi na data.

Mwandishi ni mtaalam katika jumuiya ya kitaaluma ya Sberbank SberProfi DWH/BigData. Jumuiya ya wataalamu wa SberProfi DWH/BigData inawajibika kukuza ujuzi katika maeneo kama vile mfumo ikolojia wa Hadoop, Teradata, Oracle DB, GreenPlum, pamoja na zana za BI Qlik, SAP BO, Tableau, n.k.

Chanzo: mapenzi.com

Kuongeza maoni