Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Beth amser yn ôl, roeddem yn wynebu'r cwestiwn o ddewis offeryn ETL ar gyfer gweithio gyda Data Mawr. Nid oedd y datrysiad BDM Informatica a ddefnyddiwyd yn flaenorol yn addas i ni oherwydd ymarferoldeb cyfyngedig. Mae ei ddefnydd wedi'i leihau i fframwaith ar gyfer lansio gorchmynion gwreichionen-cyflwyno. Nid oedd llawer o analogau ar y farchnad a oedd, mewn egwyddor, yn gallu gweithio gyda maint y data yr ydym yn delio ag ef bob dydd. Yn y diwedd dewison ni Ab Initio. Yn ystod arddangosiadau peilot, dangosodd y cynnyrch gyflymder prosesu data uchel iawn. Nid oes bron unrhyw wybodaeth am Ab Initio yn Rwsieg, felly fe benderfynon ni siarad am ein profiad ar Habré.

Mae gan Ab Initio lawer o drawsnewidiadau clasurol ac anarferol, a gellir ymestyn y cod gan ddefnyddio ei iaith PDL ei hun. Ar gyfer busnes bach, mae'n debygol y bydd offeryn mor bwerus yn ormodol, a gall y rhan fwyaf o'i alluoedd fod yn ddrud a heb ei ddefnyddio. Ond os yw eich graddfa yn agos at raddfa Sberov, yna efallai y bydd Ab Initio yn ddiddorol i chi.

Mae'n helpu busnes i gronni gwybodaeth yn fyd-eang a datblygu ecosystem, ac mae datblygwr i wella ei sgiliau ETL, gwella ei wybodaeth yn y gragen, yn rhoi cyfle i feistroli'r iaith PDL, yn rhoi darlun gweledol o brosesau llwytho, ac yn symleiddio datblygiad. oherwydd y doreth o gydrannau swyddogaethol.

Yn y swydd hon byddaf yn siarad am alluoedd Ab Initio ac yn darparu nodweddion cymharol ei waith gyda Hive a GreenPlum.

  • Disgrifiad o'r fframwaith MDW a gwaith ar ei addasu ar gyfer GreenPlum
  • Cymhariaeth perfformiad Ab Initio rhwng Hive a GreenPlum
  • Gweithio Ab Initio gyda GreenPlum yn y modd Ger Amser Real


Mae ymarferoldeb y cynnyrch hwn yn eang iawn ac mae angen llawer o amser i astudio. Fodd bynnag, gyda'r sgiliau gwaith cywir a'r gosodiadau perfformiad cywir, mae canlyniadau prosesu data yn drawiadol iawn. Gall defnyddio Ab Initio ar gyfer datblygwr ddarparu profiad diddorol. Mae hwn yn olwg newydd ar ddatblygiad ETL, hybrid rhwng amgylchedd gweledol a datblygiad lawrlwytho mewn iaith sgript.

Mae busnesau'n datblygu eu hecosystemau ac mae'r offeryn hwn yn ddefnyddiol yn fwy nag erioed. Gydag Ab Initio, gallwch gronni gwybodaeth am eich busnes presennol a defnyddio'r wybodaeth hon i ehangu hen fusnesau ac agor busnesau newydd. Mae dewisiadau eraill yn lle Ab Initio yn cynnwys amgylcheddau datblygu gweledol Informatica BDM ac amgylcheddau datblygu anweledol Apache Spark.

Disgrifiad o Ab Initio

Mae Ab Initio, fel offer ETL eraill, yn gasgliad o gynhyrchion.

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Mae Ab Initio GDE (Amgylchedd Datblygu Graffigol) yn amgylchedd ar gyfer y datblygwr lle mae'n ffurfweddu trawsnewidiadau data ac yn eu cysylltu â llif data ar ffurf saethau. Yn yr achos hwn, gelwir set o drawsnewidiadau o'r fath yn graff:

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Mae cysylltiadau mewnbwn ac allbwn cydrannau swyddogaethol yn borthladdoedd ac yn cynnwys meysydd a gyfrifir o fewn trawsnewidiadau. Mae nifer o graffiau sydd wedi'u cysylltu gan lifau ar ffurf saethau yn nhrefn eu gweithredu yn cael eu galw'n gynllun.

Mae yna gannoedd o gydrannau swyddogaethol, sy'n llawer. Mae llawer ohonynt yn hynod arbenigol. Mae galluoedd trawsnewidiadau clasurol yn Ab Initio yn ehangach nag mewn offer ETL eraill. Er enghraifft, mae gan Join allbynnau lluosog. Yn ogystal â chanlyniad cysylltu setiau data, gallwch gael cofnodion allbwn o setiau data mewnbwn na ellid cysylltu eu bysellau. Gallwch hefyd gael gwrthodiadau, gwallau a log o'r gweithrediad trawsnewid, y gellir ei ddarllen yn yr un golofn â ffeil testun a'i brosesu gyda thrawsnewidiadau eraill:

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Neu, er enghraifft, gallwch chi wireddu derbynnydd data ar ffurf tabl a darllen data ohono yn yr un golofn.

Mae yna drawsnewidiadau gwreiddiol. Er enghraifft, mae gan y trawsnewidiad Scan ymarferoldeb tebyg i swyddogaethau dadansoddol. Mae yna drawsnewidiadau gydag enwau hunanesboniadol: Creu Data, Darllen Excel, Normaleiddio, Trefnu o fewn Grwpiau, Rhedeg Rhaglen, Rhedeg SQL, Ymuno â DB, ac ati Gall graffiau ddefnyddio paramedrau amser rhedeg, gan gynnwys y posibilrwydd o basio paramedrau o neu i y system weithredu. Gelwir ffeiliau gyda set barod o baramedrau a drosglwyddir i'r graff yn setiau paramedr (psetiau).

Yn ôl y disgwyl, mae gan Ab Initio GDE ei storfa ei hun o'r enw EME (Enterprise Meta Environment). Mae datblygwyr yn cael y cyfle i weithio gyda fersiynau lleol o god a gwirio eu datblygiadau yn y gadwrfa ganolog.

Mae'n bosibl, wrth gyflawni neu ar ôl gweithredu'r graff, i glicio ar unrhyw lif sy'n cysylltu'r trawsffurfiad ac edrych ar y data a basiodd rhwng y trawsnewidiadau hyn:

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Mae hefyd yn bosibl clicio ar unrhyw ffrwd a gweld manylion tracio - sawl cyffelybiaeth y gweithiodd y trawsnewidiad ynddynt, sawl llinell a beit a lwythwyd i mewn i ba un o'r paralelau:

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Mae'n bosibl rhannu gweithrediad y graff yn gamau a nodi bod angen cyflawni rhai trawsnewidiadau yn gyntaf (yn y cyfnod sero), y rhai nesaf yn y cam cyntaf, y rhai nesaf yn yr ail gam, ac ati.

Ar gyfer pob trawsnewid, gallwch ddewis y cynllun fel y'i gelwir (lle bydd yn cael ei weithredu): heb elfennau tebyg neu mewn edafedd cyfochrog, y gellir nodi eu nifer. Ar yr un pryd, gellir gosod ffeiliau dros dro y mae Ab Initio yn eu creu pan fydd trawsnewidiadau'n rhedeg yn system ffeiliau'r gweinydd ac yn HDFS.

Ym mhob trawsnewidiad, yn seiliedig ar y templed rhagosodedig, gallwch greu eich sgript eich hun mewn PDL, sydd ychydig fel cragen.

Gyda PDL, gallwch ymestyn ymarferoldeb trawsnewidiadau ac, yn benodol, gallwch yn ddeinamig (yn ystod amser rhedeg) gynhyrchu darnau cod mympwyol yn dibynnu ar baramedrau amser rhedeg.

Mae gan Ab Initio hefyd integreiddio datblygedig â'r OS trwy gragen. Yn benodol, mae Sberbank yn defnyddio linux ksh. Gallwch gyfnewid newidynnau gyda'r gragen a'u defnyddio fel paramedrau graff. Gallwch alw gweithrediad graffiau Ab Initio o'r plisgyn a gweinyddu Ab Initio.

Yn ogystal ag Ab Initio GDE, mae llawer o gynhyrchion eraill wedi'u cynnwys yn y dosbarthiad. Mae ei System Cydweithredu ei hun gyda hawl i gael ei galw'n system weithredu. Mae yna Reoli>Canolfan lle gallwch chi drefnu a monitro llif lawrlwytho. Mae yna gynhyrchion ar gyfer datblygu ar lefel fwy cyntefig nag y mae Ab Initio GDE yn ei ganiatáu.

Disgrifiad o'r fframwaith MDW a gwaith ar ei addasu ar gyfer GreenPlum

Ynghyd â'i gynhyrchion, mae'r gwerthwr yn cyflenwi'r cynnyrch MDW (Metadata Driven Warehouse), sef ffurfweddydd graff a gynlluniwyd i helpu gyda thasgau nodweddiadol o boblogi warysau data neu gladdgelloedd data.

Mae'n cynnwys parsers metadata arfer (prosiect-benodol) a generaduron cod parod allan o'r blwch.

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum
Fel mewnbwn, mae MDW yn derbyn model data, ffeil ffurfweddu ar gyfer sefydlu cysylltiad â chronfa ddata (Oracle, Teradata neu Hive) a rhai gosodiadau eraill. Mae'r rhan prosiect-benodol, er enghraifft, yn defnyddio'r model i gronfa ddata. Mae rhan y tu allan i'r bocs o'r cynnyrch yn cynhyrchu graffiau a ffeiliau ffurfweddu ar eu cyfer trwy lwytho data i mewn i dablau model. Yn yr achos hwn, mae graffiau (a psets) yn cael eu creu ar gyfer sawl dull o gychwyn a gwaith cynyddrannol ar ddiweddaru endidau.

Yn achos Hive ac RDBMS, cynhyrchir graffiau gwahanol ar gyfer cychwyn a diweddaru data cynyddrannol.

Yn achos Hive, mae'r data delta sy'n dod i mewn wedi'i gysylltu trwy Ab Initio Join â'r data a oedd yn y tabl cyn y diweddariad. Mae llwythwyr data yn MDW (yn Hive ac RDBMS) nid yn unig yn mewnosod data newydd o'r delta, ond hefyd yn cau cyfnodau perthnasedd y data y derbyniodd ei allweddi cynradd y delta. Yn ogystal, mae'n rhaid i chi ailysgrifennu'r rhan ddigyfnewid o'r data. Ond mae'n rhaid gwneud hyn oherwydd nid oes gan Hive weithrediadau dileu neu ddiweddaru.

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Yn achos RDBMS, mae graffiau ar gyfer diweddaru data cynyddrannol yn edrych yn fwy optimaidd, oherwydd mae gan RDBMS alluoedd diweddaru gwirioneddol.

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Mae'r delta a dderbyniwyd yn cael ei lwytho i mewn i dabl canolradd yn y gronfa ddata. Ar ôl hyn, mae'r delta wedi'i gysylltu â'r data a oedd yn y tabl cyn y diweddariad. A gwneir hyn gan ddefnyddio SQL gan ddefnyddio ymholiad SQL a gynhyrchir. Nesaf, gan ddefnyddio'r gorchmynion SQL dileu + mewnosod, mae data newydd o'r delta yn cael ei fewnosod yn y tabl targed ac mae cyfnodau perthnasedd y data y mae eu bysellau cynradd a dderbyniodd y delta ar gau.
Nid oes angen ailysgrifennu data sydd heb ei newid.

Felly daethom i'r casgliad, yn achos Hive, fod yn rhaid i MDW fynd i ailysgrifennu'r tabl cyfan oherwydd nad oes gan Hive swyddogaeth diweddaru. A dim byd gwell nag ailysgrifennu'r data yn llwyr wrth ddiweddaru wedi'i ddyfeisio. Yn achos RDBMS, i'r gwrthwyneb, roedd crewyr y cynnyrch yn ei chael yn angenrheidiol ymddiried cysylltiad a diweddaru tablau i'r defnydd o SQL.

Ar gyfer prosiect yn Sberbank, fe wnaethom greu gweithrediad newydd y gellir ei ailddefnyddio o lwythwr cronfa ddata ar gyfer GreenPlum. Gwnaethpwyd hyn yn seiliedig ar y fersiwn y mae MDW yn ei gynhyrchu ar gyfer Teradata. Teradata, ac nid Oracle, a ddaeth agosaf a gorau ar gyfer hyn, oherwydd... yn system MPP hefyd. Trodd y dulliau gweithio, yn ogystal â chystrawen, Teradata a GreenPlum yn debyg.

Mae enghreifftiau o wahaniaethau hanfodol MDW rhwng gwahanol RDBMSs fel a ganlyn. Yn GreenPlum, yn wahanol i Teradata, wrth greu tablau mae angen i chi ysgrifennu cymal

distributed by

Mae Teradata yn ysgrifennu:

delete <table> all

, ac yn GreenPlum maent yn ysgrifennu

delete from <table>

Yn Oracle, at ddibenion optimeiddio maen nhw'n ysgrifennu

delete from t where rowid in (<соединение t с дельтой>)

, a Teradata a GreenPlum yn ysgrifennu

delete from t where exists (select * from delta where delta.pk=t.pk)

Rydym hefyd yn nodi, er mwyn i Ab Initio weithio gyda GreenPlum, roedd angen gosod y cleient GreenPlum ar bob nod o glwstwr Ab Initio. Mae hyn oherwydd ein bod wedi cysylltu â GreenPlum ar yr un pryd o bob nod yn ein clwstwr. Ac er mwyn i ddarllen o GreenPlum fod yn gyfochrog a phob edefyn Ab Initio cyfochrog i ddarllen ei gyfran ei hun o ddata o GreenPlum, roedd yn rhaid i ni osod adeiladwaith a ddeallwyd gan Ab Initio yn adran “ble” ymholiadau SQL

where ABLOCAL()

a phennu gwerth y gwaith adeiladu hwn trwy nodi'r darlleniad paramedr o'r gronfa ddata trawsnewid

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, sy'n crynhoi i rywbeth tebyg

mod(sk,10)=3

, h.y. mae'n rhaid i chi annog GreenPlum gyda hidlydd penodol ar gyfer pob rhaniad. Ar gyfer cronfeydd data eraill (Teradata, Oracle), gall Ab Initio berfformio'r paraleleiddiad hwn yn awtomatig.

Cymhariaeth perfformiad Ab Initio rhwng Hive a GreenPlum

Cynhaliodd Sberbank arbrawf i gymharu perfformiad graffiau a gynhyrchwyd gan MDW mewn perthynas â Hive ac mewn perthynas â GreenPlum. Fel rhan o’r arbrawf, yn achos Hive roedd 5 nod ar yr un clwstwr ag Ab Initio, ac yn achos GreenPlum roedd 4 nod ar glwstwr ar wahân. Y rhai. Roedd gan Hive rywfaint o fantais caledwedd dros GreenPlum.

Fe wnaethom ystyried dau bâr o graffiau yn perfformio'r un dasg o ddiweddaru data yn Hive a GreenPlum. Ar yr un pryd, lansiwyd y graffiau a gynhyrchwyd gan y cyflunydd MDW:

  • llwyth cychwynnol + llwyth cynyddol o ddata a gynhyrchir ar hap i mewn i dabl Hive
  • llwyth cychwynnol + llwyth cynyddol o ddata a gynhyrchir ar hap i'r un tabl GreenPlum

Yn y ddau achos (Hive a GreenPlum) fe wnaethant redeg uwchlwythiadau i 10 edefyn cyfochrog ar yr un clwstwr Ab Initio. Arbedodd Ab Initio ddata canolradd ar gyfer cyfrifiadau yn HDFS (yn nhermau Ab Initio, defnyddiwyd gosodiad MFS gan ddefnyddio HDFS). Roedd un llinell o ddata a gynhyrchwyd ar hap yn meddiannu 200 beit yn y ddau achos.

Roedd y canlyniad fel hyn:

Cwch gwenyn:

Llwytho cychwynnol yn Hive

Rhesi wedi'u mewnosod
6 000 000
60 000 000
600 000 000

Hyd cychwyn
lawrlwythiadau mewn eiliadau
41
203
1 601

Llwytho cynyddrannol yn Hive

Nifer y rhesi sydd ar gael yn
tabl targed ar ddechrau'r arbrawf
6 000 000
60 000 000
600 000 000

Nifer y llinellau delta y cymhwysir atynt
tabl targed yn ystod yr arbrawf
6 000 000
6 000 000
6 000 000

Hyd y cynyddrannol
lawrlwythiadau mewn eiliadau
88
299
2 541

Eirinen Werdd:

Llwytho cychwynnol yn GreenPlum

Rhesi wedi'u mewnosod
6 000 000
60 000 000
600 000 000

Hyd cychwyn
lawrlwythiadau mewn eiliadau
72
360
3 631

Llwytho cynyddrannol yn GreenPlum

Nifer y rhesi sydd ar gael yn
tabl targed ar ddechrau'r arbrawf
6 000 000
60 000 000
600 000 000

Nifer y llinellau delta y cymhwysir atynt
tabl targed yn ystod yr arbrawf
6 000 000
6 000 000
6 000 000

Hyd y cynyddrannol
lawrlwythiadau mewn eiliadau
159
199
321

Gwelwn fod cyflymder llwytho cychwynnol yn Hive a GreenPlum yn dibynnu'n llinol ar faint o ddata ac, am resymau gwell caledwedd, mae ychydig yn gyflymach i Hive nag ar gyfer GreenPlum.

Mae llwytho cynyddrannol yn Hive hefyd yn dibynnu'n llinol ar faint o ddata a lwythwyd yn flaenorol sydd ar gael yn y tabl targed ac yn mynd rhagddo'n eithaf araf wrth i'r cyfaint dyfu. Achosir hyn gan yr angen i ailysgrifennu'r tabl targed yn gyfan gwbl. Mae hyn yn golygu nad yw cymhwyso newidiadau bach i fyrddau enfawr yn achos defnydd da i Hive.

Mae llwytho cynyddrannol yn GreenPlum yn dibynnu'n wan ar faint o ddata a lwythwyd yn flaenorol sydd ar gael yn y tabl targed ac yn mynd rhagddo'n eithaf cyflym. Digwyddodd hyn diolch i SQL Joins a phensaernïaeth GreenPlum, sy'n caniatáu gweithrediad dileu.

Felly, mae GreenPlum yn ychwanegu'r delta gan ddefnyddio'r dull dileu + mewnosod, ond nid oes gan Hive weithrediadau dileu neu ddiweddaru, felly gorfodwyd yr arae ddata gyfan i gael ei hailysgrifennu'n gyfan gwbl yn ystod diweddariad cynyddrannol. Mae'r gymhariaeth o'r celloedd a amlygir mewn print trwm yn ddadlennol fwyaf, gan ei fod yn cyfateb i'r opsiwn mwyaf cyffredin ar gyfer defnyddio lawrlwythiadau sy'n defnyddio llawer o adnoddau. Gwelwn fod GreenPlum wedi curo Hive yn y prawf hwn 8 gwaith.

Gweithio Ab Initio gyda GreenPlum yn y modd Ger Amser Real

Yn yr arbrawf hwn, byddwn yn profi gallu Ab Initio i ddiweddaru tabl GreenPlum gyda darnau o ddata a gynhyrchir ar hap mewn amser real bron. Gadewch i ni ystyried y tabl GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, y byddwn yn gweithio ag ef.

Byddwn yn defnyddio tri graff Ab Initio i weithio gydag ef:

1) Graff Create_test_data.mp – yn creu ffeiliau data mewn HDFS gyda 10 o resi mewn 6 edefyn cyfochrog. Mae'r data ar hap, mae ei strwythur wedi'i drefnu i'w fewnosod yn ein tabl

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

2) Graff mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – graff a gynhyrchir gan MDW trwy gychwyn mewnosod data yn ein tabl mewn 10 edefyn cyfochrog (defnyddir data prawf a gynhyrchir gan graff (1))

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

3) Graff mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – graff a gynhyrchwyd gan MDW ar gyfer diweddaru ein tabl yn gynyddrannol mewn 10 edefyn cyfochrog gan ddefnyddio cyfran o ddata a dderbyniwyd yn ffres (delta) a gynhyrchir gan graff (1)

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum

Gadewch i ni redeg y sgript isod yn y modd NRT:

  • cynhyrchu 6 o linellau prawf
  • perfformio llwyth cychwynnol mewnosod 6 rhesi prawf i mewn i dabl gwag
  • ailadrodd llwytho i lawr cynyddrannol 5 gwaith
    • cynhyrchu 6 o linellau prawf
    • perfformio mewnosodiad cynyddrannol o 6 o resi prawf yn y tabl (yn yr achos hwn, mae'r amser dod i ben valid_to_ts wedi'i osod i'r hen ddata a data mwy diweddar gyda'r un allwedd gynradd yn cael ei fewnosod)

Mae'r senario hwn yn efelychu dull gweithredu gwirioneddol system fusnes benodol - mae cyfran eithaf mawr o ddata newydd yn ymddangos mewn amser real ac yn cael ei arllwys ar unwaith i GreenPlum.

Nawr, gadewch i ni edrych ar log y sgript:

Dechreuwch Create_test_data.input.pset ar 2020-06-04 11:49:11
Gorffen Create_test_data.input.pset ar 2020-06-04 11:49:37
Cychwyn mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset am 2020-06-04 11:49:37
Gorffen mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset am 2020-06-04 11:50:42
Dechreuwch Create_test_data.input.pset ar 2020-06-04 11:50:42
Gorffen Create_test_data.input.pset ar 2020-06-04 11:51:06
Cychwyn mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:51:06
Gorffen mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:53:41
Dechreuwch Create_test_data.input.pset ar 2020-06-04 11:53:41
Gorffen Create_test_data.input.pset ar 2020-06-04 11:54:04
Cychwyn mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:54:04
Gorffen mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:56:51
Dechreuwch Create_test_data.input.pset ar 2020-06-04 11:56:51
Gorffen Create_test_data.input.pset ar 2020-06-04 11:57:14
Cychwyn mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:57:14
Gorffen mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 11:59:55
Dechreuwch Create_test_data.input.pset ar 2020-06-04 11:59:55
Gorffen Create_test_data.input.pset ar 2020-06-04 12:00:23
Cychwyn mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 12:00:23
Gorffen mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 12:03:23
Dechreuwch Create_test_data.input.pset ar 2020-06-04 12:03:23
Gorffen Create_test_data.input.pset ar 2020-06-04 12:03:49
Cychwyn mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 12:03:49
Gorffen mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ar 2020-06-04 12:06:46

Mae'n troi allan y llun hwn:

Graff
Amser cychwyn
Amser gorffen
Hyd

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.rheolaidd.cyfredol.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.rheolaidd.cyfredol.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.rheolaidd.cyfredol.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.rheolaidd.cyfredol.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.rheolaidd.cyfredol.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Gwelwn fod 6 o linellau cynyddran yn cael eu prosesu mewn 000 munud, sy'n eithaf cyflym.
Daeth y data yn y tabl targed i gael ei ddosbarthu fel a ganlyn:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Pan fydd gennych glorian Sber. Defnyddio Ab Initio gyda Hive a GreenPlum
Gallwch weld cyfatebiaeth y data a fewnosodwyd i'r amseroedd y lansiwyd y graffiau.
Mae hyn yn golygu y gallwch chi redeg llwytho data cynyddrannol i GreenPlum yn Ab Initio gydag amledd uchel iawn ac arsylwi cyflymder uchel o fewnosod y data hwn i GreenPlum. Wrth gwrs, ni fydd yn bosibl lansio unwaith yr eiliad, gan fod Ab Initio, fel unrhyw offeryn ETL, yn gofyn am amser i “ddechrau” pan gaiff ei lansio.

Casgliad

Mae Ab Initio yn cael ei ddefnyddio ar hyn o bryd yn Sberbank i adeiladu Haen Data Semantig Unedig (ESS). Mae'r prosiect hwn yn cynnwys adeiladu fersiwn unedig o gyflwr amrywiol endidau busnes bancio. Daw'r wybodaeth o wahanol ffynonellau, a chaiff y copïau eu paratoi ar Hadoop. Yn seiliedig ar anghenion busnes, paratoir model data a disgrifir trawsnewidiadau data. Mae Ab Initio yn llwytho gwybodaeth i'r ESN ac mae'r data a lawrlwythwyd nid yn unig o ddiddordeb i'r busnes ynddo'i hun, ond mae hefyd yn ffynhonnell ar gyfer adeiladu marchnadoedd data. Ar yr un pryd, mae ymarferoldeb y cynnyrch yn caniatáu ichi ddefnyddio systemau amrywiol fel derbynnydd (Hive, Greenplum, Teradata, Oracle), sy'n ei gwneud hi'n bosibl paratoi data ar gyfer busnes yn hawdd yn y gwahanol fformatau sydd eu hangen arno.

Mae galluoedd Ab Initio yn eang; er enghraifft, mae'r fframwaith MDW sydd wedi'i gynnwys yn ei gwneud hi'n bosibl adeiladu data technegol a busnes hanesyddol allan o'r blwch. I ddatblygwyr, mae Ab Initio yn ei gwneud hi'n bosibl peidio ag ailddyfeisio'r olwyn, ond i ddefnyddio llawer o gydrannau swyddogaethol sy'n bodoli eisoes, sydd yn eu hanfod yn llyfrgelloedd sydd eu hangen wrth weithio gyda data.

Mae'r awdur yn arbenigwr yng nghymuned broffesiynol Sberbank SberProfi DWH/BigData. Mae cymuned broffesiynol SberProfi DWH / BigData yn gyfrifol am ddatblygu cymwyseddau mewn meysydd fel ecosystem Hadoop, Teradata, Oracle DB, GreenPlum, yn ogystal ag offer BI Qlik, SAP BO, Tableau, ac ati.

Ffynhonnell: hab.com

Ychwanegu sylw