Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

I kekahi manawa i hala aku nei, ua alo mākou i ka nīnau no ke koho ʻana i kahi mea hana ETL no ka hana ʻana me Big Data. ʻAʻole kūpono ka hoʻonā Informatica BDM i hoʻohana mua ʻia iā mākou ma muli o ka palena o ka hana. Ua hoʻemi ʻia kona hoʻohana ʻana i ka hoʻomaka ʻana i nā kauoha spark-submit. ʻAʻole nui nā analogues ma ka mākeke i hiki ke hana me ka nui o ka ʻikepili a mākou e hana ai i kēlā me kēia lā. I ka hopena ua koho mākou iā Ab Initio. I ka wā o nā hōʻikeʻike hoʻokele, hōʻike ka huahana i ka wikiwiki o ka hoʻoili ʻikepili. ʻAʻohe mea ʻike e pili ana iā Ab Initio ma Lūkini, no laila ua hoʻoholo mākou e kamaʻilio e pili ana i kā mākou ʻike ma Habré.

He nui nā loli maʻamau a ʻokoʻa o Ab Initio, hiki ke hoʻonui ʻia ke code me ka hoʻohana ʻana i kāna ʻōlelo PDL ponoʻī. No kahi ʻoihana liʻiliʻi, ʻoi aku ka nui o kēlā mea hana ikaika, a ʻo ka hapa nui o kāna mau mea hiki ke kumukūʻai a hoʻohana ʻole ʻia. Akā inā kokoke kāu unahi iā Sberov, a laila hoihoi paha ʻo Ab Initio iā ʻoe.

Kōkua ia i kahi ʻoihana e hōʻiliʻili i ka ʻike ma ka honua holoʻokoʻa a hoʻomohala i kahi kaiaola, a me ka mea hoʻomohala e hoʻomaikaʻi i kona mau akamai i ka ETL, hoʻomaikaʻi i kona ʻike i loko o ka pūpū, hāʻawi i ka manawa e aʻo ai i ka ʻōlelo PDL, hāʻawi i kahi kiʻi ʻike o nā kaʻina hoʻouka, a maʻalahi hoʻomohala. ma muli o ka nui o nā mea hana.

Ma kēia pou e kamaʻilio wau e pili ana i nā hiki o Ab Initio a hāʻawi i nā hiʻohiʻona hoʻohālikelike o kāna hana me Hive a me GreenPlum.

  • ʻO ka wehewehe ʻana o ka MDW framework a hana i kāna hana maʻamau no GreenPlum
  • Ab Initio hoʻohālikelike hana ma waena o Hive a me GreenPlum
  • Ke hana nei ʻo Ab Initio me GreenPlum ma ke ʻano ʻo Near Real Time


He ākea loa ka hana o kēia huahana a makemake i ka manawa nui e aʻo ai. Eia nō naʻe, me nā mākau hana kūpono a me nā hoʻonohonoho hana kūpono, ʻoi aku ka maikaʻi o nā hopena o ka hoʻoili ʻikepili. ʻO ka hoʻohana ʻana iā Ab Initio no kahi mea hoʻomohala hiki ke hāʻawi i kahi ʻike hoihoi. He manaʻo hou kēia i ka hoʻomohala ʻana o ETL, kahi hui ma waena o kahi ʻike ʻike a me ka hoʻoiho ʻana i ka hoʻomohala ʻana ma kahi ʻōlelo like-script.

Ke hoʻomohala nei nā ʻoihana i kā lākou kaiaolaola a ʻoi aku ka maikaʻi o kēia mea hana. Me Ab Initio, hiki iā ʻoe ke hōʻiliʻili i ka ʻike e pili ana i kāu ʻoihana o kēia manawa a hoʻohana i kēia ʻike e hoʻonui i nā ʻoihana kahiko a wehe i nā ʻoihana hou. ʻO nā mea ʻē aʻe i ka Ab Initio e pili ana i nā kaiapuni hoʻomohala ʻike Informatica BDM a me nā kaiapuni hoʻomohala ʻike ʻole ʻo Apache Spark.

ʻO ka wehewehe ʻana iā Ab Initio

ʻO Ab Initio, e like me nā mea hana ETL ʻē aʻe, he hōʻiliʻili o nā huahana.

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

ʻO Ab Initio GDE (Graphical Development Environment) kahi kaiapuni no ka mea hoʻomohala kahi e hoʻonohonoho ai i nā hoʻololi ʻikepili a hoʻopili iā lākou me nā kahe ʻikepili ma ke ʻano o nā pua. I kēia hihia, ua kapa ʻia kēlā ʻano hoʻololi i ka pakuhi:

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

ʻO ka hoʻokomo a me ka hoʻokuʻu ʻana o nā ʻāpana hana he mau awa a loaʻa nā māla i helu ʻia i loko o nā hoʻololi. Ua kapa ʻia kekahi mau pakuhi i hoʻopili ʻia e nā kahe ma ke ʻano o nā pua ma ke ʻano o ka hoʻokō ʻana.

Aia kekahi mau haneli hana, he nui. ʻO ka nui o lākou he mea kūikawā nui. ʻOi aku ka nui o nā mana o ka hoʻololi maʻamau ma Ab Initio ma mua o nā mea hana ETL ʻē aʻe. No ka laʻana, loaʻa i hui pū kekahi mau mea hoʻopuka. Ma waho aʻe o ka hopena o ka hoʻohui ʻana i nā waihona, hiki iā ʻoe ke loaʻa nā moʻolelo hoʻopuka o nā waihona hoʻokomo i hiki ʻole ke hoʻopili ʻia nā kī. Hiki iā ʻoe ke loaʻa nā hōʻole, nā hewa a me kahi log o ka hana hoʻololi, hiki ke heluhelu ʻia ma ke kolamu like me kahi faila kikokikona a hana ʻia me nā hoʻololi ʻē aʻe:

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

A i ʻole, no ka laʻana, hiki iā ʻoe ke hoʻolilo i kahi mea lawe ʻikepili ma ke ʻano o ka papaʻaina a heluhelu i ka ʻikepili mai ia mea ma ke kolamu like.

Aia nā hoʻololi kumu. No ka laʻana, he hana like ka hoʻololi Scan me nā hana analytical. Aia nā hoʻololi me nā inoa wehewehe ponoʻī: E hana i ka ʻikepili, heluhelu Excel, Normalize, Sort within Groups, Run Program, Run SQL, Join with DB, etc. ka ʻōnaehana hana . Ua kapa ʻia nā faila me kahi hoʻonohonoho mākaukau o nā ʻāpana i hāʻawi ʻia i ka pakuhi.

E like me ka mea i manaʻo ʻia, aia ʻo Ab Initio GDE i kāna waihona ponoʻī i kapa ʻia ʻo EME (Enterprise Meta Environment). Loaʻa i nā mea hoʻomohala ka manawa e hana pū me nā mana kūloko o ke code a nānā i kā lākou hoʻomohala ʻana i loko o ka waihona kikowaena.

Hiki, i ka wā e hoʻokō ai a i ʻole ma hope o ka hoʻokō ʻana i ka pakuhi, e kaomi i kekahi kahe e pili ana i ka hoʻololi ʻana a nānā i nā ʻikepili i hala ma waena o kēia mau hoʻololi:

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

Hiki nō ke kaomi ma kekahi kahawai a ʻike i nā kikoʻī o ka nānā ʻana - ehia nā ʻano like i hana ʻia ai ka hoʻololi ʻana, ehia mau laina a me nā paita i hoʻouka ʻia i loko o kahi o nā mea like:

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

Hiki ke hoʻokaʻawale i ka hoʻokō ʻana o ka pakuhi i nā ʻāpana a hōʻailona i kekahi mau hoʻololi e pono e hana mua ʻia (ma ka ʻaoʻao zero), nā mea aʻe i ka pae mua, nā mea aʻe i ka pae ʻelua, etc.

No kēlā me kēia hoʻololi, hiki iā ʻoe ke koho i ka mea i kapa ʻia ʻo ka hoʻolālā (kahi e hoʻokō ʻia ai): me ka ʻole o nā ʻano like ʻole a i ʻole nā ​​kaula like ʻole, hiki ke kuhikuhi ʻia ka helu o ia mea. I ka manawa like, hiki ke hoʻokomo ʻia nā faila pōkole i hana ʻia e Ab Initio i ka wā e holo ana nā loli i loko o ka ʻōnaehana faila server a ma HDFS.

I kēlā me kēia hoʻololi, e pili ana i ka maʻamau paʻamau, hiki iā ʻoe ke hana i kāu palapala ponoʻī ma PDL, he ʻano like ia me ka pūpū.

Me PDL, hiki iā ʻoe ke hoʻonui i ka hana o ka hoʻololi ʻana a, ʻoi aku, hiki iā ʻoe ke hoʻoikaika (i ka wā holo) e hana i nā ʻāpana code arbitrary ma muli o nā ʻāpana runtime.

Ua hoʻohui maikaʻi ʻia ʻo Ab Initio me ka OS ma o ka shell. ʻO ka kikoʻī, hoʻohana ʻo Sberbank i ka linux ksh. Hiki iā ʻoe ke hoʻololi i nā mea hoʻololi me ka pūpū a hoʻohana iā lākou e like me nā ʻāpana kiʻi. Hiki iā ʻoe ke kāhea i ka hoʻokō ʻana i nā kiʻi Ab Initio mai ka pūpū a lawelawe iā Ab Initio.

Ma kahi o Ab Initio GDE, nui nā huahana ʻē aʻe i hoʻokomo ʻia i ka lawe ʻana. Aia kona Co>Operation System me kahi koi e kapa ʻia ʻo ia he ʻōnaehana hana. Aia kahi Control> Center kahi e hiki ai iā ʻoe ke hoʻonohonoho a nānā i nā kahe hoʻoiho. Aia nā huahana no ka hoʻomohala ʻana i kahi pae mua ma mua o ka ʻae ʻana o Ab Initio GDE.

ʻO ka wehewehe ʻana o ka MDW framework a hana i kāna hana maʻamau no GreenPlum

Me kāna mau huahana, hāʻawi ka mea kūʻai aku i ka huahana MDW (Metadata Driven Warehouse), kahi mea hoʻonohonoho kiʻi i hoʻolālā ʻia e kōkua i nā hana maʻamau o ka hoʻonui ʻana i nā hale waihona ʻikepili a i ʻole nā ​​waihona ʻikepili.

Loaʻa iā ia nā mea hoʻolaha metadata maʻamau (kūikawā-papahana) a me nā mea hana code i hana ʻia ma waho o ka pahu.

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum
Ma ke ʻano he hoʻokomo, loaʻa iā MDW kahi kumu hoʻohālike, kahi faila hoʻonohonoho no ka hoʻonohonoho ʻana i kahi pilina i kahi waihona (Oracle, Teradata a i ʻole Hive) a me kekahi mau hoʻonohonoho ʻē aʻe. ʻO ka ʻāpana kikoʻī o ka pāhana, no ka laʻana, e kau i ke kumu hoʻohālike i kahi waihona. Hoʻopuka ka ʻāpana o waho o ka huahana i nā kiʻi a me nā faila hoʻonohonoho no lākou ma ka hoʻouka ʻana i nā ʻikepili i nā papa hoʻohālike. I kēia hihia, hana ʻia nā kiʻi (a me nā psets) no kekahi mau ʻano o ka hoʻomaka ʻana a me ka hana hoʻonui i ka hoʻonui ʻana i nā hui.

Ma nā hihia o Hive a me RDBMS, hana ʻia nā kiʻi like ʻole no ka hoʻomaka ʻana a me ka hoʻonui ʻana i ka ʻikepili.

Ma ka hihia o Hive, pili ka ʻikepili delta e komo mai ma o Ab Initio Hui pū me ka ʻikepili i loko o ka papa ma mua o ka hoʻohou. ʻAʻole hoʻokomo wale nā ​​mea hoʻoili ʻikepili ma MDW (ma Hive a me RDBMS) i nā ʻikepili hou mai ka delta, akā hoʻopau pū i nā manawa kūpono o ka ʻikepili i loaʻa i nā kī nui ka delta. Eia hou, pono ʻoe e kākau hou i ka ʻāpana i hoʻololi ʻole ʻia o ka ʻikepili. Akā, pono e hana ʻia kēia no ka mea ʻaʻohe o Hive i nā hana holoi a hoʻopau paha.

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

Ma ka hihia o RDBMS, ʻoi aku ka maikaʻi o nā kiʻi no ka hoʻonui ʻana i ka ʻikepili, no ka mea, loaʻa iā RDBMS nā mana hoʻonui maoli.

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

Hoʻokomo ʻia ka delta i loaʻa i kahi papa waena ma ka waihona. Ma hope o kēia, pili ka delta i ka ʻikepili i loko o ka papa ma mua o ka hoʻonui ʻana. A ua hana ʻia kēia me ka hoʻohana ʻana i SQL me ka hoʻohana ʻana i kahi nīnau SQL i hana ʻia. A laila, me ka hoʻohana ʻana i nā kauoha SQL delete+insert, hoʻokomo ʻia nā ʻikepili hou mai ka delta i ka papa kuhikuhi a pani ʻia nā manawa kūpono o ka ʻikepili i loaʻa i nā kī mua i ka delta.
ʻAʻohe pono e kākau hou i ka ʻikepili i hoʻololi ʻole ʻia.

No laila ua hiki mai mākou i ka hopena i ka hihia o Hive, pono e hele ʻo MDW e kākau hou i ka papaʻaina holoʻokoʻa no ka mea ʻaʻohe o Hive kahi hana hou. A ʻaʻohe mea maikaʻi aʻe ma mua o ke kākau hou ʻana i ka ʻikepili i ka wā i hana ʻia ai ka hoʻonui ʻana. I ka hihia o RDBMS, ma kahi ʻē aʻe, ua ʻike nā mea hana i ka huahana he pono e hāʻawi i ka pilina a me ka hoʻonui ʻana i nā papa i ka hoʻohana ʻana iā SQL.

No kahi papahana ma Sberbank, ua hana mākou i kahi hoʻokō hou a hiki ke hoʻohana hou ʻia o kahi waihona waihona no GreenPlum. Ua hana ʻia kēia ma muli o ka mana a MDW i hana ai no Teradata. ʻO Teradata, ʻaʻole ʻo Oracle, i hele kokoke a maikaʻi loa no kēia, no ka mea ... he ʻōnaehana MPP pū kekahi. Ua like nā ʻano hana, a me ka syntax, o Teradata a me GreenPlum.

Eia nā laʻana o nā ʻokoʻa koʻikoʻi MDW ma waena o nā RDBMS like ʻole. Ma GreenPlum, ʻaʻole like me Teradata, i ka wā e hana ai i nā papa pono ʻoe e kākau i kahi paukū

distributed by

Ua kākau ʻo Teradata:

delete <table> all

, a ma GreenPlum lākou e kākau ai

delete from <table>

Ma Oracle, kākau lākou no nā kumu optimization

delete from t where rowid in (<соединение t с дельтой>)

, a kākau ʻo Teradata a me GreenPlum

delete from t where exists (select * from delta where delta.pk=t.pk)

Hoʻomaopopo pū mākou no ka hana ʻana o Ab Initio me GreenPlum, pono e hoʻokomo i ka mea kūʻai aku GreenPlum ma nā node āpau o ka hui Ab Initio. ʻO kēia no ka mea ua pili mākou iā GreenPlum i ka manawa like mai nā node āpau o kā mākou hui. A i mea e like ai ka heluhelu ʻana mai GreenPlum a me kēlā me kēia pae ʻāpana Ab Initio e heluhelu i kāna ʻāpana ʻikepili mai GreenPlum, pono mākou e kau i kahi kūkulu i hoʻomaopopo ʻia e Ab Initio ma ka ʻāpana "kahi" o nā nīnau SQL.

where ABLOCAL()

a hoʻoholo i ka waiwai o kēia kūkulu ʻana ma ke kuhikuhi ʻana i ka helu helu helu mai ka waihona hoʻololi

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, e houluulu ana i kekahi mea like

mod(sk,10)=3

, i.e. Pono ʻoe e koi iā GreenPlum me kahi kānana kikoʻī no kēlā me kēia ʻāpana. No nā waihona ʻikepili ʻē aʻe (Teradata, Oracle), hiki iā Ab Initio ke hana maʻalahi i kēia parallelization.

Ab Initio hoʻohālikelike hana ma waena o Hive a me GreenPlum

Ua hana ʻo Sberbank i kahi hoʻokolohua e hoʻohālikelike i ka hana o nā kiʻi i hana ʻia e MDW e pili ana iā Hive a pili pū me GreenPlum. Ma keʻano he māhele o ka hoʻokolohua, ma ka hihia o Hive aia nā 5 nodes ma ka hui like me Ab Initio, a ma ka hihia o GreenPlum aia nā 4 nodes ma kahi hui kaʻawale. ʻO kēlā mau. Ua loaʻa iā Hive kekahi pono lako lako ma luna o GreenPlum.

Ua noʻonoʻo mākou i ʻelua mau kaha kiʻi e hana ana i ka hana like o ka hoʻonui ʻana i ka ʻikepili ma Hive a me GreenPlum. I ka manawa like, ua hoʻokumu ʻia nā kiʻi i hana ʻia e ka configurator MDW:

  • hoʻouka mua + hoʻonui hoʻonui o ka ʻikepili i hana ʻole ʻia i loko o kahi pākaukau Hive
  • hoʻouka mua + hoʻouka hoʻonui o ka ʻikepili i hana ʻole ʻia i loko o ka pākaukau GreenPlum like

Ma nā hihia ʻelua (Hive a me GreenPlum) ua holo lākou i ka hoʻouka ʻana i 10 mau kaula like ʻole ma ka hui like ʻo Ab Initio. Ua mālama ʻo Ab Initio i ka ʻikepili waena no ka helu ʻana ma HDFS (ma ke ʻano o Ab Initio, ua hoʻohana ʻia ka hoʻolālā MFS me HDFS). Hoʻokahi laina o ka ʻikepili i hana ʻole ʻia i noho i 200 bytes ma nā hihia ʻelua.

Ua like ka hopena penei:

hive:

Hoʻouka mua ma Hive

Hoʻokomo ʻia nā lālani
6 000 000
60 000 000
600 000 000

Ka lōʻihi o ka hoʻomaka ʻana
hoʻoiho i nā kekona
41
203
1 601

Hoʻouka hoʻonui ma Hive

Ka helu o nā lālani i loaʻa ma
papa kuhikuhi i ka hoʻomaka ʻana o ka hoʻokolohua
6 000 000
60 000 000
600 000 000

Ka helu o nā laina delta i hoʻohana ʻia
papa kuhikuhi i ka wā o ka hoʻokolohua
6 000 000
6 000 000
6 000 000

Ka lōʻihi o ka hoʻonui
hoʻoiho i nā kekona
88
299
2 541

GreenPlum:

Hoʻouka mua ma GreenPlum

Hoʻokomo ʻia nā lālani
6 000 000
60 000 000
600 000 000

Ka lōʻihi o ka hoʻomaka ʻana
hoʻoiho i nā kekona
72
360
3 631

ʻO ka hoʻouka ʻana ma GreenPlum

Ka helu o nā lālani i loaʻa ma
papa kuhikuhi i ka hoʻomaka ʻana o ka hoʻokolohua
6 000 000
60 000 000
600 000 000

Ka helu o nā laina delta i hoʻohana ʻia
papa kuhikuhi i ka wā o ka hoʻokolohua
6 000 000
6 000 000
6 000 000

Ka lōʻihi o ka hoʻonui
hoʻoiho i nā kekona
159
199
321

ʻIke mākou i ka wikiwiki o ka hoʻouka mua ʻana ma Hive a me GreenPlum linearly ma muli o ka nui o ka ʻikepili a, no nā kumu o ka ʻoi aku ka maikaʻi o ka lako, ʻoi aku ka wikiwiki o ka Hive ma mua o GreenPlum.

ʻO ka hoʻonui ʻana i ka hoʻouka ʻana ma Hive ma muli o ka nui o nā ʻikepili i hoʻouka mua ʻia i loaʻa i ka papa kuhikuhi a hele mālie i ka ulu ʻana o ka leo. Loaʻa kēia ma muli o ka pono e kākau hou i ka papa kuhikuhi piha. ʻO ia ke ʻano o ka hoʻohana ʻana i nā loli liʻiliʻi i nā papa nui ʻaʻole ia he hihia hoʻohana maikaʻi no Hive.

ʻO ka hoʻonui ʻana i ka hoʻouka ʻana ma GreenPlum ma muli o ka nui o ka ʻikepili i hoʻouka mua ʻia i loaʻa i ka papa kuhikuhi a holo wikiwiki. Ua loaʻa kēia mahalo iā SQL Joins a me ka hale hoʻolālā GreenPlum, e ʻae ai i ka hana holoi.

No laila, hoʻohui ʻo GreenPlum i ka delta me ka hoʻohana ʻana i ke ʻano holoi + hoʻokomo, akā ʻaʻohe o Hive i ka holoi ʻana a i ʻole nā ​​​​hana hou, no laila ua koi ʻia ka ʻikepili holoʻokoʻa e kākau hou ʻia i ka wā o ka hoʻonui ʻana. ʻO ka hoʻohālikelike ʻana o nā cell i hōʻike ʻia me ka wiwo ʻole e hōʻike nui ʻia, no ka mea, pili ia i ke koho maʻamau no ka hoʻohana ʻana i nā hoʻoiho waiwai. ʻIke mākou ua lanakila ʻo GreenPlum iā Hive i kēia hoʻokolohua e 8 mau manawa.

Ke hana nei ʻo Ab Initio me GreenPlum ma ke ʻano ʻo Near Real Time

Ma kēia hoʻokolohua, e hoʻāʻo mākou i ka hiki iā Ab Initio ke hoʻohou i ka papa ʻaina GreenPlum me nā puʻupuʻu ʻikepili i hana ʻole ʻia i ka manawa maoli. E noʻonoʻo kākou i ka papa ʻaina GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, kahi e hana ai mākou.

E hoʻohana mākou i ʻekolu kiʻi Ab Initio e hana pū me ia:

1) Graph Create_test_data.mp - hana i nā faila ʻikepili ma HDFS me 10 lālani ma 6 mau kaula like. He maʻamau ka ʻikepili, hoʻonohonoho ʻia kona ʻano no ka hoʻokomo ʻana i kā mākou papa

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

2) Kiʻi mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – Ua hana ʻo MDW i ka pakuhi ma o ka hoʻomaka ʻana i ka hoʻokomo ʻana i ka ʻikepili i loko o kā mākou pākaukau ma 10 mau pae like (hoʻohana ʻia ka ʻikepili hōʻike i hana ʻia e ka pakuhi (1))

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

3) Graph mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – he kiʻi i hana ʻia e MDW no ka hoʻonui hou ʻana i kā mākou papa ʻaina ma 10 mau pae like me ka hoʻohana ʻana i kahi ʻāpana o ka ʻikepili i loaʻa hou (delta) i hana ʻia e ka pakuhi (1)

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum

E holo kāua i ka palapala ma lalo nei ma ke ʻano NRT:

  • hana i 6 laina hoʻāʻo
  • e hoʻokomo i nā lālani hoʻāʻo 6 i loko o kahi papaʻaina kaʻawale
  • e hana hou i ka hoʻoiho ʻana i nā manawa 5
    • hana i 6 laina hoʻāʻo
    • e hoʻokomo i nā lālani hoʻāʻo 6 i loko o ka pākaukau (ma kēia ʻano, ua hoʻonohonoho ʻia ka manawa pau valid_to_ts i ka ʻikepili kahiko a hoʻokomo ʻia nā ʻikepili hou me ke kī kumu like)

Hoʻohālikelike kēia hiʻohiʻona i ke ʻano o ka hana maoli o kekahi ʻoihana ʻoihana - ʻike ʻia kahi hapa nui o ka ʻikepili hou i ka manawa maoli a ninini koke ʻia i GreenPlum.

I kēia manawa, e nānā kākou i ka log o ka script:

E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 11:49:11
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 11:49:37
Hoʻomaka mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:49:37
Hoʻopau i ka mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:50:42
E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 11:50:42
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 11:51:06
Hoʻomaka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:51:06
Hoʻopau i ka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:53:41
E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 11:53:41
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 11:54:04
Hoʻomaka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:54:04
Hoʻopau i ka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:56:51
E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 11:56:51
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 11:57:14
Hoʻomaka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:57:14
Hoʻopau i ka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 11:59:55
E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 11:59:55
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 12:00:23
Hoʻomaka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 12:00:23
Hoʻopau i ka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 12:03:23
E hoʻomaka i ka Create_test_data.input.pset ma 2020-06-04 12:03:23
Hoʻopau i Create_test_data.input.pset ma 2020-06-04 12:03:49
Hoʻomaka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 12:03:49
Hoʻopau i ka mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ma 2020-06-04 12:06:46

ʻIke ʻia kēia kiʻi:

Hōʻike
Ke hoʻomaka hoʻomaka
Hoʻopau manawa
loa

Create_test_data.input.pset
04.06.2020: 11: 49: 11
04.06.2020: 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 49: 37
04.06.2020: 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020: 11: 50: 42
04.06.2020: 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 51: 06
04.06.2020: 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020: 11: 53: 41
04.06.2020: 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 54: 04
04.06.2020: 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020: 11: 56: 51
04.06.2020: 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 57: 14
04.06.2020: 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020: 11: 59: 55
04.06.2020: 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 00: 23
04.06.2020: 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020: 12: 03: 23
04.06.2020: 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 03: 49
04.06.2020: 12: 06: 46
00:02:57

ʻIke mākou he 6 laina hoʻonui i ka hana i loko o 000 mau minuke, he wikiwiki loa.
Ua puunaueia ka ikepili ma ka papa kuhikuhi penei:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Ke loaʻa iā ʻoe nā unahi Sber. Ke hoʻohana nei iā Ab Initio me Hive a me GreenPlum
Hiki iā ʻoe ke ʻike i ka pilina o ka ʻikepili i hoʻokomo ʻia i nā manawa i hoʻomaka ʻia ai nā kiʻi.
ʻO ia ke ʻano hiki iā ʻoe ke holo i ka hoʻouka ʻana i ka ʻikepili i loko o GreenPlum ma Ab Initio me kahi alapine kiʻekiʻe loa a nānā i ka wikiwiki kiʻekiʻe o ka hoʻokomo ʻana i kēia ʻikepili i loko o GreenPlum. ʻOiaʻiʻo, ʻaʻole hiki ke hoʻomaka i hoʻokahi manawa i ka kekona, ʻoiai ʻo Ab Initio, e like me nā mea hana ETL, pono ka manawa e "hoʻomaka" i ka wā i hoʻokuʻu ʻia.

hopena

Hoʻohana ʻia ʻo Ab Initio ma Sberbank e kūkulu i kahi Unified Semantic Data Layer (ESS). Hoʻopili kēia papahana i ke kūkulu ʻana i kahi mana hui o ka mokuʻāina o nā ʻoihana ʻoihana panakō. Loaʻa ka ʻike mai nā kumu like ʻole, nā replicas i hoʻomākaukau ʻia ma Hadoop. Ma muli o nā pono ʻoihana, hoʻomākaukau ʻia kahi ʻano hoʻohālike a wehewehe ʻia nā hoʻololi ʻikepili. Hoʻouka ʻo Ab Initio i ka ʻike i loko o ka ESN a ʻo ka ʻikepili i hoʻoiho ʻia ʻaʻole ia he mea hoihoi i ka ʻoihana iā ia iho, akā lawelawe pū kekahi i kumu no ke kūkulu ʻana i nā hale kūʻai ʻikepili. Ma ka manawa like, hiki i ka hana o ka huahana ke hoʻohana i nā ʻōnaehana like ʻole e like me ka mea hoʻokipa (Hive, Greenplum, Teradata, Oracle), kahi e hiki ai ke hoʻomākaukau maʻalahi i ka ʻikepili no kahi ʻoihana i nā ʻano like ʻole e pono ai.

He ākea nā mana o Ab Initio; no ka laʻana, ʻo ka framework MDW i hoʻokomo ʻia e hiki ai ke kūkulu i ka ʻikepili mōʻaukala ʻenehana a me ka ʻoihana ma waho o ka pahu. No nā mea hoʻomohala, hiki iā Ab Initio ke hana hou i ka huila, akā e hoʻohana i nā ʻāpana hana he nui, ʻo ia nā hale waihona puke e pono ai ke hana me ka ʻikepili.

He loea ka mea kākau i ke kaiāulu ʻoihana o Sberbank SberProfi DWH/BigData. ʻO ka SberProfi DWH/BigData kaiaulu ʻoihana ke kuleana no ka hoʻomohala ʻana i nā mākaukau ma nā wahi e like me ke kaiaola Hadoop, Teradata, Oracle DB, GreenPlum, a me nā mea hana BI Qlik, SAP BO, Tableau, etc.

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka