Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Pirms kāda laika saskārāmies ar jautājumu par ETL rÄ«ka izvēli darbam ar Big Data. IepriekÅ” izmantotais Informatica BDM risinājums mums nederēja ierobežotas funkcionalitātes dēļ. Tās izmantoÅ”ana ir samazināta lÄ«dz sistēmai spark-submit komandu palaiÅ”anai. TirgÅ« nebija daudz analogu, kas principā bÅ«tu spējÄ«gi strādāt ar datu apjomu, ar kuru mēs strādājam katru dienu. Beigās izvēlējāmies Ab Initio. Pilotdemonstrējumu laikā produkts uzrādÄ«ja ļoti lielu datu apstrādes ātrumu. Krievu valodā par Ab Initio gandrÄ«z nav informācijas, tāpēc mēs nolēmām runāt par savu pieredzi vietnē HabrĆ©.

Ab Initio ir daudz klasisku un neparastu transformāciju, kuru kodu var paplaÅ”ināt, izmantojot savu PDL valodu. Mazam uzņēmumam Ŕāds spēcÄ«gs rÄ«ks, visticamāk, bÅ«s pārspÄ«lēts, un lielākā daļa tā iespēju var bÅ«t dārgi un neizmantoti. Bet, ja jÅ«su mērogs ir tuvu Sberova mērogiem, tad Ab Initio var jums bÅ«t interesants.

Tas palÄ«dz biznesam globāli uzkrāt zināŔanas un attÄ«stÄ«t ekosistēmu, bet izstrādātājam uzlabot prasmes ETL, uzlabot zināŔanas čaulā, sniedz iespēju apgÅ«t PDL valodu, sniedz vizuālu priekÅ”statu par ielādes procesiem un vienkārÅ”o izstrādi. funkcionālo komponentu pārpilnÄ«bas dēļ.

Å ajā ierakstā es runāŔu par Ab Initio iespējām un sniegÅ”u salÄ«dzinoÅ”us raksturlielumus tā darbam ar Hive un GreenPlum.

  • MDW ietvara apraksts un darbs pie tā pielāgoÅ”anas GreenPlum
  • Ab Initio veiktspējas salÄ«dzinājums starp Hive un GreenPlum
  • Darbs Ab Initio ar GreenPlum gandrÄ«z reāllaika režīmā


Å Ä« produkta funkcionalitāte ir ļoti plaÅ”a un prasa daudz laika, lai to izpētÄ«tu. Tomēr ar atbilstoŔām darba iemaņām un pareiziem veiktspējas iestatÄ«jumiem datu apstrādes rezultāti ir ļoti iespaidÄ«gi. Ab Initio izmantoÅ”ana izstrādātājam var sniegt interesantu pieredzi. Å is ir jauns ETL izstrādes skatÄ«jums, hibrÄ«ds starp vizuālo vidi un lejupielādes izstrādi skriptiem lÄ«dzÄ«gā valodā.

Uzņēmumi attÄ«sta savas ekosistēmas, un Å”is rÄ«ks ir noderÄ«gāks nekā jebkad agrāk. Izmantojot Ab Initio, jÅ«s varat uzkrāt zināŔanas par savu paÅ”reizējo biznesu un izmantot Ŕīs zināŔanas, lai paplaÅ”inātu vecos un atvērtos jaunus uzņēmumus. AlternatÄ«vas Ab Initio ietver vizuālās izstrādes vides Informatica BDM un nevizuālās izstrādes vides Apache Spark.

Ab Initio apraksts

Ab Initio, tāpat kā citi ETL rīki, ir produktu kolekcija.

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Ab Initio GDE (Graphical Development Environment) ir izstrādātāja vide, kurā viņŔ konfigurē datu transformācijas un savieno tās ar datu plÅ«smām bultiņu veidā. Å ajā gadÄ«jumā Ŕādu transformāciju kopu sauc par grafiku:

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Funkcionālo komponentu ieejas un izejas savienojumi ir porti un satur laukus, kas aprēķināti transformāciju ietvaros. Vairākus grafikus, kas savienoti ar plūsmām bultiņu veidā to izpildes secībā, sauc par plānu.

Ir vairāki simti funkcionālo komponentu, kas ir daudz. Daudzi no tiem ir ļoti specializēti. Ab Initio klasisko transformāciju iespējas ir plaŔākas nekā citos ETL rÄ«kos. Piemēram, savienojumam ir vairākas izejas. Papildus datu kopu savienoÅ”anas rezultātam varat iegÅ«t to ievades datu kopu izvades ierakstus, kuru atslēgas nevarēja savienot. Varat arÄ« iegÅ«t noraidÄ«jumus, kļūdas un transformācijas operācijas žurnālu, ko var nolasÄ«t tajā paŔā kolonnā ar teksta failu un apstrādāt ar citām transformācijām:

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Vai, piemēram, jÅ«s varat materializēt datu uztvērēju tabulas veidā un nolasÄ«t datus no tā tajā paŔā kolonnā.

Ir oriÄ£inālas pārvērtÄ«bas. Piemēram, skenÄ“Å”anas transformācijas funkcionalitāte ir lÄ«dzÄ«ga analÄ«tiskajām funkcijām. Ir transformācijas ar paÅ”saprotamiem nosaukumiem: izveidot datus, lasÄ«t Excel, normalizēt, kārtot grupās, palaist programmu, palaist SQL, pievienoties ar DB utt. Grafikos var izmantot izpildlaika parametrus, tostarp iespēju pārsÅ«tÄ«t parametrus no vai uz operētājsistēma. Failus ar gatavu parametru kopu, kas nodota grafikam, sauc par parametru kopām (psets).

Kā gaidīts, Ab Initio GDE ir savs repozitorijs ar nosaukumu EME (Enterprise Meta Environment). Izstrādātājiem ir iespēja strādāt ar vietējām koda versijām un pārbaudīt to attīstību centrālajā repozitorijā.

Izpildes laikā vai pēc grafika izpildes ir iespējams noklikŔķināt uz jebkuras plÅ«smas, kas savieno transformāciju, un apskatÄ«t datus, kas tika nodoti starp Ŕīm transformācijām:

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Ir iespējams arÄ« noklikŔķināt uz jebkuras straumes un redzēt izsekoÅ”anas informāciju - cik paralēlēs transformācija darbojās, cik rindu un baitu tika ielādēts kurā no paralēlēm:

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Grafa izpildi var sadalīt fāzēs un atzīmēt, ka vispirms ir jāveic dažas transformācijas (nulles fāzē), nākamās pirmajā fāzē, nākamās otrajā fāzē utt.

Katrai transformācijai var izvēlēties tā saukto izkārtojumu (kur tas tiks izpildÄ«ts): bez paralēlēm vai paralēlos pavedienos, kuru skaitu var norādÄ«t. Tajā paŔā laikā pagaidu failus, ko Ab Initio izveido, kad notiek transformācijas, var ievietot gan servera failu sistēmā, gan HDFS.

Katrā transformācijā, pamatojoties uz noklusējuma veidni, varat izveidot savu skriptu PDL, kas ir mazliet kā apvalks.

Izmantojot PDL, jÅ«s varat paplaÅ”ināt transformāciju funkcionalitāti un jo Ä«paÅ”i dinamiski (izpildlaikā) Ä£enerēt patvaļīgus koda fragmentus atkarÄ«bā no izpildlaika parametriem.

Ab Initio ir arī labi attīstīta integrācija ar OS, izmantojot apvalku. Konkrēti, Sberbank izmanto linux ksh. Varat apmainīties ar mainīgajiem ar apvalku un izmantot tos kā diagrammas parametrus. Varat izsaukt Ab Initio grafiku izpildi no čaulas un administrēt Ab Initio.

Papildus Ab Initio GDE piegādē ir iekļauti arī daudzi citi produkti. Ir sava sadarbības sistēma ar prasību saukt par operētājsistēmu. Ir vadības> centrs, kurā varat plānot un pārraudzīt lejupielādes plūsmas. Ir produkti izstrādei primitīvākā līmenī, nekā to pieļauj Ab Initio GDE.

MDW ietvara apraksts un darbs pie tā pielāgoŔanas GreenPlum

Kopā ar saviem produktiem pārdevējs piegādā MDW (Metadata Driven Warehouse) produktu, kas ir grafiku konfigurators, kas paredzēts, lai palÄ«dzētu veikt tipiskus datu noliktavu vai datu glabātuvju aizpildÄ«Å”anas uzdevumus.

Tajā ir iekļauti pielāgoti (projektam specifiski) metadatu analizatori un gatavi kodu ģeneratori.

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum
Kā ievadi MDW saņem datu modeli, konfigurācijas failu savienojuma izveidei ar datu bāzi (Oracle, Teradata vai Hive) un dažus citus iestatÄ«jumus. Piemēram, projektam specifiskā daļa izvieto modeli datu bāzē. Produkta gatavā daļa Ä£enerē tiem grafikus un konfigurācijas failus, ielādējot datus modeļu tabulās. Å ajā gadÄ«jumā grafiki (un psets) tiek izveidoti vairākiem inicializÄ“Å”anas un entÄ«tiju atjaunināŔanas pakāpeniska darba režīmiem.

Hive un RDBMS gadÄ«jumos inicializācijai un papildu datu atjaunināŔanai tiek Ä£enerēti dažādi grafiki.

Hive gadÄ«jumā ienākoÅ”ie delta dati tiek savienoti, izmantojot Ab Initio Join, ar datiem, kas bija tabulā pirms atjaunināŔanas. Datu ielādētāji MDW (gan Hive, gan RDBMS) ne tikai ievieto jaunus datus no delta, bet arÄ« aizver to datu atbilstÄ«bas periodus, kuru primārās atslēgas saņēma delta. Turklāt jums ir jāpārraksta nemainÄ«tā datu daļa. Bet tas ir jādara, jo Hive nav dzÄ“Å”anas vai atjaunināŔanas darbÄ«bu.

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

RDBMS gadÄ«jumā grafiki pakāpeniskai datu atjaunināŔanai izskatās optimālāki, jo RDBMS ir reālas atjaunināŔanas iespējas.

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Saņemtā delta tiek ielādēta datu bāzes starptabulā. Pēc tam delta tiek savienota ar datiem, kas bija tabulā pirms atjaunināŔanas. Un tas tiek darÄ«ts, izmantojot SQL, izmantojot Ä£enerētu SQL vaicājumu. Tālāk, izmantojot SQL komandas delete+insert, mērÄ·a tabulā tiek ievietoti jauni dati no delta un tiek aizvērti to datu atbilstÄ«bas periodi, kuru primārās atslēgas saņēma delta.
Nav nepiecieŔams pārrakstīt nemainītos datus.

Tātad mēs nonācām pie secinājuma, ka Hive gadÄ«jumā MDW ir jāiet pārrakstÄ«t visu tabulu, jo Hive nav atjaunināŔanas funkcijas. Un nekas labāks par datu pilnÄ«gu pārrakstÄ«Å”anu, kad ir izgudrota atjaunināŔana. RDBMS gadÄ«jumā, gluži pretēji, produkta veidotāji uzskatÄ«ja par nepiecieÅ”amu tabulu savienoÅ”anu un atjaunināŔanu uzticēt SQL lietoÅ”anai.

Sberbank projektam mēs izveidojām jaunu, atkārtoti lietojamu datu bāzes ielādētāja ievieÅ”anu GreenPlum. Tas tika darÄ«ts, pamatojoties uz versiju, ko MDW Ä£enerē Teradata. Tas bija Teradata, nevis Oracle, kas tam bija vistuvākais un vislabākais, jo... ir arÄ« MPP sistēma. Teradata un GreenPlum darba metodes, kā arÄ« sintakse izrādÄ«jās lÄ«dzÄ«gas.

MDW kritisko atŔķirÄ«bu piemēri starp dažādām RDBMS ir Ŕādi. Programmā GreenPlum, atŔķirÄ«bā no Teradata, veidojot tabulas, ir jāraksta klauzula

distributed by

Teradata raksta:

delete <table> all

, un GreenPlum viņi raksta

delete from <table>

Oracle optimizācijas nolūkos viņi raksta

delete from t where rowid in (<сŠ¾ŠµŠ“ŠøŠ½ŠµŠ½ŠøŠµ t с Š“ŠµŠ»ŃŒŃ‚Š¾Š¹>)

, un Teradata un GreenPlum raksta

delete from t where exists (select * from delta where delta.pk=t.pk)

Mēs arÄ« atzÄ«mējam, ka, lai Ab Initio strādātu ar GreenPlum, bija nepiecieÅ”ams instalēt GreenPlum klientu visos Ab Initio klastera mezglos. Tas ir tāpēc, ka mēs vienlaikus izveidojām savienojumu ar GreenPlum no visiem mÅ«su klastera mezgliem. Un, lai lasÄ«Å”ana no GreenPlum bÅ«tu paralēla un katrs paralēlais Ab Initio pavediens nolasÄ«tu savu datu daļu no GreenPlum, mums bija jāievieto Ab Initio saprotama konstrukcija SQL vaicājumu sadaļā ā€œkurā€

where ABLOCAL()

un noteikt Ŕīs konstrukcijas vērtÄ«bu, norādot parametru nolasÄ«jumu no transformāciju datu bāzes

ablocal_expr=Ā«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))Ā»

, kas apkopo uz kaut ko līdzīgu

mod(sk,10)=3

, t.i. jums ir jāpieprasa GreenPlum ar skaidru filtru katram nodalÄ«jumam. Citām datu bāzēm (Teradata, Oracle) Ab Initio var veikt Å”o paralēlizāciju automātiski.

Ab Initio veiktspējas salīdzinājums starp Hive un GreenPlum

Sberbank veica eksperimentu, lai salÄ«dzinātu MDW Ä£enerēto grafiku veiktspēju saistÄ«bā ar Hive un GreenPlum. Eksperimenta ietvaros Hive gadÄ«jumā tajā paŔā klasterÄ«, kur Ab Initio, bija 5 mezgli, savukārt GreenPlum gadÄ«jumā atseviŔķā klasterÄ« bija 4 mezgli. Tie. Hive bija dažas aparatÅ«ras priekÅ”rocÄ«bas salÄ«dzinājumā ar GreenPlum.

Mēs izskatÄ«jām divus grafiku pārus, kas veic vienu un to paÅ”u datu atjaunināŔanas uzdevumu Hive un GreenPlum. Tajā paŔā laikā tika palaisti MDW konfiguratora Ä£enerētie grafiki:

  • sākotnējā slodze + nejauÅ”i Ä£enerētu datu pakāpeniska slodze Hive tabulā
  • sākotnējā slodze + nejauÅ”i Ä£enerētu datu pakāpeniska slodze tajā paŔā GreenPlum tabulā

Abos gadÄ«jumos (Hive un GreenPlum) tie veica augÅ”upielādi 10 paralēlos pavedienos tajā paŔā Ab Initio klasterÄ«. Ab Initio saglabāja starpposma datus aprēķiniem HDFS (attiecÄ«bā uz Ab Initio tika izmantots MFS izkārtojums, izmantojot HDFS). Viena nejauÅ”i Ä£enerētu datu rinda abos gadÄ«jumos aizņēma 200 baitus.

Rezultāts bija Ŕāds:

Strops:

Sākotnējā ielāde Hive

Rindas ir ievietotas
6 000 000
60 000 000
600 000 000

Inicializācijas ilgums
lejupielādes sekundēs
41
203
1 601

Pakāpeniska iekrauŔana stropā

Pieejamo rindu skaits
mērķa tabula eksperimenta sākumā
6 000 000
60 000 000
600 000 000

Pielietoto delta līniju skaits
mērķa tabula eksperimenta laikā
6 000 000
6 000 000
6 000 000

Pieaugumu ilgums
lejupielādes sekundēs
88
299
2 541

GreenPlum:

Sākotnējā ielāde GreenPlum

Rindas ir ievietotas
6 000 000
60 000 000
600 000 000

Inicializācijas ilgums
lejupielādes sekundēs
72
360
3 631

Pakāpeniska iekrauŔana GreenPlum

Pieejamo rindu skaits
mērķa tabula eksperimenta sākumā
6 000 000
60 000 000
600 000 000

Pielietoto delta līniju skaits
mērķa tabula eksperimenta laikā
6 000 000
6 000 000
6 000 000

Pieaugumu ilgums
lejupielādes sekundēs
159
199
321

Mēs redzam, ka sākotnējās ielādes ātrums gan Hive, gan GreenPlum ir lineāri atkarīgs no datu apjoma un labākas aparatūras dēļ Hive ir nedaudz ātrāks nekā GreenPlum.

Pakāpeniskā ielāde Hive arÄ« lineāri ir atkarÄ«ga no iepriekÅ” ielādēto datu apjoma, kas pieejams mērÄ·a tabulā, un notiek diezgan lēni, pieaugot apjomam. To izraisa nepiecieÅ”amÄ«ba pilnÄ«bā pārrakstÄ«t mērÄ·a tabulu. Tas nozÄ«mē, ka nelielu izmaiņu piemēroÅ”ana milzÄ«gām tabulām nav piemērota Hive lietoÅ”anai.

Pakāpeniskā ielāde GreenPlum ir vāji atkarÄ«ga no iepriekÅ” ielādēto datu apjoma, kas pieejams mērÄ·a tabulā, un notiek diezgan ātri. Tas notika, pateicoties SQL Joins un GreenPlum arhitektÅ«rai, kas ļauj veikt dzÄ“Å”anas darbÄ«bu.

Tātad, GreenPlum pievieno delta, izmantojot metodi dzÄ“Å”ana + ievietoÅ”ana, bet Hive nav dzÄ“Å”anas vai atjaunināŔanas darbÄ«bu, tāpēc pakāpeniskas atjaunināŔanas laikā viss datu masÄ«vs bija spiests pilnÄ«bā pārrakstÄ«t. Treknrakstā iezÄ«mēto Ŕūnu salÄ«dzinājums ir visizteiktākais, jo tas atbilst visizplatÄ«tākajai resursietilpÄ«go lejupielāžu izmantoÅ”anai. Mēs redzam, ka GreenPlum Å”ajā testā pārspēja Hive 8 reizes.

Darbs Ab Initio ar GreenPlum gandrīz reāllaika režīmā

Å ajā eksperimentā mēs pārbaudÄ«sim Ab Initio spēju atjaunināt GreenPlum tabulu ar nejauÅ”i Ä£enerētiem datu gabaliem gandrÄ«z reāllaikā. ApskatÄ«sim GreenPlum tabulu dev42_1_db_usl.TESTING_SUBJ_org_finval, ar kuru mēs strādāsim.

Lai strādātu ar to, mēs izmantosim trīs Ab Initio diagrammas:

1) Graph Create_test_data.mp ā€“ izveido datu failus HDFS ar 10 6 000 rindām 000 paralēlos pavedienos. Dati ir nejauÅ”i, to struktÅ«ra ir sakārtota ievietoÅ”anai mÅ«su tabulā

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

2) Grafs mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ā€” MDW Ä£enerēts grafiks, inicializējot datu ievietoÅ”anu mÅ«su tabulā 10 paralēlos pavedienos (tiek izmantoti testa dati, ko Ä£enerē grafiks (1))

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

3) Grafs mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ā€” grafiks, ko Ä£enerē MDW mÅ«su tabulas pakāpeniskai atjaunināŔanai 10 paralēlos pavedienos, izmantojot daļu no tikko saņemtajiem datiem (delta), ko Ä£enerē grafiks (1)

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum

Palaidīsim tālāk norādīto skriptu NRT režīmā:

  • Ä£enerēt 6 000 000 testa lÄ«niju
  • veiciet sākotnējo ielādi, ievietojiet 6 000 000 testa rindas tukŔā tabulā
  • atkārtojiet pakāpenisku lejupielādi 5 reizes
    • Ä£enerēt 6 000 000 testa lÄ«niju
    • veiciet 6 000 000 testa rindu pakāpenisku ievietoÅ”anu tabulā (Å”ajā gadÄ«jumā derÄ«guma termiņŔ valid_to_ts tiek iestatÄ«ts uz vecajiem datiem un tiek ievietoti jaunāki dati ar to paÅ”u primāro atslēgu)

Šis scenārijs atdarina noteiktas biznesa sistēmas reālās darbības režīmu - diezgan liela daļa jaunu datu parādās reāllaikā un nekavējoties tiek ielieti GreenPlum.

Tagad apskatīsim skripta žurnālu:

Sākt Create_test_data.input.pset 2020-06-04 11:49:11
Pabeigt Create_test_data.input.pset 2020-06-04 11:49:37
Sākt mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:49:37
Pabeigt mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:50:42
Sākt Create_test_data.input.pset 2020-06-04 11:50:42
Pabeigt Create_test_data.input.pset 2020-06-04 11:51:06
Sākt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:51:06
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:53:41
Sākt Create_test_data.input.pset 2020-06-04 11:53:41
Pabeigt Create_test_data.input.pset 2020-06-04 11:54:04
Sākt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:54:04
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:56:51
Sākt Create_test_data.input.pset 2020-06-04 11:56:51
Pabeigt Create_test_data.input.pset 2020-06-04 11:57:14
Sākt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:57:14
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:59:55
Sākt Create_test_data.input.pset 2020-06-04 11:59:55
Pabeigt Create_test_data.input.pset 2020-06-04 12:00:23
Sākt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:00:23
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:23
Sākt Create_test_data.input.pset 2020-06-04 12:03:23
Pabeigt Create_test_data.input.pset 2020-06-04 12:03:49
Sākt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:49
Pabeigt mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:06:46

Izrādās Å”is attēls:

Diagramma
Sākuma laiks
Pabeigt laiku
Garums

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Mēs redzam, ka 6 000 000 pieauguma rindas tiek apstrādātas 3 minūtēs, kas ir diezgan ātri.
Dati mērÄ·a tabulā izrādÄ«jās sadalÄ«ti Ŕādi:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Kad jums ir Sber svari. Ab Initio izmantoŔana ar Hive un GreenPlum
JÅ«s varat redzēt ievietoto datu atbilstÄ«bu grafiku palaiÅ”anas laikiem.
Tas nozÄ«mē, ka jÅ«s varat palaist pakāpenisku datu ielādi GreenPlum programmā Ab Initio ar ļoti augstu frekvenci un novērot lielu ātrumu Å”o datu ievietoÅ”anai GreenPlum. Protams, to nevarēs palaist reizi sekundē, jo Ab Initio, tāpat kā jebkuram ETL rÄ«kam, ir nepiecieÅ”ams laiks, lai palaistu darbÄ«bu.

Secinājums

PaÅ”laik Sberbank izmanto Ab Initio, lai izveidotu vienotu semantisko datu slāni (ESS). Å is projekts paredz dažādu banku biznesa vienÄ«bu valsts vienotas versijas izveidi. Informācija nāk no dažādiem avotiem, kuru kopijas ir sagatavotas vietnē Hadoop. Pamatojoties uz biznesa vajadzÄ«bām, tiek sagatavots datu modelis un aprakstÄ«tas datu transformācijas. Ab Initio ielādē informāciju ESN, un lejupielādētie dati ne tikai interesē paÅ”u uzņēmumu, bet arÄ« kalpo kā avots datu tirgu veidoÅ”anai. Tajā paŔā laikā produkta funkcionalitāte ļauj izmantot dažādas sistēmas kā uztvērēju (Hive, Greenplum, Teradata, Oracle), kas ļauj ērti sagatavot datus biznesam dažādos tam nepiecieÅ”amajos formātos.

Ab Initio iespējas ir plaÅ”as, piemēram, iekļautais MDW ietvars ļauj no kastes izveidot tehniskos un biznesa vēsturiskos datus. Izstrādātājiem Ab Initio dod iespēju nevis izgudrot riteni no jauna, bet izmantot daudzus esoÅ”os funkcionālos komponentus, kas bÅ«tÄ«bā ir bibliotēkas, kas nepiecieÅ”amas, strādājot ar datiem.

Autors ir Sberbank SberProfi DWH/BigData profesionālās kopienas eksperts. SberProfi DWH/BigData profesionālā kopiena ir atbildÄ«ga par kompetenču attÄ«stÄ«Å”anu tādās jomās kā Hadoop ekosistēma, Teradata, Oracle DB, GreenPlum, kā arÄ« BI rÄ«ki Qlik, SAP BO, Tableau utt.

Avots: www.habr.com

Pievieno komentāru