Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Jokin aika sitten kohtasimme kysymyksen ETL-työkalun valitsemisesta Big Datan kanssa työskentelemiseen. Aiemmin käytetty Informatica BDM -ratkaisu ei sopinut meille rajallisen toiminnallisuuden vuoksi. Sen käyttö on rajoitettu puitteisiin spark-submit-komentojen käynnistämiseen. Markkinoilla ei ollut monia analogeja, jotka periaatteessa kykenisivät toimimaan päivittäin käsittelemämme datamäärän kanssa. Lopulta valitsimme Ab Inition. Pilottien aikana tuote osoitti erittäin suurta tietojenkäsittelynopeutta. Ab Initiosta ei ole juurikaan tietoa venäjäksi, joten päätimme puhua kokemuksistamme Habressa.

Ab Initio sisältää monia klassisia ja epätavallisia muunnoksia, joiden koodia voidaan laajentaa käyttämällä omaa PDL-kieltä. Pienyritykselle tällainen tehokas työkalu on todennäköisesti ylivoimainen, ja suurin osa sen ominaisuuksista voi olla kallista ja käyttämätöntä. Mutta jos asteikkosi on lähellä Sberovin mittakaavaa, Ab Initio voi olla kiinnostava sinulle.

Se auttaa yritystä keräämään tietoa maailmanlaajuisesti ja kehittämään ekosysteemiä ja kehittäjää parantamaan ETL-taitojaan, parantamaan tietojaan kuoressa, tarjoaa mahdollisuuden hallita PDL-kieltä, antaa visuaalisen kuvan latausprosesseista ja yksinkertaistaa kehitystä. toiminnallisten komponenttien runsauden vuoksi.

Tässä viestissä puhun Ab Inition kyvyistä ja tarjoan vertailevia ominaisuuksia sen työstä Hiven ja GreenPlumin kanssa.

  • Kuvaus MDW-kehyksestä ja sen räätälöinti GreenPlumille
  • Ab Initio -suorituskykyvertailu Hiven ja GreenPlumin välillä
  • Työskentely Ab Initio GreenPlumin kanssa Near Real Time -tilassa


Tämän tuotteen toiminnallisuus on erittäin laaja ja vaatii paljon aikaa tutkimiseen. Oikeilla työtaidoilla ja oikeilla suoritusasetuksilla tietojenkäsittelyn tulokset ovat kuitenkin erittäin vaikuttavia. Ab Inition käyttäminen kehittäjälle voi tarjota mielenkiintoisen kokemuksen. Tämä on uusi näkemys ETL-kehityksestä, visuaalisen ympäristön ja latauskehityksen hybridi käsikirjoituskaltaisella kielellä.

Yritykset kehittävät ekosysteemiään ja tämä työkalu on hyödyllisempi kuin koskaan. Ab Inition avulla voit kerätä tietoa nykyisestä liiketoiminnastasi ja hyödyntää sitä vanhojen ja uusien yritysten laajentamiseen. Vaihtoehtoja Ab Initiolle ovat visuaaliset kehitysympäristöt Informatica BDM ja ei-visuaaliset kehitysympäristöt Apache Spark.

Ab Inition kuvaus

Ab Initio, kuten muutkin ETL-työkalut, on kokoelma tuotteita.

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Ab Initio GDE (Graphical Development Environment) on kehittäjälle tarkoitettu ympäristö, jossa hän konfiguroi datamuunnoksia ja yhdistää ne tietovirtoihin nuolien muodossa. Tässä tapauksessa tällaista muunnossarjaa kutsutaan graafiksi:

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Toiminnallisten komponenttien tulo- ja lähtöliitännät ovat portteja ja sisältävät muunnoksissa laskettuja kenttiä. Useita kaavioita, jotka on liitetty toisiinsa nuolten muodossa niiden suoritusjärjestyksessä, kutsutaan suunnitelmaksi.

Toimivia komponentteja on useita satoja, mikä on paljon. Monet heistä ovat erittäin erikoistuneita. Klassisten muunnosten mahdollisuudet Ab Initiossa ovat laajemmat kuin muissa ETL-työkaluissa. Esimerkiksi Joinilla on useita lähtöjä. Tietojoukkojen yhdistämisen tuloksen lisäksi voit saada ulostulotietueita syötetietojoukoista, joiden avaimia ei voitu yhdistää. Voit myös saada muunnosoperaatiosta hylkäyksiä, virheitä ja lokin, jotka voidaan lukea samassa sarakkeessa tekstitiedostona ja käsitellä muiden muunnosten kanssa:

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Tai voit esimerkiksi materialisoida datavastaanottimen taulukon muodossa ja lukea siitä dataa samassa sarakkeessa.

Siellä on alkuperäisiä muunnoksia. Esimerkiksi Scan-muunnoksen toiminnallisuus on samanlainen kuin analyyttisten funktioiden. On olemassa muunnoksia, joilla on itsestään selvät nimet: Luo data, Lue Excel, Normalisoi, Lajittele ryhmien sisällä, Suorita ohjelma, Suorita SQL, Liity DB:n kanssa jne. Graafit voivat käyttää ajonaikaisia ​​parametreja, mukaan lukien mahdollisuus siirtää parametreja kohteesta tai käyttöjärjestelmä. Tiedostoja, joissa on valmiit parametrit, jotka on välitetty kuvaajalle, kutsutaan parametrijoukoiksi (psets).

Ab Initio GDE:llä on odotetusti oma arkisto nimeltään EME (Enterprise Meta Environment). Kehittäjillä on mahdollisuus työskennellä koodin paikallisten versioiden kanssa ja tarkistaa niiden kehitys keskustietovarastoon.

On mahdollista, suorituksen aikana tai kaavion suorittamisen jälkeen, napsauttaa mitä tahansa muunnoksen yhdistävää virtaa ja tarkastella näiden muunnosten välillä kulkeneita tietoja:

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

On myös mahdollista napsauttaa mitä tahansa virtaa ja nähdä seurantatiedot - kuinka monessa rinnakkaisuudessa muunnos toimi, kuinka monta riviä ja tavua ladattiin mihin rinnakkaisiin:

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Graafin suoritus voidaan jakaa vaiheisiin ja merkitä, että jotkin muunnokset on suoritettava ensin (nollavaiheessa), seuraavat ensimmäisessä vaiheessa, seuraavat toisessa vaiheessa jne.

Jokaiselle muunnokselle voit valita ns. asettelun (missä se suoritetaan): ilman rinnakkaissäikeitä tai rinnakkaisissa säikeissä, joiden lukumäärä voidaan määrittää. Samanaikaisesti Ab Inition muunnosten aikana luomat väliaikaiset tiedostot voidaan sijoittaa sekä palvelimen tiedostojärjestelmään että HDFS:ään.

Jokaisessa muunnoksessa voit luoda oletusmallin perusteella oman skriptin PDL:ssä, joka on vähän kuin kuori.

PDL:n avulla voit laajentaa muunnosten toiminnallisuutta ja erityisesti dynaamisesti (ajon aikana) generoida mielivaltaisia ​​koodinpätkiä ajonaikaisista parametreista riippuen.

Ab Initiolla on myös hyvin kehittynyt integraatio käyttöjärjestelmään shellin kautta. Erityisesti Sberbank käyttää linux ksh:ää. Voit vaihtaa muuttujia kuoren kanssa ja käyttää niitä kaavioparametreina. Voit kutsua Ab Initio -graafien suorittamisen kuoresta ja hallinnoida Ab Initiota.

Ab Initio GDE:n lisäksi toimitukseen sisältyy monia muita tuotteita. On oma yhteistyöjärjestelmänsä, jota kutsutaan käyttöjärjestelmäksi. Siellä on Control> Center, jossa voit ajoittaa ja valvoa latauskulkuja. On tuotteita, joilla voidaan tehdä kehitystyötä primitiivisemmällä tasolla kuin Ab Initio GDE sallii.

Kuvaus MDW-kehyksestä ja sen räätälöinti GreenPlumille

Tuotteidensa lisäksi toimittaja toimittaa MDW (Metadata Driven Warehouse) -tuotteen, joka on kaaviokonfiguraattori, joka on suunniteltu auttamaan tyypillisissä tietovarastojen tai tietovarastojen täyttämisessä.

Se sisältää mukautettuja (projektikohtaisia) metadatan jäsentimiä ja valmiita koodigeneraattoreita.

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa
MDW vastaanottaa syötteenä tietomallin, konfigurointitiedoston tietokantayhteyden muodostamiseksi (Oracle, Teradata tai Hive) ja joitain muita asetuksia. Projektikohtainen osa esimerkiksi ottaa mallin käyttöön tietokantaan. Tuotteen valmiina oleva osa luo niille kaavioita ja konfiguraatiotiedostoja lataamalla tietoja mallitaulukoihin. Tässä tapauksessa kaavioita (ja psettejä) luodaan useille alustustiloille ja entiteettien päivityksen lisätyölle.

Hive- ja RDBMS-tapauksissa luodaan erilaisia ​​kaavioita alustusta ja lisätietopäivityksiä varten.

Hiven tapauksessa saapuvat deltatiedot yhdistetään Ab Initio Joinin kautta tietoihin, jotka olivat taulukossa ennen päivitystä. MDW:n tiedonlataajat (sekä Hivessä että RDBMS:ssä) eivät vain lisää uutta dataa deltasta, vaan myös sulkevat niiden tietojen merkityksellisyysjaksot, joiden ensisijaiset avaimet saivat delta-arvon. Lisäksi sinun on kirjoitettava uudelleen muuttumaton osa tiedoista. Mutta tämä on tehtävä, koska Hivella ei ole poisto- tai päivitystoimintoja.

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

RDBMS:n tapauksessa asteittaisen tietojen päivityksen kaaviot näyttävät optimaalisemmilta, koska RDBMS-järjestelmillä on todellisia päivitysominaisuuksia.

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Vastaanotettu delta ladataan tietokannan välitaulukkoon. Tämän jälkeen delta yhdistetään tietoihin, jotka olivat taulukossa ennen päivitystä. Ja tämä tehdään SQL:llä käyttämällä generoitua SQL-kyselyä. Seuraavaksi SQL-komennoilla delete+insert uudet tiedot deltasta lisätään kohdetaulukkoon ja suljetaan niiden tietojen relevanssijaksot, joiden ensisijaiset avaimet saivat deltan.
Muuttumattomia tietoja ei tarvitse kirjoittaa uudelleen.

Joten tulimme siihen tulokseen, että Hiven tapauksessa MDW:n täytyy kirjoittaa koko taulukko uudelleen, koska Hivellä ei ole päivitystoimintoa. Eikä mikään parempaa kuin tietojen kirjoittaminen kokonaan uudelleen, kun päivitys on keksitty. RDBMS:n tapauksessa päinvastoin tuotteen luojat pitivät tarpeellisena uskoa taulukoiden yhdistäminen ja päivittäminen SQL:n käyttöön.

Sberbankin projektia varten loimme GreenPlumille uuden, uudelleen käytettävän tietokantalataussovelluksen. Tämä tehtiin MDW:n Teradatalle luoman version perusteella. Se oli Teradata, ei Oracle, joka oli lähin ja paras tähän, koska... on myös MPP-järjestelmä. Teradatan ja GreenPlumin työmenetelmät ja syntaksi osoittautuivat samanlaisiksi.

Esimerkkejä MDW-kriittisistä eroista eri RDBMS-järjestelmien välillä ovat seuraavat. GreenPlumissa, toisin kuin Teradatassa, taulukoita luotaessa on kirjoitettava lauseke

distributed by

Teradata kirjoittaa:

delete <table> all

, ja GreenPlumissa he kirjoittavat

delete from <table>

Oraclessa optimointitarkoituksiin he kirjoittavat

delete from t where rowid in (<соединение t с дельтой>)

, ja Teradata ja GreenPlum kirjoittavat

delete from t where exists (select * from delta where delta.pk=t.pk)

Huomaa myös, että jotta Ab Initio toimisi GreenPlumin kanssa, oli välttämätöntä asentaa GreenPlum-asiakas kaikkiin Ab Initio -klusterin solmuihin. Tämä johtuu siitä, että olemme muodostaneet yhteyden GreenPlumiin samanaikaisesti kaikista klusterin solmuista. Ja jotta lukeminen GreenPlumista olisi rinnakkaista ja jokainen rinnakkainen Ab Initio -säie voisi lukea oman osuutensa GreenPlumista, meidän piti sijoittaa Ab Inition ymmärtämä konstruktio SQL-kyselyjen "jos"-osioon.

where ABLOCAL()

ja määrittää tämän konstruktion arvon määrittämällä parametrien lukema muunnostietokannasta

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, joka kokoaa jotain vastaavaa

mod(sk,10)=3

, eli sinun on kehotettava GreenPlumille eksplisiittinen suodatin jokaiselle osiolle. Muille tietokannoille (Teradata, Oracle) Ab Initio voi suorittaa tämän rinnakkaistamisen automaattisesti.

Ab Initio -suorituskykyvertailu Hiven ja GreenPlumin välillä

Sberbank suoritti kokeen vertaillakseen MDW:n luomien kaavioiden suorituskykyä suhteessa Hiven ja GreenPlumin suhteen. Osana kokeilua Hiven tapauksessa oli 5 solmua samassa klusterissa kuin Ab Initio ja GreenPlumin tapauksessa 4 solmua erillisessä klusterissa. Nuo. Hivellä oli jonkin verran laitteistoetua GreenPlumiin verrattuna.

Tarkastelimme kahta kaavioparia, jotka suorittavat saman tehtävän päivittää tietoja Hivessa ja GreenPlumissa. Samalla käynnistettiin MDW-konfiguraattorin luomat kaaviot:

  • alkulataus + satunnaisesti luotujen tietojen lisälataus Hive-taulukkoon
  • alkulataus + satunnaisesti luotujen tietojen lisälataus samaan GreenPlum-taulukkoon

Molemmissa tapauksissa (Hive ja GreenPlum) ne suorittivat lataukset 10 rinnakkaissäikeeseen samassa Ab Initio -klusterissa. Ab Initio tallensi välitiedot laskelmia varten HDFS:ssä (Ab Inition suhteen käytettiin HDFS:tä käyttävää MFS-layoutia). Yksi rivi satunnaisesti generoitua dataa vei 200 tavua molemmissa tapauksissa.

Tulos oli tällainen:

Pesä:

Alkulataus Hivessä

Rivit lisätty
6 000 000
60 000 000
600 000 000

Alustamisen kesto
lataukset sekunneissa
41
203
1 601

Inkrementaalinen lataus Hivessa

Käytettävissä olevien rivien määrä
tavoitetaulukko kokeen alussa
6 000 000
60 000 000
600 000 000

Kohteeseen käytettyjen deltaviivojen määrä
tavoitetaulukko kokeen aikana
6 000 000
6 000 000
6 000 000

Lisäyksen kesto
lataukset sekunneissa
88
299
2 541

GreenPlum:

Ensimmäinen lataus GreenPlumissa

Rivit lisätty
6 000 000
60 000 000
600 000 000

Alustamisen kesto
lataukset sekunneissa
72
360
3 631

Inkrementaalinen lataus GreenPlumissa

Käytettävissä olevien rivien määrä
tavoitetaulukko kokeen alussa
6 000 000
60 000 000
600 000 000

Kohteeseen käytettyjen deltaviivojen määrä
tavoitetaulukko kokeen aikana
6 000 000
6 000 000
6 000 000

Lisäyksen kesto
lataukset sekunneissa
159
199
321

Näemme, että sekä Hiven että GreenPlumin alkulatausnopeus riippuu lineaarisesti datan määrästä ja paremman laitteiston vuoksi se on Hivelle hieman nopeampi kuin GreenPlumille.

Hiven lisälataus riippuu myös lineaarisesti kohdetaulukossa saatavilla olevan aiemmin ladatun datan määrästä ja etenee melko hitaasti määrän kasvaessa. Tämä johtuu tarpeesta kirjoittaa kohdetaulukko kokonaan uudelleen. Tämä tarkoittaa, että pienten muutosten tekeminen suuriin taulukoihin ei ole hyvä käyttötapa Hivelle.

Inkrementaalinen lataus GreenPlumissa riippuu heikosti kohdetaulukossa olevan aiemmin ladatun datan määrästä ja etenee melko nopeasti. Tämä tapahtui SQL Joinsin ja GreenPlum-arkkitehtuurin ansiosta, joka mahdollistaa poistotoiminnon.

Joten GreenPlum lisää delta käyttämällä delete+insert-menetelmää, mutta Hivella ei ole poisto- tai päivitystoimintoja, joten koko tietojoukko pakotettiin kirjoittamaan kokonaan uudelleen inkrementaalisen päivityksen aikana. Lihavoitujen solujen vertailu on paljastavin, koska se vastaa yleisintä vaihtoehtoa resurssiintensiivisten latausten käyttämiseen. Näemme, että GreenPlum voitti Hiven tässä testissä 8 kertaa.

Työskentely Ab Initio GreenPlumin kanssa Near Real Time -tilassa

Tässä kokeessa testaamme Ab Inition kykyä päivittää GreenPlum-taulukko satunnaisesti luoduilla tietopaloilla lähes reaaliajassa. Tarkastellaan GreenPlum-taulukkoa dev42_1_db_usl.TESTING_SUBJ_org_finval, jonka kanssa työskentelemme.

Käytämme sen kanssa työskentelemiseen kolmea Ab Initio -kaaviota:

1) Graph Create_test_data.mp – luo datatiedostoja HDFS:ssä 10 6 000 rivillä 000 rinnakkaisessa säikeessä. Tiedot ovat satunnaisia, sen rakenne on järjestetty lisättäväksi taulukkoomme

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

2) Graafi mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW:n luoma kaavio alustamalla tietojen lisäys taulukkoomme 10 rinnakkaissäikeessä (käytetään kaavion (1) luomaa testidataa)

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

3) Kaavio mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW:n luoma kaavio taulukon asteittaista päivittämistä varten 10 rinnakkaissäikeessä käyttämällä kaavion (1) luomaa osaa juuri vastaanotetusta datasta (delta)

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa

Suoritetaan alla oleva komentosarja NRT-tilassa:

  • tuottaa 6 000 000 testilinjaa
  • suorita ensimmäinen lataus, lisää 6 000 000 testiriviä tyhjään taulukkoon
  • toista asteittainen lataus 5 kertaa
    • tuottaa 6 000 000 testilinjaa
    • lisää taulukkoon 6 000 000 testirivin inkrementaalinen lisäys (tässä tapauksessa valid_to_ts vanhenemisaika asetetaan vanhoille tiedoille ja uudemmat tiedot samalla ensisijaisella avaimella lisätään)

Tämä skenaario jäljittelee tietyn liiketoimintajärjestelmän todellista toimintatapaa - melko suuri osa uusista tiedoista ilmestyy reaaliajassa ja se kaadetaan välittömästi GreenPlumiin.

Katsotaan nyt skriptin lokia:

Aloita Create_test_data.input.pset klo 2020-06-04 11:49:11
Lopeta Create_test_data.input.pset klo 2020-06-04 11:49:37
Aloita mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:49:37
Viimeistele mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:50:42
Aloita Create_test_data.input.pset klo 2020-06-04 11:50:42
Lopeta Create_test_data.input.pset klo 2020-06-04 11:51:06
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:51:06
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:53:41
Aloita Create_test_data.input.pset klo 2020-06-04 11:53:41
Lopeta Create_test_data.input.pset klo 2020-06-04 11:54:04
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:54:04
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:56:51
Aloita Create_test_data.input.pset klo 2020-06-04 11:56:51
Lopeta Create_test_data.input.pset klo 2020-06-04 11:57:14
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:57:14
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:59:55
Aloita Create_test_data.input.pset klo 2020-06-04 11:59:55
Lopeta Create_test_data.input.pset klo 2020-06-04 12:00:23
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:00:23
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:03:23
Aloita Create_test_data.input.pset klo 2020-06-04 12:03:23
Lopeta Create_test_data.input.pset klo 2020-06-04 12:03:49
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:03:49
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:06:46

Tästä kuvasta selviää:

Kaavio
Aloitusaika
Viimeinen aika
Pituus

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Näemme, että 6 000 000 lisäysriviä käsitellään 3 minuutissa, mikä on melko nopeaa.
Kohdetaulukon tiedot jakaantuivat seuraavasti:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Kun sinulla on Sber-vaaka. Ab Inition käyttö Hiven ja GreenPlumin kanssa
Näet lisättyjen tietojen vastaavuuden kaavioiden käynnistysaikoihin.
Tämä tarkoittaa, että voit suorittaa tietojen asteittaisen lataamisen GreenPlumiin Ab Initiossa erittäin suurella taajuudella ja tarkkailla näiden tietojen nopeaa lisäämistä GreenPlumiin. Se ei tietenkään ole mahdollista käynnistää kerran sekunnissa, koska Ab Initio, kuten mikä tahansa ETL-työkalu, vaatii aikaa käynnistyäkseen käynnistettäessä.

Johtopäätös

Sberbankissa käytetään tällä hetkellä Ab Initiota Unified Semantic Data Layer (ESS) -tietokerroksen rakentamiseen. Tässä hankkeessa rakennetaan yhtenäinen versio eri pankkitoimintayksiköiden tilasta. Tiedot tulevat eri lähteistä, joiden kopiot valmistetaan Hadoopissa. Liiketoiminnan tarpeiden perusteella laaditaan tietomalli ja kuvataan tiedon muunnokset. Ab Initio lataa tietoa ESN:ään, ja ladatut tiedot eivät kiinnosta vain yritystä itsessään, vaan toimivat myös lähteenä datamarkkinoita rakennettaessa. Samalla tuotteen toiminnallisuus mahdollistaa erilaisten järjestelmien käytön vastaanottimena (Hive, Greenplum, Teradata, Oracle), mikä mahdollistaa tiedon valmistelemisen yritystä varten helposti sen tarvitsemissa eri muodoissa.

Ab Inition mahdollisuudet ovat laajat, esimerkiksi mukana tuleva MDW-kehys mahdollistaa teknisen ja liiketoimintahistoriallisen datan rakentamisen suoraan laatikosta. Ab Initio antaa kehittäjille mahdollisuuden olla keksimättä pyörää uudelleen, vaan käyttää monia olemassa olevia toiminnallisia komponentteja, jotka ovat pohjimmiltaan tiedon parissa tarvittavia kirjastoja.

Kirjoittaja on Sberbank SberProfi DWH/BigDatan ammattiyhteisön asiantuntija. SberProfi DWH/BigData -ammattiyhteisö vastaa osaamisen kehittämisestä sellaisilla alueilla kuin Hadoop-ekosysteemi, Teradata, Oracle DB, GreenPlum sekä BI-työkalut Qlik, SAP BO, Tableau jne.

Lähde: will.com

Lisää kommentti