Jokin aika sitten kohtasimme kysymyksen ETL-työkalun valitsemisesta Big Datan kanssa työskentelemiseen. Aiemmin käytetty Informatica BDM -ratkaisu ei sopinut meille rajallisen toiminnallisuuden vuoksi. Sen käyttö on rajoitettu puitteisiin spark-submit-komentojen käynnistämiseen. Markkinoilla ei ollut monia analogeja, jotka periaatteessa kykenisivät toimimaan päivittäin käsittelemämme datamäärän kanssa. Lopulta valitsimme Ab Inition. Pilottien aikana tuote osoitti erittäin suurta tietojenkäsittelynopeutta. Ab Initiosta ei ole juurikaan tietoa venäjäksi, joten päätimme puhua kokemuksistamme Habressa.
Ab Initio sisältää monia klassisia ja epätavallisia muunnoksia, joiden koodia voidaan laajentaa käyttämällä omaa PDL-kieltä. Pienyritykselle tällainen tehokas työkalu on todennäköisesti ylivoimainen, ja suurin osa sen ominaisuuksista voi olla kallista ja käyttämätöntä. Mutta jos asteikkosi on lähellä Sberovin mittakaavaa, Ab Initio voi olla kiinnostava sinulle.
Se auttaa yritystä keräämään tietoa maailmanlaajuisesti ja kehittämään ekosysteemiä ja kehittäjää parantamaan ETL-taitojaan, parantamaan tietojaan kuoressa, tarjoaa mahdollisuuden hallita PDL-kieltä, antaa visuaalisen kuvan latausprosesseista ja yksinkertaistaa kehitystä. toiminnallisten komponenttien runsauden vuoksi.
Tässä viestissä puhun Ab Inition kyvyistä ja tarjoan vertailevia ominaisuuksia sen työstä Hiven ja GreenPlumin kanssa.
- Kuvaus MDW-kehyksestä ja sen räätälöinti GreenPlumille
- Ab Initio -suorituskykyvertailu Hiven ja GreenPlumin välillä
- Työskentely Ab Initio GreenPlumin kanssa Near Real Time -tilassa
Tämän tuotteen toiminnallisuus on erittäin laaja ja vaatii paljon aikaa tutkimiseen. Oikeilla työtaidoilla ja oikeilla suoritusasetuksilla tietojenkäsittelyn tulokset ovat kuitenkin erittäin vaikuttavia. Ab Inition käyttäminen kehittäjälle voi tarjota mielenkiintoisen kokemuksen. Tämä on uusi näkemys ETL-kehityksestä, visuaalisen ympäristön ja latauskehityksen hybridi käsikirjoituskaltaisella kielellä.
Yritykset kehittävät ekosysteemiään ja tämä työkalu on hyödyllisempi kuin koskaan. Ab Inition avulla voit kerätä tietoa nykyisestä liiketoiminnastasi ja hyödyntää sitä vanhojen ja uusien yritysten laajentamiseen. Vaihtoehtoja Ab Initiolle ovat visuaaliset kehitysympäristöt Informatica BDM ja ei-visuaaliset kehitysympäristöt Apache Spark.
Ab Inition kuvaus
Ab Initio, kuten muutkin ETL-työkalut, on kokoelma tuotteita.
Ab Initio GDE (Graphical Development Environment) on kehittäjälle tarkoitettu ympäristö, jossa hän konfiguroi datamuunnoksia ja yhdistää ne tietovirtoihin nuolien muodossa. Tässä tapauksessa tällaista muunnossarjaa kutsutaan graafiksi:
Toiminnallisten komponenttien tulo- ja lähtöliitännät ovat portteja ja sisältävät muunnoksissa laskettuja kenttiä. Useita kaavioita, jotka on liitetty toisiinsa nuolten muodossa niiden suoritusjärjestyksessä, kutsutaan suunnitelmaksi.
Toimivia komponentteja on useita satoja, mikä on paljon. Monet heistä ovat erittäin erikoistuneita. Klassisten muunnosten mahdollisuudet Ab Initiossa ovat laajemmat kuin muissa ETL-työkaluissa. Esimerkiksi Joinilla on useita lähtöjä. Tietojoukkojen yhdistämisen tuloksen lisäksi voit saada ulostulotietueita syötetietojoukoista, joiden avaimia ei voitu yhdistää. Voit myös saada muunnosoperaatiosta hylkäyksiä, virheitä ja lokin, jotka voidaan lukea samassa sarakkeessa tekstitiedostona ja käsitellä muiden muunnosten kanssa:
Tai voit esimerkiksi materialisoida datavastaanottimen taulukon muodossa ja lukea siitä dataa samassa sarakkeessa.
Siellä on alkuperäisiä muunnoksia. Esimerkiksi Scan-muunnoksen toiminnallisuus on samanlainen kuin analyyttisten funktioiden. On olemassa muunnoksia, joilla on itsestään selvät nimet: Luo data, Lue Excel, Normalisoi, Lajittele ryhmien sisällä, Suorita ohjelma, Suorita SQL, Liity DB:n kanssa jne. Graafit voivat käyttää ajonaikaisia parametreja, mukaan lukien mahdollisuus siirtää parametreja kohteesta tai käyttöjärjestelmä. Tiedostoja, joissa on valmiit parametrit, jotka on välitetty kuvaajalle, kutsutaan parametrijoukoiksi (psets).
Ab Initio GDE:llä on odotetusti oma arkisto nimeltään EME (Enterprise Meta Environment). Kehittäjillä on mahdollisuus työskennellä koodin paikallisten versioiden kanssa ja tarkistaa niiden kehitys keskustietovarastoon.
On mahdollista, suorituksen aikana tai kaavion suorittamisen jälkeen, napsauttaa mitä tahansa muunnoksen yhdistävää virtaa ja tarkastella näiden muunnosten välillä kulkeneita tietoja:
On myös mahdollista napsauttaa mitä tahansa virtaa ja nähdä seurantatiedot - kuinka monessa rinnakkaisuudessa muunnos toimi, kuinka monta riviä ja tavua ladattiin mihin rinnakkaisiin:
Graafin suoritus voidaan jakaa vaiheisiin ja merkitä, että jotkin muunnokset on suoritettava ensin (nollavaiheessa), seuraavat ensimmäisessä vaiheessa, seuraavat toisessa vaiheessa jne.
Jokaiselle muunnokselle voit valita ns. asettelun (missä se suoritetaan): ilman rinnakkaissäikeitä tai rinnakkaisissa säikeissä, joiden lukumäärä voidaan määrittää. Samanaikaisesti Ab Inition muunnosten aikana luomat väliaikaiset tiedostot voidaan sijoittaa sekä palvelimen tiedostojärjestelmään että HDFS:ään.
Jokaisessa muunnoksessa voit luoda oletusmallin perusteella oman skriptin PDL:ssä, joka on vähän kuin kuori.
PDL:n avulla voit laajentaa muunnosten toiminnallisuutta ja erityisesti dynaamisesti (ajon aikana) generoida mielivaltaisia koodinpätkiä ajonaikaisista parametreista riippuen.
Ab Initiolla on myös hyvin kehittynyt integraatio käyttöjärjestelmään shellin kautta. Erityisesti Sberbank käyttää linux ksh:ää. Voit vaihtaa muuttujia kuoren kanssa ja käyttää niitä kaavioparametreina. Voit kutsua Ab Initio -graafien suorittamisen kuoresta ja hallinnoida Ab Initiota.
Ab Initio GDE:n lisäksi toimitukseen sisältyy monia muita tuotteita. On oma yhteistyöjärjestelmänsä, jota kutsutaan käyttöjärjestelmäksi. Siellä on Control> Center, jossa voit ajoittaa ja valvoa latauskulkuja. On tuotteita, joilla voidaan tehdä kehitystyötä primitiivisemmällä tasolla kuin Ab Initio GDE sallii.
Kuvaus MDW-kehyksestä ja sen räätälöinti GreenPlumille
Tuotteidensa lisäksi toimittaja toimittaa MDW (Metadata Driven Warehouse) -tuotteen, joka on kaaviokonfiguraattori, joka on suunniteltu auttamaan tyypillisissä tietovarastojen tai tietovarastojen täyttämisessä.
Se sisältää mukautettuja (projektikohtaisia) metadatan jäsentimiä ja valmiita koodigeneraattoreita.
MDW vastaanottaa syötteenä tietomallin, konfigurointitiedoston tietokantayhteyden muodostamiseksi (Oracle, Teradata tai Hive) ja joitain muita asetuksia. Projektikohtainen osa esimerkiksi ottaa mallin käyttöön tietokantaan. Tuotteen valmiina oleva osa luo niille kaavioita ja konfiguraatiotiedostoja lataamalla tietoja mallitaulukoihin. Tässä tapauksessa kaavioita (ja psettejä) luodaan useille alustustiloille ja entiteettien päivityksen lisätyölle.
Hive- ja RDBMS-tapauksissa luodaan erilaisia kaavioita alustusta ja lisätietopäivityksiä varten.
Hiven tapauksessa saapuvat deltatiedot yhdistetään Ab Initio Joinin kautta tietoihin, jotka olivat taulukossa ennen päivitystä. MDW:n tiedonlataajat (sekä Hivessä että RDBMS:ssä) eivät vain lisää uutta dataa deltasta, vaan myös sulkevat niiden tietojen merkityksellisyysjaksot, joiden ensisijaiset avaimet saivat delta-arvon. Lisäksi sinun on kirjoitettava uudelleen muuttumaton osa tiedoista. Mutta tämä on tehtävä, koska Hivella ei ole poisto- tai päivitystoimintoja.
RDBMS:n tapauksessa asteittaisen tietojen päivityksen kaaviot näyttävät optimaalisemmilta, koska RDBMS-järjestelmillä on todellisia päivitysominaisuuksia.
Vastaanotettu delta ladataan tietokannan välitaulukkoon. Tämän jälkeen delta yhdistetään tietoihin, jotka olivat taulukossa ennen päivitystä. Ja tämä tehdään SQL:llä käyttämällä generoitua SQL-kyselyä. Seuraavaksi SQL-komennoilla delete+insert uudet tiedot deltasta lisätään kohdetaulukkoon ja suljetaan niiden tietojen relevanssijaksot, joiden ensisijaiset avaimet saivat deltan.
Muuttumattomia tietoja ei tarvitse kirjoittaa uudelleen.
Joten tulimme siihen tulokseen, että Hiven tapauksessa MDW:n täytyy kirjoittaa koko taulukko uudelleen, koska Hivellä ei ole päivitystoimintoa. Eikä mikään parempaa kuin tietojen kirjoittaminen kokonaan uudelleen, kun päivitys on keksitty. RDBMS:n tapauksessa päinvastoin tuotteen luojat pitivät tarpeellisena uskoa taulukoiden yhdistäminen ja päivittäminen SQL:n käyttöön.
Sberbankin projektia varten loimme GreenPlumille uuden, uudelleen käytettävän tietokantalataussovelluksen. Tämä tehtiin MDW:n Teradatalle luoman version perusteella. Se oli Teradata, ei Oracle, joka oli lähin ja paras tähän, koska... on myös MPP-järjestelmä. Teradatan ja GreenPlumin työmenetelmät ja syntaksi osoittautuivat samanlaisiksi.
Esimerkkejä MDW-kriittisistä eroista eri RDBMS-järjestelmien välillä ovat seuraavat. GreenPlumissa, toisin kuin Teradatassa, taulukoita luotaessa on kirjoitettava lauseke
distributed by
Teradata kirjoittaa:
delete <table> all
, ja GreenPlumissa he kirjoittavat
delete from <table>
Oraclessa optimointitarkoituksiin he kirjoittavat
delete from t where rowid in (<соединение t с дельтой>)
, ja Teradata ja GreenPlum kirjoittavat
delete from t where exists (select * from delta where delta.pk=t.pk)
Huomaa myös, että jotta Ab Initio toimisi GreenPlumin kanssa, oli välttämätöntä asentaa GreenPlum-asiakas kaikkiin Ab Initio -klusterin solmuihin. Tämä johtuu siitä, että olemme muodostaneet yhteyden GreenPlumiin samanaikaisesti kaikista klusterin solmuista. Ja jotta lukeminen GreenPlumista olisi rinnakkaista ja jokainen rinnakkainen Ab Initio -säie voisi lukea oman osuutensa GreenPlumista, meidän piti sijoittaa Ab Inition ymmärtämä konstruktio SQL-kyselyjen "jos"-osioon.
where ABLOCAL()
ja määrittää tämän konstruktion arvon määrittämällä parametrien lukema muunnostietokannasta
ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»
, joka kokoaa jotain vastaavaa
mod(sk,10)=3
, eli sinun on kehotettava GreenPlumille eksplisiittinen suodatin jokaiselle osiolle. Muille tietokannoille (Teradata, Oracle) Ab Initio voi suorittaa tämän rinnakkaistamisen automaattisesti.
Ab Initio -suorituskykyvertailu Hiven ja GreenPlumin välillä
Sberbank suoritti kokeen vertaillakseen MDW:n luomien kaavioiden suorituskykyä suhteessa Hiven ja GreenPlumin suhteen. Osana kokeilua Hiven tapauksessa oli 5 solmua samassa klusterissa kuin Ab Initio ja GreenPlumin tapauksessa 4 solmua erillisessä klusterissa. Nuo. Hivellä oli jonkin verran laitteistoetua GreenPlumiin verrattuna.
Tarkastelimme kahta kaavioparia, jotka suorittavat saman tehtävän päivittää tietoja Hivessa ja GreenPlumissa. Samalla käynnistettiin MDW-konfiguraattorin luomat kaaviot:
- alkulataus + satunnaisesti luotujen tietojen lisälataus Hive-taulukkoon
- alkulataus + satunnaisesti luotujen tietojen lisälataus samaan GreenPlum-taulukkoon
Molemmissa tapauksissa (Hive ja GreenPlum) ne suorittivat lataukset 10 rinnakkaissäikeeseen samassa Ab Initio -klusterissa. Ab Initio tallensi välitiedot laskelmia varten HDFS:ssä (Ab Inition suhteen käytettiin HDFS:tä käyttävää MFS-layoutia). Yksi rivi satunnaisesti generoitua dataa vei 200 tavua molemmissa tapauksissa.
Tulos oli tällainen:
Pesä:
Alkulataus Hivessä
Rivit lisätty
6 000 000
60 000 000
600 000 000
Alustamisen kesto
lataukset sekunneissa
41
203
1 601
Inkrementaalinen lataus Hivessa
Käytettävissä olevien rivien määrä
tavoitetaulukko kokeen alussa
6 000 000
60 000 000
600 000 000
Kohteeseen käytettyjen deltaviivojen määrä
tavoitetaulukko kokeen aikana
6 000 000
6 000 000
6 000 000
Lisäyksen kesto
lataukset sekunneissa
88
299
2 541
GreenPlum:
Ensimmäinen lataus GreenPlumissa
Rivit lisätty
6 000 000
60 000 000
600 000 000
Alustamisen kesto
lataukset sekunneissa
72
360
3 631
Inkrementaalinen lataus GreenPlumissa
Käytettävissä olevien rivien määrä
tavoitetaulukko kokeen alussa
6 000 000
60 000 000
600 000 000
Kohteeseen käytettyjen deltaviivojen määrä
tavoitetaulukko kokeen aikana
6 000 000
6 000 000
6 000 000
Lisäyksen kesto
lataukset sekunneissa
159
199
321
Näemme, että sekä Hiven että GreenPlumin alkulatausnopeus riippuu lineaarisesti datan määrästä ja paremman laitteiston vuoksi se on Hivelle hieman nopeampi kuin GreenPlumille.
Hiven lisälataus riippuu myös lineaarisesti kohdetaulukossa saatavilla olevan aiemmin ladatun datan määrästä ja etenee melko hitaasti määrän kasvaessa. Tämä johtuu tarpeesta kirjoittaa kohdetaulukko kokonaan uudelleen. Tämä tarkoittaa, että pienten muutosten tekeminen suuriin taulukoihin ei ole hyvä käyttötapa Hivelle.
Inkrementaalinen lataus GreenPlumissa riippuu heikosti kohdetaulukossa olevan aiemmin ladatun datan määrästä ja etenee melko nopeasti. Tämä tapahtui SQL Joinsin ja GreenPlum-arkkitehtuurin ansiosta, joka mahdollistaa poistotoiminnon.
Joten GreenPlum lisää delta käyttämällä delete+insert-menetelmää, mutta Hivella ei ole poisto- tai päivitystoimintoja, joten koko tietojoukko pakotettiin kirjoittamaan kokonaan uudelleen inkrementaalisen päivityksen aikana. Lihavoitujen solujen vertailu on paljastavin, koska se vastaa yleisintä vaihtoehtoa resurssiintensiivisten latausten käyttämiseen. Näemme, että GreenPlum voitti Hiven tässä testissä 8 kertaa.
Työskentely Ab Initio GreenPlumin kanssa Near Real Time -tilassa
Tässä kokeessa testaamme Ab Inition kykyä päivittää GreenPlum-taulukko satunnaisesti luoduilla tietopaloilla lähes reaaliajassa. Tarkastellaan GreenPlum-taulukkoa dev42_1_db_usl.TESTING_SUBJ_org_finval, jonka kanssa työskentelemme.
Käytämme sen kanssa työskentelemiseen kolmea Ab Initio -kaaviota:
1) Graph Create_test_data.mp – luo datatiedostoja HDFS:ssä 10 6 000 rivillä 000 rinnakkaisessa säikeessä. Tiedot ovat satunnaisia, sen rakenne on järjestetty lisättäväksi taulukkoomme
2) Graafi mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW:n luoma kaavio alustamalla tietojen lisäys taulukkoomme 10 rinnakkaissäikeessä (käytetään kaavion (1) luomaa testidataa)
3) Kaavio mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW:n luoma kaavio taulukon asteittaista päivittämistä varten 10 rinnakkaissäikeessä käyttämällä kaavion (1) luomaa osaa juuri vastaanotetusta datasta (delta)
Suoritetaan alla oleva komentosarja NRT-tilassa:
- tuottaa 6 000 000 testilinjaa
- suorita ensimmäinen lataus, lisää 6 000 000 testiriviä tyhjään taulukkoon
- toista asteittainen lataus 5 kertaa
- tuottaa 6 000 000 testilinjaa
- lisää taulukkoon 6 000 000 testirivin inkrementaalinen lisäys (tässä tapauksessa valid_to_ts vanhenemisaika asetetaan vanhoille tiedoille ja uudemmat tiedot samalla ensisijaisella avaimella lisätään)
Tämä skenaario jäljittelee tietyn liiketoimintajärjestelmän todellista toimintatapaa - melko suuri osa uusista tiedoista ilmestyy reaaliajassa ja se kaadetaan välittömästi GreenPlumiin.
Katsotaan nyt skriptin lokia:
Aloita Create_test_data.input.pset klo 2020-06-04 11:49:11
Lopeta Create_test_data.input.pset klo 2020-06-04 11:49:37
Aloita mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:49:37
Viimeistele mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:50:42
Aloita Create_test_data.input.pset klo 2020-06-04 11:50:42
Lopeta Create_test_data.input.pset klo 2020-06-04 11:51:06
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:51:06
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:53:41
Aloita Create_test_data.input.pset klo 2020-06-04 11:53:41
Lopeta Create_test_data.input.pset klo 2020-06-04 11:54:04
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:54:04
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:56:51
Aloita Create_test_data.input.pset klo 2020-06-04 11:56:51
Lopeta Create_test_data.input.pset klo 2020-06-04 11:57:14
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:57:14
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 11:59:55
Aloita Create_test_data.input.pset klo 2020-06-04 11:59:55
Lopeta Create_test_data.input.pset klo 2020-06-04 12:00:23
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:00:23
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:03:23
Aloita Create_test_data.input.pset klo 2020-06-04 12:03:23
Lopeta Create_test_data.input.pset klo 2020-06-04 12:03:49
Aloita mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:03:49
Viimeistele mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset klo 2020-06-04 12:06:46
Tästä kuvasta selviää:
Kaavio
Aloitusaika
Viimeinen aika
Pituus
Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26
mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05
Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35
Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47
Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41
Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00
Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26
mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57
Näemme, että 6 000 000 lisäysriviä käsitellään 3 minuutissa, mikä on melko nopeaa.
Kohdetaulukon tiedot jakaantuivat seuraavasti:
select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;
Näet lisättyjen tietojen vastaavuuden kaavioiden käynnistysaikoihin.
Tämä tarkoittaa, että voit suorittaa tietojen asteittaisen lataamisen GreenPlumiin Ab Initiossa erittäin suurella taajuudella ja tarkkailla näiden tietojen nopeaa lisäämistä GreenPlumiin. Se ei tietenkään ole mahdollista käynnistää kerran sekunnissa, koska Ab Initio, kuten mikä tahansa ETL-työkalu, vaatii aikaa käynnistyäkseen käynnistettäessä.
Johtopäätös
Sberbankissa käytetään tällä hetkellä Ab Initiota Unified Semantic Data Layer (ESS) -tietokerroksen rakentamiseen. Tässä hankkeessa rakennetaan yhtenäinen versio eri pankkitoimintayksiköiden tilasta. Tiedot tulevat eri lähteistä, joiden kopiot valmistetaan Hadoopissa. Liiketoiminnan tarpeiden perusteella laaditaan tietomalli ja kuvataan tiedon muunnokset. Ab Initio lataa tietoa ESN:ään, ja ladatut tiedot eivät kiinnosta vain yritystä itsessään, vaan toimivat myös lähteenä datamarkkinoita rakennettaessa. Samalla tuotteen toiminnallisuus mahdollistaa erilaisten järjestelmien käytön vastaanottimena (Hive, Greenplum, Teradata, Oracle), mikä mahdollistaa tiedon valmistelemisen yritystä varten helposti sen tarvitsemissa eri muodoissa.
Ab Inition mahdollisuudet ovat laajat, esimerkiksi mukana tuleva MDW-kehys mahdollistaa teknisen ja liiketoimintahistoriallisen datan rakentamisen suoraan laatikosta. Ab Initio antaa kehittäjille mahdollisuuden olla keksimättä pyörää uudelleen, vaan käyttää monia olemassa olevia toiminnallisia komponentteja, jotka ovat pohjimmiltaan tiedon parissa tarvittavia kirjastoja.
Kirjoittaja on Sberbank SberProfi DWH/BigDatan ammattiyhteisön asiantuntija. SberProfi DWH/BigData -ammattiyhteisö vastaa osaamisen kehittämisestä sellaisilla alueilla kuin Hadoop-ekosysteemi, Teradata, Oracle DB, GreenPlum sekä BI-työkalut Qlik, SAP BO, Tableau jne.
Lähde: will.com