Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Mõni aeg tagasi seisime silmitsi küsimusega, kas valida suurandmetega töötamiseks ETL-i tööriist. Varem kasutatud Informatica BDM lahendus meile piiratud funktsionaalsuse tõttu ei sobinud. Selle kasutamist on vähendatud säde-esitamise käskude käivitamise raamistikuks. Turul ei olnud palju analooge, mis oleksid põhimõtteliselt suutelised töötama nende andmete mahuga, millega me igapäevaselt tegeleme. Lõpuks valisime Ab Initio. Pilootesitluste ajal näitas toode väga suurt andmetöötluskiirust. Ab Initio kohta pole vene keeles peaaegu mingit teavet, nii et otsustasime rääkida oma kogemusest Habrel.

Ab Initiol on palju klassikalisi ja ebatavalisi teisendusi, mille koodi saab laiendada oma PDL-keele abil. Väikeettevõtte jaoks on selline võimas tööriist tõenäoliselt üle jõu käiv ning suurem osa selle võimalustest võib olla kulukas ja kasutamata. Aga kui teie skaala on Sberovi omale lähedane, võib Ab Initio teile huvi pakkuda.

See aitab ettevõttel koguda teadmisi globaalselt ja arendada ökosüsteemi ning arendajal täiendada oma oskusi ETL-is, täiendada oma teadmisi shellis, annab võimaluse omandada PDL-keelt, annab visuaalse pildi laadimisprotsessidest ja lihtsustab arendust. funktsionaalsete komponentide rohkuse tõttu.

Selles postituses räägin Ab Initio võimalustest ja pakun võrdlusandmeid selle töö kohta Hive ja GreenPlumiga.

  • MDW raamistiku kirjeldus ja selle kohandamine GreenPlumi jaoks
  • Ab Initio jõudluse võrdlus Hive ja GreenPlumi vahel
  • Ab Initio töötamine GreenPlumiga peaaegu reaalajas


Selle toote funktsionaalsus on väga lai ja selle uurimine nõuab palju aega. Õigete tööoskuste ja õigete jõudlusseadete korral on aga andmetöötluse tulemused väga muljetavaldavad. Ab Initio kasutamine arendaja jaoks võib pakkuda huvitavat kogemust. See on uus lähenemine ETL-i arendusele, hübriid visuaalse keskkonna ja allalaaditava arenduse vahel skriptitaolises keeles.

Ettevõtted arendavad oma ökosüsteeme ja see tööriist on kasulikum kui kunagi varem. Ab Initio abil saate koguda teadmisi oma praeguse ettevõtte kohta ja kasutada neid teadmisi vanade ettevõtete laiendamiseks ja uute ettevõtete avamiseks. Ab Initio alternatiivide hulka kuuluvad visuaalsed arenduskeskkonnad Informatica BDM ja mittevisuaalsed arenduskeskkonnad Apache Spark.

Ab Initio kirjeldus

Ab Initio, nagu ka teised ETL-i tööriistad, on toodete kogum.

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Ab Initio GDE (Graphical Development Environment) on keskkond arendajale, milles ta konfigureerib andmete teisendusi ja ühendab need noolte kujul andmevoogudega. Sel juhul nimetatakse sellist teisenduste kogumit graafikuks:

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Funktsionaalsete komponentide sisend- ja väljundühendused on pordid ja sisaldavad teisendustes arvutatud välju. Mitmeid graafikuid, mis on nende täitmise järjekorras noolte kujul ühendatud voogudega, nimetatakse plaaniks.

Funktsionaalseid komponente on mitusada, mida on palju. Paljud neist on väga spetsialiseerunud. Ab Initio klassikaliste teisenduste võimalused on laiemad kui teistes ETL-i tööriistades. Näiteks ühendusel on mitu väljundit. Lisaks andmekogumite ühendamise tulemusele saate saada sisendandmekogumite väljundkirjeid, mille võtmeid ei saanud ühendada. Samuti saate tagasilükkamisi, vigu ja teisendustoimingu logi, mida saab lugeda tekstifailiga samast veerust ja töödelda koos muude teisendustega:

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Või näiteks materialiseerida andmevastuvõtja tabeli kujul ja sealt samast veerust andmeid lugeda.

Seal on originaalsed teisendused. Näiteks skannimise teisendusel on analüütiliste funktsioonidega sarnane funktsionaalsus. On olemas selgete nimedega teisendusi: andmete loomine, Exceli lugemine, normaliseerimine, rühmades sortimine, programmi käivitamine, SQL-i käivitamine, DB-ga liitumine jne. Graafikud võivad kasutada käitusaja parameetreid, sealhulgas võimalust parameetreid edastada operatsioonisüsteem. Faile, millel on graafikule edastatud valmis parameetrite komplekt, nimetatakse parameetrikomplektideks (psets).

Nagu oodatud, on Ab Initio GDE-l oma hoidla nimega EME (Enterprise Meta Environment). Arendajatel on võimalus töötada koodi kohalike versioonidega ja kontrollida nende arendusi kesksesse hoidlasse.

Täitmise ajal või pärast graafiku täitmist on võimalik klõpsata mis tahes teisendust ühendaval vool ja vaadata andmeid, mis nende teisenduste vahel liikusid:

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Samuti on võimalik klõpsata mis tahes voo peal ja näha jälgimise üksikasju - mitmes paralleelis teisendus töötas, mitu rida ja baiti millisesse paralleeli laaditi:

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Graafi täitmist on võimalik jagada faasideks ja märkida, et esmalt on vaja sooritada mõned teisendused (nullfaasis), järgmised esimeses faasis, järgmised teises faasis jne.

Iga teisenduse jaoks saate valida nn paigutuse (kus see täidetakse): ilma paralleelideta või paralleelsete lõimedena, mille arvu saab määrata. Samal ajal saab ajutisi faile, mida Ab Initio teisenduste töötamise ajal loob, paigutada nii serveri failisüsteemi kui ka HDFS-i.

Igas teisenduses saate vaikemalli alusel luua oma skripti PDL-is, mis on natuke nagu kest.

PDL-iga saate laiendada teisenduste funktsionaalsust ja eelkõige saate dünaamiliselt (käitusajal) genereerida suvalisi koodifragmente sõltuvalt käitusaja parameetritest.

Ab Initiol on ka hästi arenenud integratsioon operatsioonisüsteemiga shelli kaudu. Täpsemalt kasutab Sberbank linux ksh-d. Saate vahetada muutujaid kestaga ja kasutada neid graafiku parameetritena. Saate kutsuda Ab Initio graafikute käivitamist kestast ja administreerida Ab Initio't.

Lisaks Ab Initio GDE-le on tarnega kaasas palju muid tooteid. On olemas oma koostöösüsteem, mida nimetatakse operatsioonisüsteemiks. Seal on juhtkeskus, kus saate ajastada ja jälgida allalaadimisvooge. On tooteid, mille abil saab arendustööd teha primitiivsemal tasemel, kui Ab Initio GDE lubab.

MDW raamistiku kirjeldus ja selle kohandamine GreenPlumi jaoks

Koos oma toodetega tarnib müüja MDW (Metadata Driven Warehouse) toodet, mis on graafiku konfiguraator, mis on loodud andmeladude või andmehoidlate täitmiseks tüüpiliste ülesannete täitmiseks.

See sisaldab kohandatud (projektipõhiseid) metaandmete parsereid ja valmis koodigeneraatoreid.

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga
Sisendina saab MDW andmemudeli, konfiguratsioonifaili andmebaasiga ühenduse loomiseks (Oracle, Teradata või Hive) ja mõned muud sätted. Näiteks projektipõhine osa juurutab mudeli andmebaasi. Toote karbist väljas olev osa genereerib nende jaoks graafikud ja konfiguratsioonifailid, laadides andmeid mudelitabelitesse. Sel juhul luuakse graafikud (ja psetid) mitme lähtestamise ja olemite värskendamise režiimi jaoks.

Hive'i ja RDBMS-i puhul luuakse lähtestamiseks ja andmete järkjärguliseks värskendamiseks erinevad graafikud.

Hive puhul ühendatakse sissetulevad deltaandmed Ab Initio Join kaudu andmetega, mis olid tabelis enne värskendust. MDW andmelaadijad (nii Hive'is kui ka RDBMS-is) mitte ainult ei sisesta uusi andmeid deltast, vaid sulgevad ka nende andmete asjakohasuse perioodid, mille primaarvõtmed said delta. Lisaks tuleb ümber kirjutada andmete muutmata osa. Kuid seda tuleb teha, kuna Hive'il pole kustutamis- ega värskendamistoiminguid.

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

RDBMS-i puhul näevad järkjärgulise andmete värskendamise graafikud optimaalsemad välja, kuna RDBMS-idel on reaalsed värskendamisvõimalused.

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Vastuvõetud delta laaditakse andmebaasi vahetabelisse. Pärast seda ühendatakse delta andmetega, mis olid tabelis enne värskendust. Ja seda tehakse SQL-i abil, kasutades genereeritud SQL-päringut. Järgmisena sisestatakse SQL-i käskude kustutamine+sisestamine abil uued andmed deltast sihttabelisse ja suletakse nende andmete asjakohasuse perioodid, mille primaarvõtmed said delta.
Muutmata andmeid pole vaja ümber kirjutada.

Seega jõudsime järeldusele, et Hive puhul peab MDW minema kogu tabeli ümber kirjutama, kuna Hivel puudub uuendusfunktsioon. Ja pole midagi paremat kui andmete täielik ümberkirjutamine, kui värskendamine on leiutatud. RDBMS-i puhul, vastupidi, leidsid toote loojad vajalikuks usaldada tabelite ühendamine ja uuendamine SQL-i kasutusse.

Sberbanki projekti jaoks lõime GreenPlumi jaoks uue, korduvkasutatava andmebaasilaadija teostuse. Seda tehti versiooni põhjal, mille MDW genereerib Teradata jaoks. Selle jaoks oli kõige lähemal ja parim Teradata, mitte Oracle, sest... on ka MPP süsteem. Teradata ja GreenPlumi töömeetodid ja ka süntaks osutusid sarnaseks.

Erinevate RDBMS-ide MDW-kriitiliste erinevuste näited on järgmised. GreenPlumis, erinevalt Teradatast, tuleb tabelite loomisel kirjutada klausel

distributed by

Teradata kirjutab:

delete <table> all

ja GreenPlumis kirjutavad nad

delete from <table>

Oracle'is kirjutavad nad optimeerimise eesmärgil

delete from t where rowid in (<соединение t с дельтой>)

, ning Teradata ja GreenPlum kirjutavad

delete from t where exists (select * from delta where delta.pk=t.pk)

Samuti märgime, et Ab Initio GreenPlumiga töötamiseks oli vaja installida GreenPlumi klient kõikidesse Ab Initio klastri sõlmedesse. Selle põhjuseks on asjaolu, et ühendasime GreenPlumiga samaaegselt kõigist meie klastri sõlmedest. Ja selleks, et GreenPlumi lugemine oleks paralleelne ja iga paralleelne Ab Initio lõim loeks oma osa GreenPlumi andmetest, pidime SQL-päringute jaotisesse „kus” asetama Ab Initio poolt mõistetava konstruktsiooni.

where ABLOCAL()

ja määrata selle konstruktsiooni väärtus, täpsustades parameetrite lugemist teisendusandmebaasist

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, mis kompileerib millekski sarnaseks

mod(sk,10)=3

, st. peate GreenPlumile küsima iga partitsiooni jaoks selgesõnalise filtri. Teiste andmebaaside (Teradata, Oracle) puhul saab Ab Initio seda paralleelsust automaatselt teostada.

Ab Initio jõudluse võrdlus Hive ja GreenPlumi vahel

Sberbank viis läbi katse, et võrrelda MDW-ga genereeritud graafikute toimivust Hive'i ja GreenPlumi suhtes. Katse raames oli Hive puhul Ab Initioga samas klastris 5 sõlme ja GreenPlumi puhul 4 sõlme eraldi klastris. Need. Tarul oli GreenPlumi ees riistvaraline eelis.

Vaatlesime kahte paari graafikuid, mis täidavad Hive'is ja GreenPlumis sama ülesannet andmete värskendamiseks. Samal ajal käivitati MDW konfiguraatori loodud graafikud:

  • esialgne koormus + juhuslikult genereeritud andmete järkjärguline laadimine Hive tabelisse
  • algkoormus + juhuslikult genereeritud andmete järkjärguline laadimine samasse GreenPlumi tabelisse

Mõlemal juhul (Hive ja GreenPlum) laadisid nad üles 10 paralleelsesse lõime samas Ab Initio klastris. Ab Initio salvestas vaheandmed HDFS-i arvutuste jaoks (Ab Initio osas kasutati HDFS-i kasutavat MFS-i paigutust). Üks juhuslikult genereeritud andmete rida võttis mõlemal juhul enda alla 200 baiti.

Tulemus oli selline:

Taru:

Esialgne laadimine tarus

Ridad on sisestatud
+6 000
+60 000
+600 000

Initsialiseerimise kestus
allalaadimine sekunditega
41
203
1 601

Taru järkjärguline laadimine

Saadaolevate ridade arv
sihttabel katse alguses
+6 000
+60 000
+600 000

Rakendatud deltajoonte arv
sihttabel katse ajal
+6 000
+6 000
+6 000

Kasvatamise kestus
allalaadimine sekunditega
88
299
2 541

Roheline ploom:

Esialgne laadimine GreenPlumis

Ridad on sisestatud
+6 000
+60 000
+600 000

Initsialiseerimise kestus
allalaadimine sekunditega
72
360
3 631

Täiendav laadimine GreenPlumis

Saadaolevate ridade arv
sihttabel katse alguses
+6 000
+60 000
+600 000

Rakendatud deltajoonte arv
sihttabel katse ajal
+6 000
+6 000
+6 000

Kasvatamise kestus
allalaadimine sekunditega
159
199
321

Näeme, et nii Hive'i kui ka GreenPlumi alglaadimise kiirus sõltub lineaarselt andmemahust ja parema riistvara huvides on see Hive'i puhul veidi kiirem kui GreenPlumi puhul.

Taru järkjärguline laadimine sõltub lineaarselt ka sihttabelis saadaolevate varem laaditud andmete mahust ja toimub mahu kasvades üsna aeglaselt. Selle põhjuseks on vajadus sihttabel täielikult ümber kirjutada. See tähendab, et väikeste muudatuste rakendamine suurtes tabelites ei ole Hive'i jaoks hea kasutusjuht.

GreenPlumi järkjärguline laadimine sõltub nõrgalt sihttabelis saadaolevate varem laaditud andmete mahust ja kulgeb üsna kiiresti. See juhtus tänu SQL Joinsile ja GreenPlum arhitektuurile, mis võimaldab kustutamist.

Seega lisab GreenPlum delta, kasutades kustutamis- ja lisamismeetodit, kuid Hive'il pole kustutamis- ega värskendamistoiminguid, nii et kogu andmemassiv oli sunnitud järkjärgulise värskendamise ajal täielikult ümber kirjutama. Paksus kirjas esile tõstetud lahtrite võrdlus on kõige paljastavam, kuna see vastab kõige tavalisemale ressursimahukate allalaadimiste kasutamise võimalusele. Näeme, et GreenPlum võitis selles testis Hive'i 8 korda.

Ab Initio töötamine GreenPlumiga peaaegu reaalajas

Selles katses testime Ab Initio võimet värskendada GreenPlumi tabelit juhuslikult genereeritud andmetükkidega peaaegu reaalajas. Vaatleme GreenPlum tabelit dev42_1_db_usl.TESTING_SUBJ_org_finval, millega me töötame.

Sellega töötamiseks kasutame kolme Ab Initio graafikut:

1) Graph Create_test_data.mp – loob andmefailid HDFS-is 10 6 000 reaga 000 paralleellõime. Andmed on juhuslikud, nende struktuur on korraldatud meie tabelisse sisestamiseks

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

2) Graaf mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW genereeritud graafik, lähtestades andmete sisestamise meie tabelisse 10 paralleellõime (kasutatakse graafiku (1) genereeritud testiandmeid)

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

3) Graafik mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW poolt genereeritud graafik meie tabeli järkjärguliseks värskendamiseks 10 paralleellõime, kasutades graafiku (1) genereeritud osa värskelt saadud andmetest (delta)

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga

Käivitame alloleva skripti NRT-režiimis:

  • genereerida 6 000 000 testrida
  • sooritage esialgne laadimine, sisestage tühja tabelisse 6 000 000 testrida
  • korrake järkjärgulist allalaadimist 5 korda
    • genereerida 6 000 000 testrida
    • sisestage tabelisse 6 000 000 testrea järkjärguline lisamine (sel juhul seatakse kehtivusaeg kehtiv_to_ts vanadele andmetele ja lisatakse sama primaarvõtmega uuemad andmed)

See stsenaarium jäljendab teatud ärisüsteemi reaalset töörežiimi - üsna suur osa uutest andmetest ilmub reaalajas ja valatakse kohe GreenPlumi.

Vaatame nüüd skripti logi:

Alusta Create_test_data.input.pset 2020-06-04 11:49:11
Lõpetage Create_test_data.input.pset 2020-06-04 11:49:37
Alusta mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:49:37
Lõpetage mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:50:42
Alusta Create_test_data.input.pset 2020-06-04 11:50:42
Lõpetage Create_test_data.input.pset 2020-06-04 11:51:06
Alusta mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:51:06
Lõpetage mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:53:41
Alusta Create_test_data.input.pset 2020-06-04 11:53:41
Lõpetage Create_test_data.input.pset 2020-06-04 11:54:04
Alusta mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:54:04
Lõpetage mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:56:51
Alusta Create_test_data.input.pset 2020-06-04 11:56:51
Lõpetage Create_test_data.input.pset 2020-06-04 11:57:14
Alusta mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:57:14
Lõpetage mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 11:59:55
Alusta Create_test_data.input.pset 2020-06-04 11:59:55
Lõpetage Create_test_data.input.pset 2020-06-04 12:00:23
Alusta mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:00:23
Lõpetage mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:23
Alusta Create_test_data.input.pset 2020-06-04 12:03:23
Lõpetage Create_test_data.input.pset 2020-06-04 12:03:49
Alusta mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:03:49
Lõpetage mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset 2020-06-04 12:06:46

Selgub see pilt:

Graafik
Algusaeg
Lõpeta aeg
Pikkus

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Näeme, et 6 minutiga töödeldakse 000 000 3 juurdekasvurida, mis on üsna kiire.
Sihttabelis olevad andmed jaotati järgmiselt:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Kui teil on Sberi kaalud. Ab Initio kasutamine koos Hive ja GreenPlumiga
Näete sisestatud andmete vastavust graafikute käivitamise aegadele.
See tähendab, et saate käitada andmete järkjärgulist laadimist GreenPlumi Ab Initios väga suure sagedusega ja jälgida nende andmete GreenPlumi sisestamise suurt kiirust. Loomulikult ei saa seda käivitada kord sekundis, kuna Ab Initio, nagu iga ETL-i tööriist, nõuab käivitamisel aega, et "käivitada".

Järeldus

Ab Initiot kasutatakse praegu Sberbankis ühtse semantilise andmekihi (ESS) loomiseks. See projekt hõlmab erinevate pangandusüksuste oleku ühtse versiooni loomist. Teave pärineb erinevatest allikatest, mille koopiad valmistatakse ette Hadoopis. Ärivajadustest lähtuvalt koostatakse andmemudel ja kirjeldatakse andmete teisendusi. Ab Initio laadib teabe ESN-i ja allalaaditud andmed ei paku huvi mitte ainult ettevõttele iseenesest, vaid on ka andmeturgude loomise allikaks. Samas võimaldab toote funktsionaalsus kasutada vastuvõtjana erinevaid süsteeme (Hive, Greenplum, Teradata, Oracle), mis võimaldab lihtsasti ette valmistada ettevõtte jaoks vajalikes vormingutes andmeid.

Ab Initio võimalused on laiad, näiteks võimaldab kaasasolev MDW raamistik koostada tehnilisi ja äriajaloolisi andmeid karbist välja. Arendajate jaoks võimaldab Ab Initio mitte ratast uuesti leiutada, vaid kasutada paljusid olemasolevaid funktsionaalseid komponente, mis on sisuliselt andmetega töötamiseks vajalikud teegid.

Autor on Sberbank SberProfi DWH/BigData professionaalse kogukonna ekspert. SberProfi DWH/BigData professionaalne kogukond vastutab kompetentside arendamise eest sellistes valdkondades nagu Hadoopi ökosüsteem, Teradata, Oracle DB, GreenPlum, aga ka BI tööriistad Qlik, SAP BO, Tableau jne.

Allikas: www.habr.com

Lisa kommentaar