Razvoj DATA VAULT-a i prelazak na BUSINESS DATA VAULT

U prethodnom članku govorio sam o osnovama DATA VULT-a, opisao glavne elemente DATA VULT-a i njihovu svrhu. Ovim se tema DATA VAULT-a ne može smatrati iscrpljenom, potrebno je govoriti o sljedećim koracima u evoluciji DATA VAULT-a.

A u ovom članku ću se fokusirati na razvoj DATA VAULT-a i prelazak na BUSINESS DATA VAULT ili jednostavno BUSINESS VAULT.

Razlozi za pojavu TREZORA POSLOVNIH PODATAKA

Treba napomenuti da DATA VAULT, iako ima određene prednosti, nije bez nedostataka. Jedan od tih nedostataka je poteškoća u pisanju analitičkih upita. Upiti imaju značajan broj JOIN-ova, kod je dug i glomazan. Također, podaci koji ulaze u DATA VAULT ne podliježu nikakvim transformacijama, stoga, s poslovne točke gledišta, DATA VAULT u svom čistom obliku nema apsolutnu vrijednost.

Da bi se uklonili ti nedostaci, metodologija DATA VAULT proširena je elementima kao što su:

  • PIT (point in time) tablice;
  • BRIDGE stolovi;
  • PREDEFINIRANE DERIVACIJE.

Pogledajmo pobliže svrhu ovih elemenata.

PIT tablice

Tipično, jedan poslovni subjekt (HUB) može sadržavati podatke s različitim stopama ažuriranja, na primjer, ako govorimo o podacima koji karakteriziraju osobu, možemo reći da informacija o telefonskom broju, adresi ili e-pošti ima veću stopu ažuriranja od npr. puno ime, podatke o putovnici, bračni status ili spol.

Stoga, pri određivanju satelita, trebate imati na umu njihovu učestalost ažuriranja. Zašto je to važno?

Ako pohranjujete atribute s različitim stopama ažuriranja u istoj tablici, morat ćete dodati red u tablicu svaki put kada se ažurira najčešće mijenjani atribut. Rezultat je povećanje prostora na disku i povećanje vremena izvršavanja upita.

Sada kada smo podijelili satelite prema učestalosti ažuriranja i možemo neovisno učitavati podatke u njih, trebali bismo osigurati da možemo primati ažurne podatke. Bolje, bez korištenja nepotrebnih JOIN-ova.

Dopustite mi da objasnim, na primjer, trebate dobiti trenutne (prema datumu posljednjeg ažuriranja) informacije sa satelita koji imaju različite stope ažuriranja. Da biste to učinili, morat ćete ne samo napraviti JOIN, već i stvoriti nekoliko ugniježđenih upita (za svaki satelit koji sadrži informacije) s odabirom maksimalnog datuma ažuriranja MAX (Datum ažuriranja). Svakim novim JOIN-om takav kod raste i vrlo brzo postaje teško razumljiv.

PIT tablica je dizajnirana da pojednostavi takve upite; PIT tablice se popunjavaju istovremeno s upisivanjem novih podataka u DATA VAULT. PIT tablica:

Razvoj DATA VAULT-a i prelazak na BUSINESS DATA VAULT

Dakle, imamo informacije o relevantnosti podataka za sve satelite u svakom trenutku. Korištenjem JOIN-ova u PIT tablici možemo potpuno eliminirati ugniježđene upite, naravno uz uvjet da se PIT puni svaki dan i bez praznina. Čak i ako postoje praznine u PIT-u, najnovije podatke možete dobiti samo pomoću jednog ugniježđenog upita za sam PIT. Jedan ugniježđeni upit obradit će se brže od ugniježđenih upita za svaki satelit.

MOST

BRIDGE tablice također se koriste za pojednostavljenje analitičkih upita. Međutim, ono što se razlikuje od PIT-a je način pojednostavljenja i ubrzanja zahtjeva između različitih čvorišta, veza i njihovih satelita.

Tablica sadrži sve potrebne ključeve za sve satelite, koji se često koriste u upitima. Osim toga, ako je potrebno, hashirani poslovni ključevi mogu se nadopuniti ključevima u tekstualnom obliku ako su nazivi ključeva potrebni za analizu.

Činjenica je da će bez korištenja BRIDGE-a, u procesu primanja podataka koji se nalaze u satelitima koji pripadaju različitim čvorištima, biti potrebno napraviti JOIN ne samo samih satelita, već i veza koje povezuju čvorišta.

Prisutnost ili odsutnost BRIDGE-a određena je konfiguracijom pohrane i potrebom da se optimizira brzina izvršenja upita. Teško je smisliti univerzalni primjer BRIGE.

PREDEFINIRANE DERIVACIJE

Druga vrsta objekata koji nas približava TREZORU POSLOVNIH PODATAKA su tablice koje sadrže unaprijed izračunate pokazatelje. Takve su tablice vrlo važne za poslovanje, sadrže podatke agregirane prema zadanim pravilima i čine ih relativno lakima dostupnima.

Arhitektonski, PREDEFINIRANE DERIVACIJE nisu ništa više od još jednog satelita određenog čvorišta. On, kao i obični satelit, sadrži poslovni ključ i datum stvaranja zapisa u satelitu. Međutim, tu sličnosti prestaju. Daljnji sastav atributa takvog "specijaliziranog" satelita određuju poslovni korisnici na temelju najpopularnijih, unaprijed izračunatih pokazatelja.

Na primjer, središte koje sadrži podatke o zaposleniku može uključivati ​​satelit s indikatorima kao što su:

  • Minimalna plaća;
  • Maksimalna plaća;
  • Prosječna plaća;
  • Kumulativno obračunate plaće itd.

Logično je uključiti PREDEFINIRANE DERIVACIJE u PIT tablicu istog čvorišta, tada možete jednostavno dobiti podatkovne isječke za zaposlenika na posebno odabrani datum.

ZAKLJUČCI

Kao što pokazuje praksa, korištenje DATA VAULT-a od strane poslovnih korisnika donekle je teško iz nekoliko razloga:

  • Kôd upita je složen i glomazan;
  • Obilje JOIN-ova utječe na izvedbu upita;
  • Pisanje analitičkih upita zahtijeva izvanredno poznavanje dizajna pohrane.

Kako bi se pojednostavio pristup podacima, DATA VAULT je proširen dodatnim objektima:

  • PIT (point in time) tablice;
  • BRIDGE stolovi;
  • PREDEFINIRANE DERIVACIJE.

Sljedeći članak Planiram reći, po mom mišljenju, najzanimljiviju stvar za one koji rade s BI. Predstavit ću načine za izradu tablica činjenica i dimenzijskih tablica na temelju DATA VAULT-a.

Materijali članka temelje se na:

  • Na Publikacija Kenta Graziano, koji osim detaljnog opisa sadrži dijagrame modela;
  • Knjiga: “Izgradnja skalabilnog skladišta podataka s DATA VAULT 2.0”;
  • članak Osnove trezora podataka.

Izvor: www.habr.com

Dodajte komentar