Desenvolupament de DATA VAULT i transició a BUSINESS DATA VAULT

A l'article anterior, vaig parlar dels conceptes bàsics de DATA VAULT, vaig descriure els elements principals de DATA VAULT i la seva finalitat. Aquest no es pot considerar esgotat el tema de DATA VAULT, cal parlar dels propers passos en l'evolució de DATA VAULT.

I en aquest article em centraré en el desenvolupament de DATA VAULT i la transició a BUSINESS DATA VAULT o simplement BUSINESS VAULT.

Motius de l'aparició de BUSINESS DATA VAULT

Cal tenir en compte que DATA VAULT, tot i que té certs punts forts, no està exempt de inconvenients. Un d'aquests inconvenients és la dificultat per escriure consultes analítiques. Les consultes tenen un nombre important de JOIN, el codi és llarg i feixuc. Així mateix, les dades que ingressen a DATA VAULT no pateixen cap transformació, per tant, des del punt de vista empresarial, DATA VAULT en la seva forma pura no té valor absolut.

Va ser per eliminar aquestes mancances que es va ampliar la metodologia DATA VAULT amb elements com ara:

  • Taules PIT (punt en el temps);
  • taules BRIDGE;
  • DERIVACIONS PREDEFINITES.

Fem una ullada més de prop a la finalitat d'aquests elements.

Taules PIT

Normalment, una entitat comercial (HUB) pot contenir dades amb diferents taxes d'actualització, per exemple, si parlem de dades que caracteritzen una persona, podem dir que la informació sobre un número de telèfon, adreça o correu electrònic té una taxa d'actualització més alta que, per exemple, nom complet, dades del passaport, estat civil o sexe.

Per tant, a l'hora de determinar els satèl·lits, heu de tenir en compte la seva freqüència d'actualització. Per què és important?

Si emmagatzemeu atributs amb diferents percentatges d'actualització a la mateixa taula, haureu d'afegir una fila a la taula cada vegada que s'actualitzi l'atribut que es canvia amb més freqüència. El resultat és un augment de l'espai en disc i un augment del temps d'execució de la consulta.

Ara que hem dividit els satèl·lits per freqüència d'actualització i podem carregar-hi dades de manera independent, hauríem d'assegurar-nos que podem rebre dades actualitzades. Millor, sense utilitzar JOIN innecessaris.

Permeteu-me explicar, per exemple, que necessiteu obtenir informació actual (segons la data de l'última actualització) de satèl·lits que tenen diferents taxes d'actualització. Per fer-ho, caldrà no només fer un JOIN, sinó també crear diverses consultes imbricades (per a cada satèl·lit que conté informació) amb la selecció de la data màxima d'actualització MAX (Data d'actualització). Amb cada nou JOIN, aquest codi creix i molt ràpidament es fa difícil d'entendre.

La taula PIT està dissenyada per simplificar aquestes consultes; les taules PIT s'omplen simultàniament amb l'escriptura de dades noves al DATA VAULT. Taula PIT:

Desenvolupament de DATA VAULT i transició a BUSINESS DATA VAULT

Així, tenim informació sobre la rellevància de les dades per a tots els satèl·lits en cada moment. Utilitzant JOIN a la taula PIT, podem eliminar completament les consultes imbricades, naturalment amb la condició que el PIT s'ompli cada dia i sense buits. Fins i tot si hi ha buits al PIT, només podeu obtenir les dades més recents mitjançant una consulta imbricada al PIT mateix. Una consulta imbricada processarà més ràpidament que les consultes imbricades a cada satèl·lit.

PUENTE

Les taules BRIDGE també s'utilitzen per simplificar les consultes analítiques. Tanmateix, el que es diferencia de PIT és un mitjà per simplificar i accelerar les sol·licituds entre diversos concentradors, enllaços i els seus satèl·lits.

La taula conté totes les claus necessàries per a tots els satèl·lits, que s'utilitzen sovint en les consultes. A més, si cal, les claus comercials hash es poden complementar amb claus en forma de text si els noms de les claus són necessaris per a l'anàlisi.

El cas és que sense utilitzar BRIDGE, en el procés de recepció de dades localitzades en satèl·lits pertanyents a diferents hubs, caldrà fer un JOIN no només dels propis satèl·lits, sinó també dels enllaços que connecten els hubs.

La presència o absència de BRIDGE ve determinada per la configuració d'emmagatzematge i la necessitat d'optimitzar la velocitat d'execució de la consulta. És difícil trobar un exemple universal de BRIGE.

DERIVACIONS PREDEFINITES

Un altre tipus d'objectes que ens apropen a la BOVETGE DE DADES EMPRESARIALS són les taules que contenen indicadors precalculats. Aquestes taules són realment importants per a les empreses; contenen informació agregada segons regles donades i fan que sigui relativament fàcil d'accedir.

Arquitectònicament, LES DERIVACIONS PREDEFINIDES no són més que un altre satèl·lit d'un determinat hub. Com un satèl·lit normal, conté una clau comercial i la data de creació del registre al satèl·lit. Aquí és on acaben, però, les similituds. La composició addicional dels atributs d'aquest satèl·lit "especialitzat" està determinada pels usuaris empresarials en funció dels indicadors més populars i precalculats.

Per exemple, un centre que conté informació sobre un empleat pot incloure un satèl·lit amb indicadors com ara:

  • Salari mínim;
  • Salari màxim;
  • Salari mitjà;
  • Total acumulat de salaris meritats, etc.

És lògic incloure DERIVACIONS PREDEFINIDES a la taula PIT del mateix centre, aleshores podeu obtenir fàcilment fragments de dades per a un empleat en una data específicament seleccionada.

CONCLUSIONS

Com mostra la pràctica, l'ús de DATA VAULT per part dels usuaris empresarials és una mica difícil per diverses raons:

  • El codi de consulta és complex i feixuc;
  • L'abundància de JOIN afecta el rendiment de les consultes;
  • La redacció de consultes analítiques requereix un coneixement excel·lent del disseny d'emmagatzematge.

Per simplificar l'accés a les dades, DATA VAULT s'amplia amb objectes addicionals:

  • Taules PIT (punt en el temps);
  • taules BRIDGE;
  • DERIVACIONS PREDEFINITES.

Pròxim article Penso explicar, al meu entendre, el més interessant per als que treballen amb BI. Presentaré maneres de crear taules de fets i taules de dimensions basades en DATA VAULT.

Els materials de l'article es basen en:

  • En Publicació Kenta Graziano, que, a més d'una descripció detallada, conté diagrames de models;
  • Llibre: "Construir un magatzem de dades escalable amb DATA VAULT 2.0";
  • Article Conceptes bàsics de Data Vault.

Font: www.habr.com

Afegeix comentari