Data mart DATA VAULT

In precedenza articoli, ci sono state introdotte le nozioni di base di DATA VAULT, espandendo DATA VAULT a uno stato più adatto per l'analisi e creando un BUSINESS DATA VAULT. È ora di concludere la serie con il terzo articolo.

Come avevo annunciato in precedenza Pubblicazione, questo articolo sarà dedicato al tema della BI, o meglio alla preparazione di DATA VAULT come fonte dati per la BI. Diamo un'occhiata a come creare tabelle dei fatti e delle dimensioni e quindi creare uno schema a stella.

Quando ho iniziato a studiare materiali in lingua inglese sull'argomento della creazione di data mart su DATA VAULT, ho avuto la sensazione che il processo fosse piuttosto complicato. Poiché gli articoli sono di dimensioni impressionanti, sono presenti riferimenti a cambiamenti nella formulazione apparsi nella metodologia Data Vault 2.0 e viene indicata l'importanza di tali formulazioni.

Tuttavia, dopo aver approfondito la traduzione, è diventato chiaro che questo processo non è così complicato. Ma forse avrai un'opinione diversa.

Quindi, arriviamo al punto.

Tabelle delle dimensioni e dei fatti in DATA VAULT

Le informazioni più difficili da comprendere:

  • Le tabelle di misurazione sono costruite sulle informazioni provenienti dagli hub e dai loro satelliti;
  • Le tabelle dei fatti sono costruite sulle informazioni provenienti dai collegamenti e dai loro satelliti.

E questo è ovvio dopo aver letto l'articolo su nozioni di base di DATA VAULT. Gli hub memorizzano le chiavi univoche degli oggetti business, i loro satelliti dello stato degli attributi degli oggetti business sono legati al tempo, i satelliti legati ai collegamenti che supportano le transazioni memorizzano le caratteristiche numeriche di queste transazioni.

Qui è dove sostanzialmente finisce la teoria.

Tuttavia, a mio avviso, è necessario notare un paio di concetti che possono apparire negli articoli sulla metodologia DATA VAULT:

  • Raw Data Mart: vetrine di dati "grezzi";
  • Information Marts – vetrine informative.

Il concetto di "Raw Data Mart" si riferisce a vetrine costruite sui dati DATA VAULT eseguendo JOIN abbastanza semplici. L'approccio “Raw Data Marts” consente di espandere in modo flessibile e rapido un progetto di magazzino con informazioni adatte all'analisi. Questo approccio non implica l'esecuzione di complesse trasformazioni dei dati e l'esecuzione di regole aziendali prima di inserirli nel negozio, tuttavia, i dati "Raw Data Mart" dovrebbero essere comprensibili per l'utente aziendale e destinati a servire come base per un'ulteriore trasformazione, ad esempio, con gli strumenti di BI.

Il concetto di “Information Mart” è apparso nella metodologia Data Vault 2.0, ha sostituito il vecchio concetto di “Data Mart”. Questo cambiamento è dovuto alla consapevolezza del compito di implementare un modello di dati per la creazione di report come conversione dei dati in informazioni. Il sistema Information Marts dovrebbe innanzitutto fornire alle imprese informazioni utili al processo decisionale.

Le definizioni piuttosto prolisse riflettono due semplici fatti:

  1. Vetrine come i “Raw Data Mart” sono costruite su un DATA VAULT grezzo (RAW), un archivio contenente solo concetti di base: HUB, LINK, SATELLITI;
  2. Le vetrine “Information Marts” sono realizzate utilizzando gli elementi BUSINESS VAULT: PIT, BRIDGE.

Se guardiamo esempi di memorizzazione di informazioni su un dipendente, possiamo dire che una vetrina che mostra il numero di telefono attuale (valido per oggi) di un dipendente è una vetrina del tipo “Raw Data Marts”. Per creare una tale vetrina, vengono utilizzate la chiave aziendale del dipendente e la funzione MAX(), utilizzata sull'attributo della data di caricamento del satellite (MAX(SatLoadDate)). Quando è necessario memorizzare la cronologia delle modifiche agli attributi nella vetrina - viene utilizzata, è necessario capire da quale data il telefono era rilevante, la chiave primaria di tale tabella sarà una compilazione della chiave aziendale e della data di caricare sul satellite e viene aggiunto anche il campo della data di fine del periodo di rilevanza.

La creazione di una vetrina che memorizzi le informazioni attuali per ciascun attributo di diversi satelliti inclusi nell'hub, ad esempio numero di telefono, indirizzo, nome completo, comporta l'uso di una tabella PIT, accedendo alla quale è facile ottenere tutte le date rilevanti. Vetrine di questo tipo vengono chiamate "Information Marts".

Entrambi gli approcci sono rilevanti sia per le misurazioni che per i fatti.

Per creare vetrine che memorizzano informazioni su diversi collegamenti e hub, è possibile utilizzare l'accesso alle tabelle BRIDGE.

Con questo articolo concludo la serie sul concetto di DATA VAULT; spero che le informazioni che ho condiviso possano essere utili nella realizzazione dei vostri progetti.

Come sempre, per concludere, qualche link utile:

  • Статья Kenta Graziano, che, oltre ad una descrizione dettagliata, contiene schemi di modelli;

Fonte: habr.com

Aggiungi un commento