Datamarts DATA VAULT

Précédemment des articles, nous avons vu les bases de DATA VAULT, en étendant DATA VAULT à un état plus analysable et en créant un BUSINESS DATA VAULT. Il est temps de terminer la série avec le troisième article.

Comme je l'ai annoncé dans le précédent Publication, cet article se concentrera sur le sujet de la BI, ou plutôt sur la préparation de DATA VAULT en tant que source de données pour la BI. Voyons comment créer des tables de faits et de dimension et ainsi créer un schéma en étoile.

Lorsque j'ai commencé à étudier des documents en anglais sur le thème de la création de magasins de données sur DATA VAULT, j'ai eu le sentiment que le processus était plutôt compliqué. Étant donné que les articles sont d'une longueur considérable, il y a des références à des changements dans la formulation qui sont apparus dans la méthodologie Data Vault 2.0, l'importance de ces formulations est indiquée.

Cependant, après avoir plongé dans la traduction, il est devenu clair que ce processus n'est pas si compliqué. Mais vous pouvez avoir une opinion différente.

Et donc, venons-en au fait.

Tables de dimensions et de faits dans DATA VAULT

Les informations les plus difficiles à comprendre :

  • Les tableaux de mesures sont construits à partir des informations des hubs et de leurs satellites ;
  • Les tables de faits sont construites sur les informations des liens et de leurs satellites.

Et c'est évident après avoir lu l'article sur Bases de DATA VAULT. Les concentrateurs stockent les clés uniques des objets métier, leurs satellites temporels de l'état des attributs des objets métier, les satellites liés aux liens supportant les transactions stockent les caractéristiques numériques de ces transactions.

C'est là que la théorie se termine essentiellement.

Mais, néanmoins, à mon avis, il est nécessaire de noter quelques concepts que l'on peut trouver dans les articles sur la méthodologie DATA VAULT :

  • Raw Data Marts - vitrines de données "brutes" ;
  • Information Marts - vitrines d'information.

Le concept de "Raw Data Marts" - désigne les marts construits sur des données DATA VAULT en effectuant des JOIN assez simples. L'approche "Raw Data Marts" vous permet d'étendre de manière flexible et rapide le projet d'entrepôt avec des informations adaptées à l'analyse. Cette approche n'implique pas d'effectuer des transformations de données complexes et d'exécuter des règles métier avant d'être placées dans la vitrine, cependant, les données Raw Data Marts doivent être compréhensibles pour l'utilisateur professionnel et doivent servir de base à une transformation ultérieure, par exemple, par des outils de BI. .

Le concept de « Information Marts » est apparu dans la méthodologie Data Vault 2.0, il a remplacé l'ancien concept de « Data Marts ». Ce changement est dû à la réalisation de la tâche de mise en œuvre d'un modèle de données pour le reporting en tant que transformation des données en informations. Le dispositif « Information Marts » doit tout d'abord fournir à l'entreprise des informations adaptées à la prise de décision.

Des définitions plutôt verbeuses reflètent deux faits simples :

  1. Les vitrines de type « Raw Data Marts » sont construites sur un DATA VAULT brut (RAW), un référentiel ne contenant que les concepts de base : HUBS, LINKS, SATELLITES ;
  2. Les vitrines "Information Marts" sont construites à l'aide d'éléments de BUSINESS VAULT : PIT, BRIDGE.

Si nous nous tournons vers des exemples de stockage d'informations sur un employé, nous pouvons dire qu'une vitrine qui affiche le numéro de téléphone actuel (actuel) d'un employé est une vitrine de type "Raw Data Marts". Pour constituer une telle vitrine, la clé métier de l'employé et la fonction MAX() utilisée sur l'attribut de date de chargement du satellite (MAX(SatLoadDate)) sont utilisées. Lorsqu'il est nécessaire de stocker l'historique des modifications d'attributs dans la vitrine - il est utilisé, vous devez comprendre de quelle date à quelle date le téléphone était à jour, la compilation de la clé métier et la date de chargement sur le satellite ajoutera la clé primaire à une telle table, le champ de la date de fin de la période de validité est également ajouté.

La création d'une vitrine qui stocke des informations à jour pour chaque attribut de plusieurs satellites inclus dans le hub, par exemple, numéro de téléphone, adresse, nom complet, implique l'utilisation d'une table PIT, à travers laquelle il est facile d'accéder à toutes les dates de pertinence. Les vitrines de ce type sont appelées « marchés d'information ».

Les deux approches sont pertinentes tant pour les mesures que pour les faits.

Pour créer des vitrines qui stockent des informations sur plusieurs liens et hubs, l'accès aux tables BRIDGE peut être utilisé.

Avec cet article, je complète le cycle sur le concept de DATA VAULT, j'espère que les informations que j'ai partagées seront utiles dans la mise en place de vos projets.

Comme toujours, en conclusion, quelques liens utiles :

  • Статья Kenta Graziano, qui, en plus d'une description détaillée, contient des schémas modèles ;

Source: habr.com

Ajouter un commentaire