Gouvernance des données en interne

Hé Habr !

Les données sont l'atout le plus précieux d'une entreprise. Presque toutes les entreprises axées sur le numérique le déclarent. Il est difficile de contester cela : pas une seule grande conférence informatique n’est organisée sans discuter des approches de gestion, de stockage et de traitement des données.

Les données nous viennent de l'extérieur, elles sont également générées au sein de l'entreprise, et si nous parlons de données provenant d'une entreprise de télécommunications, alors pour les employés internes, il s'agit d'un réservoir d'informations sur le client, ses intérêts, ses habitudes et sa localisation. Avec un profilage et une segmentation appropriés, les offres publicitaires sont les plus efficaces. Cependant, dans la pratique, tout n’est pas si rose. Les données stockées par les entreprises peuvent être désespérément obsolètes, redondantes, répétitives ou leur existence est inconnue de tous, sauf d'un cercle restreint d'utilisateurs. ¯_(ツ)_/¯

Gouvernance des données en interne
En un mot, les données doivent être gérées efficacement - ce n'est qu'alors qu'elles deviendront un actif qui apportera de réels avantages et profits à l'entreprise. Malheureusement, résoudre les problèmes de gestion des données nécessite de surmonter de nombreuses complexités. Ils sont principalement dus à la fois à l’héritage historique sous la forme de « zoos » de systèmes et à l’absence de processus et d’approches unifiés pour leur gestion. Mais que signifie être « piloté par les données » ?

C'est exactement ce dont nous parlerons dans le cadre de la coupe, ainsi que la façon dont la pile open source nous a aidés.

Le concept de gestion stratégique des données Data Governance (DG) est déjà bien connu sur le marché russe, et les objectifs atteints par les entreprises grâce à sa mise en œuvre sont clairs et clairement déclarés. Notre entreprise n'a pas fait exception et s'est donné pour mission d'introduire le concept de gestion des données.

Alors, par où avons-nous commencé ? Pour commencer, nous nous sommes fixés des objectifs clés :

  1. Gardez nos données accessibles.
  2. Assurer la transparence du cycle de vie des données.
  3. Fournissez aux utilisateurs de l’entreprise des données cohérentes et cohérentes.
  4. Fournissez aux utilisateurs de l’entreprise des données vérifiées.

Il existe aujourd’hui une douzaine d’outils de classe Data Governance sur le marché des logiciels.

Gouvernance des données en interne

Mais après une analyse détaillée et une étude des solutions, nous avons enregistré un certain nombre de commentaires critiques pour nous-mêmes :

  • La plupart des fabricants proposent un ensemble complet de solutions qui, pour nous, sont redondantes et dupliquent les fonctionnalités existantes. De plus, coûteux en termes de ressources, intégration dans le paysage informatique actuel.
  • La fonctionnalité et l'interface sont conçues pour les technologues et non pour les utilisateurs finaux professionnels.
  • Faible taux de survie des produits et manque de mise en œuvre réussie sur le marché russe.
  • Coût élevé du logiciel et assistance supplémentaire.

Les critères et recommandations exprimés ci-dessus concernant la substitution des importations de logiciels pour les entreprises russes nous ont convaincus d'avancer vers notre propre développement sur une pile open source. La plateforme que nous avons choisie était Django, un framework gratuit et open source écrit en Python. Nous avons ainsi identifié des modules clés qui contribueront aux objectifs énoncés ci-dessus :

  1. Registre des rapports.
  2. Glossaire métier.
  3. Module de description des transformations techniques.
  4. Module de description du cycle de vie des données depuis la source jusqu'à l'outil BI.
  5. Module de contrôle de la qualité des données.

Gouvernance des données en interne

Registre des rapports

Selon les résultats d'études internes dans les grandes entreprises, lorsqu'ils résolvent des problèmes liés aux données, les employés passent 40 à 80 % de leur temps à les rechercher. Par conséquent, nous nous sommes fixé pour tâche de rendre ouvertes les informations sur les rapports existants qui n'étaient auparavant disponibles que pour les clients. Ainsi, nous réduisons le temps de génération de nouveaux rapports et assurons la démocratisation des données.

Gouvernance des données en interne

Le registre de reporting est devenu un guichet unique de reporting pour les utilisateurs internes de diverses régions, départements et divisions. Il consolide les informations sur les services d'information créés dans plusieurs référentiels d'entreprise de l'entreprise, et ils sont nombreux chez Rostelecom.

Mais le registre n’est pas seulement une liste sèche de rapports élaborés. Pour chaque rapport, nous fournissons les informations nécessaires à l'utilisateur pour en prendre connaissance :

  • brève description du rapport ;
  • profondeur de la disponibilité des données ;
  • segment de clientèle ;
  • outil de visualisation ;
  • nom du stockage d'entreprise ;
  • les exigences fonctionnelles de l'entreprise ;
  • lien vers le rapport ;
  • lien vers la demande d'accès ;
  • état de mise en œuvre.

Des analyses de niveau d'utilisation sont disponibles pour les rapports, et les rapports sont classés en haut de la liste en fonction des analyses de journaux basées sur le nombre d'utilisateurs uniques. Et ce n'est pas ça. En plus des caractéristiques générales, nous avons également fourni une description détaillée de la composition des attributs des rapports avec des exemples de valeurs et de méthodes de calcul. De tels détails donnent immédiatement à l'utilisateur une réponse si le rapport lui est utile ou non.

Le développement de ce module a constitué une étape importante dans la démocratisation des données et a considérablement réduit le temps nécessaire pour trouver l'information requise. En plus de réduire le temps de recherche, le nombre de demandes adressées à l'équipe d'assistance pour fournir des consultations a également diminué. Il est impossible de ne pas noter un autre résultat utile que nous avons obtenu en développant un registre unifié de rapports - en évitant l'élaboration de rapports en double pour différentes unités structurelles.

Glossaire métier

Vous savez tous que même au sein d’une même entreprise, les entreprises parlent des langues différentes. Oui, ils utilisent les mêmes termes, mais ils signifient des choses complètement différentes. Un glossaire métier est conçu pour résoudre ce problème.

Pour nous, un glossaire métier n'est pas seulement un ouvrage de référence avec une description des termes et une méthodologie de calcul. Il s'agit d'un environnement à part entière pour développer, convenir et approuver la terminologie, établir des relations entre les termes et d'autres actifs informationnels de l'entreprise. Avant d'entrer dans le glossaire métier, un terme doit passer par toutes les étapes d'approbation auprès des clients professionnels et du centre de qualité des données. Ce n’est qu’après cela qu’il devient disponible.

Comme je l'ai écrit ci-dessus, la particularité de cet outil est qu'il permet des connexions depuis le niveau d'un terme métier vers des rapports utilisateur spécifiques dans lesquels il est utilisé, ainsi qu'au niveau des objets physiques de la base de données.

Gouvernance des données en interne

Ceci est rendu possible grâce à l'utilisation d'identifiants de termes de glossaire dans la description détaillée des rapports de registre et la description des objets physiques de la base de données.

Actuellement, plus de 4000 XNUMX termes ont été définis et convenus dans le glossaire. Son utilisation simplifie et accélère le traitement des demandes entrantes d'évolution des systèmes d'information de l'entreprise. Si l'indicateur requis est déjà implémenté dans un rapport, l'utilisateur verra immédiatement un ensemble de rapports prêts à l'emploi dans lesquels cet indicateur est utilisé et pourra décider de la réutilisation efficace de la fonctionnalité existante ou de sa modification minimale, sans initier de nouvelles demandes pour l’élaboration d’un nouveau rapport.

Module de description des transformations techniques et DataLineage

Quels sont ces modules, demandez-vous ? Il ne suffit pas de simplement mettre en œuvre le registre de rapports et le glossaire ; il est également nécessaire de fonder tous les termes métier sur le modèle de base de données physique. Ainsi, nous avons pu achever le processus de formation du cycle de vie des données, depuis les systèmes sources jusqu'à la visualisation BI en passant par toutes les couches de l'entrepôt de données. En d’autres termes, créez un DataLineage.

Nous avons développé une interface basée sur le format utilisé auparavant dans l'entreprise pour décrire les règles et la logique de transformation des données. Les mêmes informations sont saisies via l'interface qu'auparavant, mais la définition du terme identifiant à partir du glossaire métier est devenue un prérequis. C’est ainsi que nous établissons une connexion entre les couches métier et physique.

Qui en a besoin ? Qu’est-ce qui n’allait pas avec l’ancien format avec lequel vous avez travaillé pendant plusieurs années ? Dans quelle mesure les coûts de main-d’œuvre pour générer les besoins ont-ils augmenté ? Nous avons dû traiter de telles questions lors de la mise en œuvre de l'outil. Les réponses ici sont assez simples : nous en avons tous besoin, le bureau de données de notre entreprise et nos utilisateurs.

En effet, les salariés ont dû s'adapter, ce qui a d'abord entraîné une légère augmentation des coûts de main-d'œuvre pour la préparation de la documentation, mais nous avons résolu ce problème. La pratique, l'identification et l'optimisation des zones problématiques ont fait leur travail. Nous avons réalisé l'essentiel : nous avons amélioré la qualité des exigences développées. Champs obligatoires, ouvrages de référence unifiés, masques de saisie, contrôles intégrés, tout cela a permis d'améliorer significativement la qualité des descriptions de transformation. Nous avons abandonné la pratique consistant à confier les scripts en tant qu'exigences de développement et à partager des connaissances qui n'étaient disponibles que pour l'équipe de développement. La base de données de métadonnées générée réduit considérablement le temps nécessaire pour effectuer une analyse de régression et offre la possibilité d'évaluer rapidement l'impact des changements sur n'importe quelle couche du paysage informatique (rapports de présentation, agrégats, sources).

Qu'est-ce que cela a à voir avec les utilisateurs ordinaires de rapports, quels sont les avantages pour eux ? Grâce à la possibilité de construire DataLineage, nos utilisateurs, même ceux qui sont éloignés de SQL et d'autres langages de programmation, reçoivent rapidement des informations sur les sources et les objets sur la base desquels un rapport particulier est généré.

Module de contrôle de la qualité des données

Tout ce dont nous avons parlé ci-dessus pour garantir la transparence des données n'est pas important sans comprendre que les données que nous fournissons aux utilisateurs sont correctes. L'un des modules importants de notre concept de gouvernance des données est le module de contrôle de la qualité des données.

Au stade actuel, il s'agit d'un catalogue de contrôles pour les entités sélectionnées. L'objectif immédiat du développement du produit est d'élargir la liste des contrôles et de l'intégrer au registre de reporting.
Que va-t-il apporter et à qui ? L'utilisateur final du registre aura accès aux informations sur les dates prévues et réelles de préparation du rapport, aux résultats des contrôles effectués avec dynamique et aux informations sur les sources chargées dans le rapport.

Pour nous, le module de qualité des données intégré à nos processus de travail est :

  • Formation rapide des attentes des clients.
  • Prendre des décisions sur l’utilisation ultérieure des données.
  • Obtention d'un ensemble préliminaire de points problématiques dès les premières étapes des travaux pour le développement de contrôles de qualité réguliers.

Bien entendu, ce sont les premières étapes vers la création d’un processus de gestion de données à part entière. Mais nous sommes convaincus que ce n'est qu'en effectuant ce travail de manière ciblée, en introduisant activement des outils de gouvernance des données dans le processus de travail, que nous fournirons à nos clients un contenu informatif, un niveau élevé de confiance dans les données, une transparence dans leur réception et augmenterons la vitesse de lancement. nouvelle fonctionnalité.

Équipe DataOffice

Source: habr.com

Ajouter un commentaire