Data Governance im eigenen Haus

Hey Habr!

Daten sind das wertvollste Gut eines Unternehmens. Das erklärt nahezu jedes Unternehmen mit digitalem Fokus. Dem lässt sich kaum widersprechen: Keine einzige große IT-Konferenz findet statt, ohne dass Ansätze zur Verwaltung, Speicherung und Verarbeitung von Daten diskutiert werden.

Daten kommen von außen zu uns, sie werden auch innerhalb des Unternehmens generiert, und wenn wir über Daten eines Telekommunikationsunternehmens sprechen, dann ist dies für interne Mitarbeiter ein Informationsspeicher über den Kunden, seine Interessen, Gewohnheiten und seinen Standort. Mit der richtigen Profilierung und Segmentierung sind Werbeangebote am effektivsten. Allerdings ist in der Praxis nicht alles so rosig. Die von Unternehmen gespeicherten Daten können hoffnungslos veraltet, redundant oder sich wiederholend sein oder ihre Existenz ist niemandem außer einem engen Benutzerkreis bekannt. ¯_(ツ)_/¯

Data Governance im eigenen Haus
Kurz gesagt: Daten müssen effektiv verwaltet werden – nur dann werden sie zu einem Vermögenswert, der dem Unternehmen echten Nutzen und Gewinn bringt. Leider erfordert die Lösung von Datenverwaltungsproblemen die Bewältigung zahlreicher Komplexitäten. Sie sind hauptsächlich auf das historische Erbe in Form von „Zoos“ von Systemen und das Fehlen einheitlicher Prozesse und Ansätze zu deren Verwaltung zurückzuführen. Aber was bedeutet es, „datengesteuert“ zu sein?

Genau darüber werden wir im Folgenden sprechen und darüber, wie uns der OpenSource-Stack geholfen hat.

Das Konzept des strategischen Datenmanagements Data Governance (DG) ist auf dem russischen Markt bereits recht bekannt und die von der Wirtschaft durch seine Umsetzung erreichten Ziele sind klar und deutlich erklärt. Auch unser Unternehmen machte da keine Ausnahme und hat es sich zur Aufgabe gemacht, das Konzept des Datenmanagements einzuführen.

Wo haben wir also angefangen? Zunächst haben wir uns wichtige Ziele gesetzt:

  1. Halten Sie unsere Daten zugänglich.
  2. Sorgen Sie für Transparenz im Datenlebenszyklus.
  3. Stellen Sie Unternehmensbenutzern konsistente, konsistente Daten zur Verfügung.
  4. Stellen Sie Unternehmensbenutzern verifizierte Daten zur Verfügung.

Heutzutage gibt es auf dem Softwaremarkt ein Dutzend Tools der Data Governance-Klasse.

Data Governance im eigenen Haus

Aber nach einer detaillierten Analyse und Untersuchung der Lösungen haben wir für uns selbst eine Reihe kritischer Kommentare aufgenommen:

  • Die meisten Hersteller bieten ein umfassendes Lösungspaket an, das für uns redundant ist und bestehende Funktionalitäten dupliziert. Hinzu kommt der hohe Ressourcenaufwand und die Integration in die aktuelle IT-Landschaft.
  • Die Funktionalität und Schnittstelle sind für Technologen konzipiert, nicht für geschäftliche Endbenutzer.
  • Geringe Überlebensrate der Produkte und Mangel an erfolgreichen Implementierungen auf dem russischen Markt.
  • Hohe Kosten für Software und weiteren Support.

Die oben geäußerten Kriterien und Empfehlungen zur Importsubstitution von Software für russische Unternehmen haben uns überzeugt, unsere eigene Entwicklung auf einem Open-Source-Stack voranzutreiben. Als Plattform wählten wir Django, ein kostenloses und in Python geschriebenes Open-Source-Framework. Und so haben wir Schlüsselmodule identifiziert, die zu den oben genannten Zielen beitragen werden:

  1. Register der Berichte.
  2. Wirtschaftsglossar.
  3. Modul zur Beschreibung technischer Transformationen.
  4. Modul zur Beschreibung des Datenlebenszyklus von der Quelle bis zum BI-Tool.
  5. Modul zur Datenqualitätskontrolle.

Data Governance im eigenen Haus

Register der Berichte

Nach den Ergebnissen interner Studien in großen Unternehmen verbringen Mitarbeiter bei der Lösung datenbezogener Probleme 40-80 % ihrer Zeit mit der Suche danach. Deshalb haben wir es uns zur Aufgabe gemacht, Informationen über bestehende Berichte, die bisher nur Kunden zugänglich waren, offen zugänglich zu machen. Dadurch verkürzen wir die Zeit für die Erstellung neuer Berichte und sorgen für die Demokratisierung der Daten.

Data Governance im eigenen Haus

Das Melderegister ist zu einem einzigen Meldefenster für interne Benutzer aus verschiedenen Regionen, Abteilungen und Abteilungen geworden. Es konsolidiert Informationen zu Informationsdiensten, die in mehreren Unternehmensrepositorys des Unternehmens erstellt wurden, und davon gibt es viele in Rostelecom.

Das Register ist jedoch nicht nur eine trockene Liste entwickelter Berichte. Für jeden Bericht stellen wir die Informationen bereit, die der Benutzer benötigt, um sich damit vertraut zu machen:

  • kurze Beschreibung des Berichts;
  • Tiefe der Datenverfügbarkeit;
  • Kunden Bereich;
  • Visualisierungstool;
  • Name des Unternehmensspeichers;
  • Geschäftsfunktionale Anforderungen;
  • Link zum Bericht;
  • Link zum Antrag auf Zugang;
  • Umsetzungsstand.

Für Berichte stehen Analysen auf Nutzungsebene zur Verfügung, und Berichte werden basierend auf der Protokollanalyse basierend auf der Anzahl der eindeutigen Benutzer ganz oben in der Liste eingestuft. Und das ist es nicht. Zusätzlich zu den allgemeinen Merkmalen haben wir auch eine detaillierte Beschreibung der Attributzusammensetzung der Berichte mit Beispielen für Werte und Berechnungsmethoden bereitgestellt. Eine solche Detaillierung gibt dem Benutzer sofort eine Antwort darauf, ob der Bericht für ihn nützlich ist oder nicht.

Die Entwicklung dieses Moduls war ein wichtiger Schritt in der Demokratisierung von Daten und hat die Zeit, die zum Auffinden der benötigten Informationen benötigt wird, deutlich verkürzt. Neben der Verkürzung der Suchzeit ist auch die Anzahl der Anfragen an das Support-Team zur Beratung zurückgegangen. Es ist unmöglich, ein weiteres nützliches Ergebnis zu erwähnen, das wir durch die Entwicklung eines einheitlichen Berichtsregisters erzielt haben – die Vermeidung der Entwicklung doppelter Berichte für verschiedene Struktureinheiten.

Wirtschaftsglossar

Sie alle wissen, dass Unternehmen selbst innerhalb desselben Unternehmens unterschiedliche Sprachen sprechen. Ja, sie verwenden die gleichen Begriffe, aber sie meinen völlig unterschiedliche Dinge. Ein Business-Glossar soll dieses Problem lösen.

Für uns ist ein Wirtschaftsglossar nicht nur ein Nachschlagewerk mit Begriffsbeschreibung und Berechnungsmethodik. Dabei handelt es sich um eine vollwertige Umgebung für die Entwicklung, Vereinbarung und Genehmigung von Terminologie sowie den Aufbau von Beziehungen zwischen Begriffen und anderen Informationsressourcen des Unternehmens. Bevor ein Begriff in das Business-Glossar aufgenommen wird, muss er alle Phasen der Genehmigung mit Geschäftskunden und dem Data Quality Center durchlaufen. Erst danach steht es zur Nutzung zur Verfügung.

Wie ich oben geschrieben habe, besteht die Einzigartigkeit dieses Tools darin, dass es Verbindungen von der Ebene eines Geschäftsbegriffs zu spezifischen Benutzerberichten, in denen es verwendet wird, sowie zur Ebene physischer Datenbankobjekte ermöglicht.

Data Governance im eigenen Haus

Dies wird durch die Verwendung von Glossarbegriffskennungen in der detaillierten Beschreibung von Registrierungsberichten und der Beschreibung physischer Datenbankobjekte ermöglicht.

Derzeit sind im Glossar mehr als 4000 Begriffe definiert und vereinbart. Sein Einsatz vereinfacht und beschleunigt die Bearbeitung eingehender Änderungswünsche in den Informationssystemen des Unternehmens. Wenn der erforderliche Indikator bereits in einem Bericht implementiert ist, sieht der Benutzer sofort eine Reihe vorgefertigter Berichte, in denen dieser Indikator verwendet wird, und kann ohne Initiierung über die effektive Wiederverwendung vorhandener Funktionen oder deren minimale Änderung entscheiden neue Anfragen für die Entwicklung eines neuen Berichts.

Modul zur Beschreibung technischer Transformationen und DataLineage

Was sind das für Module, fragen Sie? Es reicht nicht aus, lediglich das Berichtsregister und das Glossar zu implementieren; es ist auch notwendig, alle Geschäftsbegriffe auf dem physischen Datenbankmodell zu verankern. Dadurch konnten wir den Prozess der Gestaltung des Datenlebenszyklus von den Quellsystemen bis zur BI-Visualisierung durch alle Schichten des Data Warehouse abschließen. Mit anderen Worten: Erstellen Sie eine DataLineage.

Wir haben eine Schnittstelle entwickelt, die auf dem bisher im Unternehmen verwendeten Format zur Beschreibung der Regeln und Logik der Datentransformation basiert. Über die Schnittstelle werden die gleichen Informationen eingegeben wie bisher, allerdings ist die Definition des Begriffs Identifikator aus dem Wirtschaftsglossar zur Voraussetzung geworden. So bauen wir eine Verbindung zwischen der geschäftlichen und der physischen Ebene auf.

Wer braucht es? Was stimmte mit dem alten Format, mit dem Sie mehrere Jahre lang gearbeitet haben, nicht? Wie stark sind die Arbeitskosten für die Bedarfsgenerierung gestiegen? Mit solchen Fragen mussten wir uns bei der Implementierung des Tools auseinandersetzen. Die Antworten hier sind ganz einfach: Wir alle brauchen das, das Datenbüro unseres Unternehmens und unsere Benutzer.

Tatsächlich mussten sich die Mitarbeiter anpassen; dies führte zunächst zu einem leichten Anstieg der Arbeitskosten für die Erstellung der Dokumentation, aber wir haben dieses Problem gelöst. Übung, Problembereiche erkennen und optimieren haben ihren Zweck erfüllt. Wir haben das Wichtigste erreicht – wir haben die Qualität der entwickelten Anforderungen verbessert. Pflichtfelder, einheitliche Nachschlagewerke, Eingabemasken, integrierte Prüfungen – all dies ermöglichte es, die Qualität der Transformationsbeschreibungen deutlich zu verbessern. Wir haben uns von der Praxis verabschiedet, Skripte als Entwicklungsanforderungen zu übergeben und Wissen zu teilen, das nur dem Entwicklungsteam zur Verfügung stand. Die generierte Metadatendatenbank reduziert den Zeitaufwand für die Durchführung einer Regressionsanalyse erheblich und bietet die Möglichkeit, die Auswirkungen von Änderungen auf jeder Ebene der IT-Landschaft (Showcase-Berichte, Aggregate, Quellen) schnell zu bewerten.

Was hat das mit normalen Nutzern von Reports zu tun, welche Vorteile ergeben sich für sie? Dank der Möglichkeit, DataLineage zu erstellen, erhalten unsere Benutzer, auch diejenigen, die weit von SQL und anderen Programmiersprachen entfernt sind, schnell Informationen über die Quellen und Objekte, auf deren Grundlage ein bestimmter Bericht erstellt wird.

Modul zur Datenqualitätskontrolle

Alles, worüber wir oben im Hinblick auf die Gewährleistung der Datentransparenz gesprochen haben, ist nicht wichtig, ohne zu verstehen, dass die Daten, die wir den Benutzern geben, korrekt sind. Eines der wichtigen Module unseres Data Governance-Konzepts ist das Modul zur Datenqualitätskontrolle.

Derzeit handelt es sich um einen Prüfkatalog für ausgewählte Entitäten. Das unmittelbare Ziel der Produktentwicklung besteht darin, die Prüfliste zu erweitern und in das Melderegister zu integrieren.
Was wird es geben und wem? Der Endbenutzer des Registers hat Zugriff auf Informationen über die geplanten und tatsächlichen Daten der Berichtsbereitschaft, die Ergebnisse abgeschlossener Prüfungen mit Dynamik sowie Informationen über die in den Bericht geladenen Quellen.

Das in unsere Arbeitsprozesse integrierte Datenqualitätsmodul ist für uns:

  • Rechtzeitige Bildung der Kundenerwartungen.
  • Entscheidungen über die weitere Verwendung von Daten treffen.
  • Einholen eines vorläufigen Satzes von Problempunkten in den Anfangsphasen der Arbeit für die Entwicklung regelmäßiger Qualitätskontrollen.

Dies sind natürlich die ersten Schritte zum Aufbau eines vollwertigen Datenverwaltungsprozesses. Wir sind jedoch zuversichtlich, dass wir unseren Kunden nur durch die gezielte Durchführung dieser Arbeit und die aktive Einführung von Data-Governance-Tools in den Arbeitsprozess Informationsgehalt, ein hohes Maß an Vertrauen in die Daten, Transparenz bei deren Empfang und eine Erhöhung der Einführungsgeschwindigkeit bieten können neue Funktionalität.

DataOffice-Team

Source: habr.com

Kommentar hinzufügen