Databeheer in eigen beheer

Hé Habr!

Data zijn het meest waardevolle bezit van een bedrijf. Vrijwel elk bedrijf met een digitale focus geeft dit aan. Het is moeilijk om dit tegen te spreken: er wordt geen enkele grote IT-conferentie gehouden zonder de aanpak van het beheren, opslaan en verwerken van gegevens te bespreken.

Gegevens komen van buitenaf naar ons toe, ze worden ook binnen het bedrijf gegenereerd, en als we het hebben over gegevens van een telecombedrijf, dan is dit voor interne medewerkers een opslagplaats van informatie over de klant, zijn interesses, gewoonten en locatie. Met de juiste profilering en segmentatie zijn advertentieaanbiedingen het meest effectief. In de praktijk is echter niet alles zo rooskleurig. De gegevens die bedrijven opslaan kunnen hopeloos verouderd, overbodig of repetitief zijn, of het bestaan ​​ervan is bij niemand bekend, behalve bij een kleine kring van gebruikers. ¯_(ツ)_/¯

Databeheer in eigen beheer
Kortom, data moeten effectief worden beheerd. Alleen dan zullen ze een asset worden die echte voordelen en winst voor het bedrijf oplevert. Helaas vereist het oplossen van problemen met gegevensbeheer dat er heel wat complexiteiten moeten worden overwonnen. Ze zijn voornamelijk te wijten aan zowel de historische erfenis in de vorm van ‘dierentuinen’ van systemen als aan het gebrek aan uniforme processen en benaderingen voor het beheer ervan. Maar wat betekent het om ‘datagedreven’ te zijn?

Dit is precies waar we het onder de bezuiniging over zullen hebben, en ook hoe de opensource-stack ons ​​heeft geholpen.

Het concept van strategisch datamanagement Data Governance (DG) is al vrij goed bekend op de Russische markt, en de doelen die het bedrijfsleven bereikt als resultaat van de implementatie ervan zijn duidelijk en duidelijk verklaard. Ons bedrijf vormde daarop geen uitzondering en stelde zichzelf tot taak het concept van datamanagement te introduceren.

Dus waar zijn we begonnen? Om te beginnen hebben we belangrijke doelen voor onszelf geformuleerd:

  1. Houd onze gegevens toegankelijk.
  2. Zorg voor transparantie van de gegevenslevenscyclus.
  3. Bied bedrijfsgebruikers consistente, consistente gegevens.
  4. Voorzie bedrijfsgebruikers van geverifieerde gegevens.

Tegenwoordig zijn er een tiental Data Governance-klassetools op de softwaremarkt.

Databeheer in eigen beheer

Maar na een gedetailleerde analyse en studie van de oplossingen hebben we voor onszelf een aantal kritische opmerkingen opgeschreven:

  • De meeste fabrikanten bieden een uitgebreide reeks oplossingen, die voor ons overbodig zijn en bestaande functionaliteit dupliceren. Plus, duur in termen van middelen, integratie in het huidige IT-landschap.
  • De functionaliteit en interface zijn ontworpen voor technologen, niet voor zakelijke eindgebruikers.
  • Laag overlevingspercentage van producten en gebrek aan succesvolle implementaties op de Russische markt.
  • Hoge kosten voor software en verdere ondersteuning.

De hierboven geuite criteria en aanbevelingen met betrekking tot importvervanging van software voor Russische bedrijven hebben ons ervan overtuigd om richting onze eigen ontwikkeling op een opensource-stack te gaan. Het platform dat we kozen was Django, een gratis en open source framework geschreven in Python. En daarom hebben we sleutelmodules geïdentificeerd die zullen bijdragen aan de hierboven genoemde doelen:

  1. Register van rapporten.
  2. Zakelijke woordenlijst.
  3. Module voor het beschrijven van technische transformaties.
  4. Module voor het beschrijven van de datalevenscyclus van de bron tot de BI-tool.
  5. Module voor gegevenskwaliteitscontrole.

Databeheer in eigen beheer

Register van rapporten

Volgens de resultaten van interne onderzoeken bij grote bedrijven besteden werknemers bij het oplossen van gegevensgerelateerde problemen 40-80% van hun tijd aan het zoeken ernaar. Daarom hebben we onszelf de taak gesteld om open informatie te geven over bestaande rapporten die voorheen alleen beschikbaar waren voor klanten. Zo verkorten we de tijd voor het genereren van nieuwe rapporten en zorgen we voor de democratisering van gegevens.

Databeheer in eigen beheer

Het rapportageregister is één rapportagevenster geworden voor interne gebruikers uit verschillende regio's, afdelingen en divisies. Het consolideert informatie over informatiediensten die zijn gemaakt in verschillende bedrijfsrepository's van het bedrijf, en er zijn er veel in Rostelecom.

Maar het register is niet slechts een droge lijst van ontwikkelde rapporten. Voor elk rapport verstrekken wij de informatie die de gebruiker nodig heeft om er vertrouwd mee te raken:

  • korte beschrijving van het rapport;
  • diepte van de beschikbaarheid van gegevens;
  • klantensegment;
  • visualisatietool;
  • naam van de bedrijfsopslag;
  • zakelijke functionele vereisten;
  • link naar het rapport;
  • link naar aanvraag voor toegang;
  • implementatiestatus.

Er zijn analyses op gebruiksniveau beschikbaar voor rapporten, en rapporten worden bovenaan de lijst gerangschikt op basis van loganalyses op basis van het aantal unieke gebruikers. En dat is het niet. Naast de algemene kenmerken hebben we ook een gedetailleerde beschrijving gegeven van de attribuutsamenstelling van de rapporten met voorbeelden van waarden en berekeningsmethoden. Een dergelijke detaillering geeft de gebruiker meteen een antwoord of het rapport voor hem nuttig is of niet.

De ontwikkeling van deze module was een belangrijke stap in de democratisering van data en heeft de tijd die nodig is om de benodigde informatie te vinden aanzienlijk verkort. Naast het verkorten van de zoektijd is ook het aantal verzoeken aan het supportteam om advies te verlenen afgenomen. Het is onmogelijk om nog een nuttig resultaat over het hoofd te zien dat we hebben bereikt door een uniform register van rapporten te ontwikkelen, waardoor de ontwikkeling van dubbele rapporten voor verschillende structurele eenheden wordt voorkomen.

Zakelijke woordenlijst

Jullie weten allemaal dat bedrijven zelfs binnen hetzelfde bedrijf verschillende talen spreken. Ja, ze gebruiken dezelfde termen, maar ze betekenen totaal verschillende dingen. Een zakelijke woordenlijst is ontworpen om dit probleem op te lossen.

Voor ons is een zakelijke woordenlijst niet zomaar een naslagwerk met een beschrijving van termen en berekeningsmethodiek. Dit is een volwaardige omgeving voor het ontwikkelen, overeenkomen en goedkeuren van terminologie, het opbouwen van relaties tussen termen en andere informatiemiddelen van het bedrijf. Voordat een term in de zakelijke woordenlijst terechtkomt, moet hij alle stadia van goedkeuring bij zakelijke klanten en het datakwaliteitscentrum doorlopen. Pas daarna komt het beschikbaar voor gebruik.

Zoals ik hierboven schreef, is het unieke van deze tool dat het verbindingen mogelijk maakt vanaf het niveau van een zakelijke term naar specifieke gebruikersrapporten waarin het wordt gebruikt, evenals naar het niveau van fysieke databaseobjecten.

Databeheer in eigen beheer

Dit wordt mogelijk gemaakt door het gebruik van verklarende termidentificatoren in de gedetailleerde beschrijving van registerrapporten en de beschrijving van fysieke databaseobjecten.

Momenteel zijn er meer dan 4000 termen gedefinieerd en overeengekomen in de verklarende woordenlijst. Het gebruik ervan vereenvoudigt en versnelt de verwerking van inkomende verzoeken om wijzigingen in de informatiesystemen van het bedrijf. Als de vereiste indicator al in een rapport is geïmplementeerd, ziet de gebruiker onmiddellijk een reeks kant-en-klare rapporten waarin deze indicator wordt gebruikt, en kan hij beslissen over het effectieve hergebruik van de bestaande functionaliteit of de minimale wijziging ervan, zonder dat hij daarvoor een nieuwe verzoeken voor de ontwikkeling van een nieuw rapport.

Module voor het beschrijven van technische transformaties en DataLineage

Wat zijn deze modules, vraag je? Het is niet voldoende om simpelweg het Rapportregister en de Woordenlijst te implementeren; het is ook noodzakelijk om alle zakelijke termen te baseren op het fysieke databasemodel. Zo konden we het proces van het vormen van de datalevenscyclus van bronsystemen tot BI-visualisatie door alle lagen van het datawarehouse voltooien. Met andere woorden: bouw een DataLineage.

We hebben een interface ontwikkeld op basis van het formaat dat eerder in het bedrijf werd gebruikt voor het beschrijven van de regels en logica van datatransformatie. Dezelfde informatie wordt via de interface ingevoerd als voorheen, maar de definitie van de term 'identifier' uit de zakelijke woordenlijst is een vereiste geworden. Zo bouwen we een verbinding tussen de zakelijke en fysieke laag.

Wie heeft het nodig? Wat was er mis met het oude format waar je een aantal jaren mee werkte? Hoeveel zijn de arbeidskosten voor het genereren van behoeften gestegen? Met dit soort vragen kregen we te maken tijdens de implementatie van de tool. De antwoorden hier zijn vrij eenvoudig: we hebben dit allemaal nodig, het datakantoor van ons bedrijf en onze gebruikers.

De medewerkers moesten zich inderdaad aanpassen; in eerste instantie leidde dit tot een lichte stijging van de arbeidskosten voor het opstellen van documentatie, maar we hebben dit probleem opgelost. Oefenen, het identificeren en optimaliseren van probleemgebieden hebben hun werk gedaan. We hebben het belangrijkste bereikt: we hebben de kwaliteit van de ontwikkelde eisen verbeterd. Verplichte velden, uniforme naslagwerken, invoermaskers, ingebouwde controles - dit alles maakte het mogelijk om de kwaliteit van transformatiebeschrijvingen aanzienlijk te verbeteren. We stapten af ​​van de praktijk van het overdragen van scripts als ontwikkelingsvereisten en het delen van kennis die alleen beschikbaar was voor het ontwikkelteam. De gegenereerde metadatadatabase verkort aanzienlijk de tijd die nodig is om regressieanalyses uit te voeren en biedt de mogelijkheid om snel de impact van veranderingen op elke laag van het IT-landschap te beoordelen (showcaserapporten, aggregaten, bronnen).

Wat heeft dit te maken met gewone gebruikers van rapporten, wat zijn de voordelen voor hen? Dankzij de mogelijkheid om DataLineage te bouwen, ontvangen onze gebruikers, zelfs degenen die ver verwijderd zijn van SQL en andere programmeertalen, snel informatie over de bronnen en objecten op basis waarvan een bepaald rapport wordt gegenereerd.

Module voor gegevenskwaliteitscontrole

Alles waar we het hierboven over hadden in termen van het garanderen van gegevenstransparantie is niet belangrijk als we niet begrijpen dat de gegevens die we aan gebruikers verstrekken correct zijn. Eén van de belangrijke modules van ons Data Governance concept is de module datakwaliteitscontrole.

In het huidige stadium is dit een catalogus met controles voor geselecteerde entiteiten. Het directe doel van de productontwikkeling is om de lijst met controles uit te breiden en te integreren met het rapportageregister.
Wat levert het op en aan wie? De eindgebruiker van het register krijgt toegang tot informatie over de geplande en daadwerkelijke data van rapportgereedheid, de resultaten van voltooide controles met dynamiek en informatie over de bronnen die in het rapport zijn geladen.

De datakwaliteitsmodule die voor ons in onze werkprocessen is geïntegreerd, is:

  • Snelle vorming van klantverwachtingen.
  • Beslissingen nemen over verder gebruik van data.
  • Het verkrijgen van een voorlopige reeks probleempunten in de beginfase van het werk voor de ontwikkeling van reguliere kwaliteitscontroles.

Uiteraard zijn dit de eerste stappen in het bouwen van een volwaardig datamanagementproces. Maar we zijn ervan overtuigd dat we alleen door dit werk doelbewust te doen en data-governance-instrumenten actief in het werkproces te introduceren, onze klanten informatie-inhoud, een hoog niveau van vertrouwen in de gegevens, transparantie bij de ontvangst ervan zullen bieden en de snelheid van lancering zullen verhogen. nieuwe functionaliteit.

DataOffice-team

Bron: www.habr.com

Voeg een reactie