Data Governance internt

Hej Habr!

Data er en virksomheds mest værdifulde aktiv. Næsten alle virksomheder med et digitalt fokus erklærer dette. Det er svært at argumentere med dette: Der afholdes ikke en eneste større it-konference uden at diskutere tilgange til håndtering, lagring og behandling af data.

Data kommer til os udefra, de genereres også i virksomheden, og hvis vi taler om data fra et teleselskab, så er dette for interne medarbejdere et lager af information om kunden, dennes interesser, vaner og placering. Med korrekt profilering og segmentering er annoncetilbud mest effektive. Men i praksis er alt ikke så rosenrødt. De data, som virksomheder gemmer, kan være håbløst forældede, overflødige, gentagne, eller deres eksistens er ukendt for nogen undtagen en snæver kreds af brugere. ¯_(ツ)_/¯

Data Governance internt
Kort sagt, data skal administreres effektivt – først da bliver det et aktiv, der bringer reelle fordele og overskud til virksomheden. Desværre kræver løsning af datahåndteringsproblemer at overvinde en hel del kompleksitet. De skyldes hovedsageligt både den historiske arv i form af "zoologiske haver" af systemer og manglen på forenede processer og tilgange til deres forvaltning. Men hvad vil det sige at være "datadrevet"?

Det er præcis, hvad vi vil tale om under skæringen, samt hvordan opensource-stakken hjalp os.

Konceptet med strategisk datastyring Data Governance (DG) er allerede ret velkendt på det russiske marked, og de mål, virksomheden opnår som følge af dens implementering, er klare og tydeligt erklærede. Vores virksomhed var ingen undtagelse og satte sig til opgave at introducere begrebet datastyring.

Så hvor startede vi? Til at begynde med dannede vi nøglemål for os selv:

  1. Hold vores data tilgængelige.
  2. Sikre gennemsigtighed i datalivscyklussen.
  3. Giv virksomhedens brugere konsistente, konsistente data.
  4. Giv firmabrugere verificerede data.

I dag er der et dusin Data Governance-klasseværktøjer på softwaremarkedet.

Data Governance internt

Men efter en detaljeret analyse og undersøgelse af løsningerne, optog vi en række kritiske kommentarer til os selv:

  • De fleste producenter tilbyder et omfattende sæt af løsninger, som for os er overflødigt og dublerer eksisterende funktionalitet. Plus, dyrt i forhold til ressourcer, integration i det nuværende it-landskab.
  • Funktionaliteten og grænsefladen er designet til teknologer, ikke erhvervsbrugere.
  • Lav overlevelsesrate for produkter og mangel på vellykkede implementeringer på det russiske marked.
  • Høje omkostninger til software og yderligere support.

Kriterierne og anbefalingerne fremsat ovenfor vedrørende importsubstitution af software til russiske virksomheder overbeviste os om at bevæge os i retning af vores egen udvikling på en opensource-stack. Platformen, vi valgte, var Django, en gratis og open source-ramme skrevet i Python. Og dermed har vi identificeret nøglemoduler, der vil bidrage til målene nævnt ovenfor:

  1. Register over rapporter.
  2. Forretningsordliste.
  3. Modul til beskrivelse af tekniske transformationer.
  4. Modul til beskrivelse af datalivscyklussen fra kilden til BI-værktøjet.
  5. Datakvalitetskontrolmodul.

Data Governance internt

Register over rapporter

Ifølge resultaterne af interne undersøgelser i store virksomheder bruger medarbejderne 40-80 % af deres tid på at søge efter dem, når de løser datarelaterede problemer. Derfor satte vi os til opgave at lave åben information om eksisterende rapporter, der tidligere kun var tilgængelige for kunder. Dermed reducerer vi tiden til at generere nye rapporter og sikrer demokratisering af data.

Data Governance internt

Rapporteringsregisteret er blevet til et samlet rapporteringsvindue for interne brugere fra forskellige regioner, afdelinger og divisioner. Det konsoliderer oplysninger om informationstjenester, der er oprettet i flere af virksomhedens arkiver, og der er mange af dem i Rostelecom.

Men registreringsdatabasen er ikke bare en tør liste over udviklede rapporter. For hver rapport giver vi de oplysninger, der er nødvendige for, at brugeren kan gøre sig bekendt med den:

  • kort beskrivelse af rapporten;
  • dybden af ​​datatilgængelighed;
  • kundesegment;
  • visualiseringsværktøj;
  • navnet på virksomhedens lager;
  • virksomheds funktionelle krav;
  • link til rapporten;
  • link til ansøgning om adgang;
  • implementeringsstatus.

Brugsniveauanalyser er tilgængelige for rapporter, og rapporter rangeres øverst på listen baseret på loganalyse baseret på antallet af unikke brugere. Og det er det ikke. Ud over de generelle karakteristika har vi også givet en detaljeret beskrivelse af attributsammensætningen af ​​rapporterne med eksempler på værdier og beregningsmetoder. Sådan detaljering giver straks brugeren et svar på, om rapporten er nyttig for ham eller ej.

Udviklingen af ​​dette modul var et vigtigt skridt i demokratiseringen af ​​data og reducerede markant den tid, det tager at finde den nødvendige information. Ud over at reducere søgetiden er antallet af anmodninger til supportteamet om at yde konsultationer også faldet. Det er umuligt ikke at bemærke et andet nyttigt resultat, som vi opnåede ved at udvikle et samlet register over rapporter - forhindre udviklingen af ​​duplikerede rapporter for forskellige strukturelle enheder.

Forretningsordliste

I ved alle, at selv inden for samme virksomhed taler virksomheder forskellige sprog. Ja, de bruger de samme udtryk, men de betyder helt forskellige ting. En forretningsordliste er designet til at løse dette problem.

For os er en virksomhedsordliste ikke blot en opslagsbog med beskrivelse af begreber og beregningsmetode. Dette er et fuldt udviklet miljø til at udvikle, godkende og godkende terminologi, opbygning af relationer mellem vilkår og andre informationsaktiver i virksomheden. Inden man går ind i virksomhedsordlisten, skal en term gennemgå alle stadier af godkendelse hos erhvervskunder og datakvalitetscenteret. Først herefter bliver den tilgængelig til brug.

Som jeg skrev ovenfor, er det unikke ved dette værktøj, at det tillader forbindelser fra niveauet af et forretningsudtryk til specifikke brugerrapporter, hvor det bruges, såvel som til niveauet af fysiske databaseobjekter.

Data Governance internt

Dette er gjort muligt gennem brug af ordliste-termidentifikatorer i den detaljerede beskrivelse af registerrapporter og beskrivelsen af ​​fysiske databaseobjekter.

I øjeblikket er mere end 4000 udtryk blevet defineret og aftalt i ordlisten. Dens anvendelse forenkler og fremskynder behandlingen af ​​indkommende anmodninger om ændringer i virksomhedens informationssystemer. Hvis den påkrævede indikator allerede er implementeret i en rapport, vil brugeren straks se et sæt færdige rapporter, hvor denne indikator bruges, og vil være i stand til at beslutte om effektiv genbrug af eksisterende funktionalitet eller dens minimale ændring uden at starte nye anmodninger om udvikling af en ny rapport.

Modul til beskrivelse af tekniske transformationer og DataLineage

Hvad er disse moduler, spørger du? Det er ikke nok blot at implementere Rapportregisteret og Ordlisten, det er også nødvendigt at basere alle forretningsbetingelser på den fysiske databasemodel. Dermed var vi i stand til at fuldføre processen med at danne datalivscyklussen fra kildesystemer til BI-visualisering gennem alle lag af datavarehuset. Med andre ord, opbyg en DataLineage.

Vi udviklede en grænseflade baseret på det format, der tidligere blev brugt i virksomheden til at beskrive reglerne og logikken i datatransformation. De samme oplysninger indtastes gennem grænsefladen som tidligere, men definitionen af ​​begrebet identifikator fra virksomhedsordlisten er blevet en forudsætning. Sådan bygger vi en sammenhæng mellem det forretningsmæssige og det fysiske lag.

Hvem har brug for det? Hvad var der galt med det gamle format, som du arbejdede med i flere år? Hvor meget er lønomkostningerne for at skabe krav steget? Vi skulle håndtere sådanne spørgsmål under implementeringen af ​​værktøjet. Svarene her er ganske enkle - vi har alle brug for dette, vores virksomheds datakontor og vores brugere.

Medarbejderne var faktisk nødt til at tilpasse sig, i første omgang førte det til en lille stigning i lønomkostningerne til udarbejdelse af dokumentation, men vi fik løst problemet. Øvelse, identificering og optimering af problemområder har gjort deres arbejde. Vi har opnået det vigtigste - vi har forbedret kvaliteten af ​​de udviklede krav. Obligatoriske felter, fælles opslagsværker, inputmasker, indbyggede checks - alt dette gjorde det muligt at forbedre kvaliteten af ​​transformationsbeskrivelser betydeligt. Vi gik væk fra praksis med at udlevere scripts som udviklingskrav og delte viden, der kun var tilgængelig for udviklingsteamet. Den genererede metadatadatabase reducerer markant den tid, der kræves til at udføre regressionsanalyse og giver mulighed for hurtigt at vurdere virkningen af ​​ændringer på ethvert lag af it-landskabet (fremvisningsrapporter, aggregater, kilder).

Hvad har det at gøre med almindelige brugere af rapporter, hvad er fordelene for dem? Takket være muligheden for at opbygge DataLineage, modtager vores brugere, selv dem langt fra SQL og andre programmeringssprog, hurtigt information om de kilder og objekter, som en bestemt rapport genereres på grundlag af.

Datakvalitetskontrolmodul

Alt, hvad vi talte om ovenfor med hensyn til at sikre datagennemsigtighed, er ikke vigtigt uden at forstå, at de data, vi giver til brugerne, er korrekte. Et af de vigtige moduler i vores Data Governance-koncept er datakvalitetskontrolmodulet.

På nuværende tidspunkt er dette et katalog over kontroller for udvalgte enheder. Det umiddelbare mål for produktudvikling er at udvide listen over kontroller og integrere med rapporteringsregistret.
Hvad vil det give og til hvem? Slutbrugeren af ​​registret vil have adgang til information om de planlagte og faktiske datoer for rapportberedskab, resultaterne af gennemførte kontroller med dynamik og oplysninger om de kilder, der er indlæst i rapporten.

For os er datakvalitetsmodulet integreret i vores arbejdsprocesser:

  • Hurtig dannelse af kundernes forventninger.
  • Tage beslutninger om videre brug af data.
  • Indhentning af et foreløbigt sæt af problempunkter i de indledende faser af arbejdet for udvikling af regelmæssige kvalitetskontroller.

Dette er selvfølgelig de første trin i opbygningen af ​​en fuldgyldig datahåndteringsproces. Men vi er overbeviste om, at vi kun ved at udføre dette arbejde målrettet, aktivt at introducere Data Governance-værktøjer i arbejdsprocessen, vil give vores kunder informationsindhold, et højt niveau af tillid til dataene, gennemsigtighed i deres modtagelse og øge hastigheden af ​​lanceringen. ny funktionalitet.

DataOffice team

Kilde: www.habr.com

Tilføj en kommentar