Data Governance internt

Hei Habr!

Data er en bedrifts mest verdifulle ressurs. Nesten alle digitale selskap hevder dette. Det er vanskelig å argumentere med dette: ikke en eneste større IT-konferanse holdes uten å diskutere tilnærminger til å administrere, lagre og behandle data.

Data kommer til oss utenfra, de genereres også i selskapet, og hvis vi snakker om data fra et telekomselskap, er dette for interne ansatte et lager av informasjon om kunden, hans interesser, vaner og plassering. Med riktig profilering og segmentering er annonsetilbud mest effektive. Men i praksis er ikke alt så rosenrødt. Dataene som bedrifter lagrer kan være håpløst utdaterte, overflødige, repeterende, eller deres eksistens er ukjent for noen bortsett fra en smal krets av brukere. ¯_(ツ)_/¯

Data Governance internt
Kort sagt, data må administreres effektivt – først da vil det bli en ressurs som gir reelle fordeler og profitt til virksomheten. Dessverre krever løsning av datahåndteringsproblemer å overvinne ganske mye kompleksitet. De er hovedsakelig på grunn av både den historiske arven i form av "dyrehager" av systemer og mangelen på enhetlige prosesser og tilnærminger til deres forvaltning. Men hva betyr det å være "datadrevet"?

Dette er nøyaktig hva vi vil snakke om under kuttet, samt hvordan opensource-stakken hjalp oss.

Konseptet med strategisk datastyring Data Governance (DG) er allerede ganske godt kjent i det russiske markedet, og målene oppnådd av virksomheten som et resultat av implementeringen er klare og tydelig erklærte. Vårt firma var intet unntak og satte seg i oppgave å introdusere konseptet datahåndtering.

Så hvor begynte vi? Til å begynne med satte vi hovedmål for oss selv:

  1. Hold dataene våre tilgjengelige.
  2. Sørg for åpenhet i datalivssyklusen.
  3. Gi bedriftens brukere konsistente, konsistente data.
  4. Gi bedriftsbrukere verifiserte data.

I dag er det et dusin datastyringsverktøy på programvaremarkedet.

Data Governance internt

Men etter en detaljert analyse og studie av løsningene, registrerte vi en rekke kritiske kommentarer for oss selv:

  • De fleste produsenter tilbyr et omfattende sett med løsninger, som for oss er overflødig og dupliserer eksisterende funksjonalitet. Pluss, dyrt i form av ressurser, integrering i dagens IT-landskap.
  • Funksjonaliteten og grensesnittet er designet for teknologer, ikke sluttbrukere for bedrifter.
  • Lav overlevelsesrate for produkter og mangel på vellykkede implementeringer på det russiske markedet.
  • Høye kostnader på programvare og ytterligere støtte.

Kriteriene og anbefalingene ovenfor angående importerstatning av programvare for russiske selskaper overbeviste oss om å gå mot vår egen utvikling på en åpen kildekode-stack. Plattformen vi valgte var Django, et gratis og åpen kildekode-rammeverk skrevet i Python. Og dermed har vi identifisert nøkkelmoduler som vil bidra til målene nevnt ovenfor:

  1. Register over rapporter.
  2. Forretningsordliste.
  3. Modul for å beskrive tekniske transformasjoner.
  4. Modul for å beskrive datalivssyklusen fra kilden til BI-verktøyet.
  5. Datakvalitetskontrollmodul.

Data Governance internt

Register over rapporter

I følge resultatene fra interne studier i store selskaper bruker ansatte 40-80 % av tiden på å søke etter dem når de løser datarelaterte problemer. Derfor satte vi oss i oppgave å lage åpen informasjon om eksisterende rapporter som tidligere kun var tilgjengelig for kunder. Dermed reduserer vi tiden for å generere nye rapporter og sikrer demokratisering av data.

Data Governance internt

Rapporteringsregisteret har blitt et enkelt rapporteringsvindu for interne brukere fra ulike regioner, avdelinger og divisjoner. Den konsoliderer informasjon om informasjonstjenester opprettet i flere bedriftsrepositorier i selskapet, og det er mange av dem i Rostelecom.

Men registeret er ikke bare en tørr liste over utviklede rapporter. For hver rapport gir vi informasjonen som er nødvendig for at brukeren skal gjøre seg kjent med den:

  • kort beskrivelse av rapporten;
  • dybden av datatilgjengelighet;
  • kundesegment;
  • visualiseringsverktøy;
  • navnet på bedriftens lager;
  • forretningsfunksjonelle krav;
  • lenke til rapporten;
  • lenke til søknad om tilgang;
  • implementeringsstatus.

Bruksnivåanalyse er tilgjengelig for rapporter, og rapporter rangeres øverst på listen basert på logganalyse basert på antall unike brukere. Og det er ikke det. I tillegg til de generelle egenskapene har vi også gitt en detaljert beskrivelse av attributtsammensetningen til rapportene med eksempler på verdier og beregningsmetoder. Slik detaljering gir umiddelbart brukeren svar på om rapporten er nyttig for ham eller ikke.

Utviklingen av denne modulen var et viktig skritt i demokratiseringen av data og reduserte tiden det tar å finne nødvendig informasjon betydelig. I tillegg til å redusere søketiden, har antallet forespørsler til støtteteamet om å gi konsultasjoner også gått ned. Det er umulig å ikke legge merke til et annet nyttig resultat som vi oppnådde ved å utvikle et enhetlig register over rapporter - forhindre utvikling av dupliserte rapporter for ulike strukturelle enheter.

Forretningsordliste

Dere vet alle at selv innenfor samme selskap snakker bedrifter forskjellige språk. Ja, de bruker de samme begrepene, men de betyr helt forskjellige ting. En forretningsordliste er laget for å løse dette problemet.

For oss er en forretningsordliste ikke bare en oppslagsbok med beskrivelse av begreper og beregningsmetodikk. Dette er et fullverdig miljø for å utvikle, avtale og godkjenne terminologi, bygge relasjoner mellom vilkår og andre informasjonsressurser i selskapet. Før du går inn i forretningsordlisten, må et begrep gjennom alle stadier av godkjenning med bedriftskunder og datakvalitetssenteret. Først etter dette blir den tilgjengelig for bruk.

Som jeg skrev ovenfor, er det unike med dette verktøyet at det tillater koblinger fra nivået til et forretningsbegrep til spesifikke brukerrapporter der det brukes, så vel som til nivået til fysiske databaseobjekter.

Data Governance internt

Dette er muliggjort gjennom bruk av ordlisteordidentifikatorer i den detaljerte beskrivelsen av registerrapporter og beskrivelsen av fysiske databaseobjekter.

For tiden er mer enn 4000 begreper definert og avtalt i ordlisten. Bruken forenkler og fremskynder behandlingen av innkommende forespørsler om endringer i bedriftens informasjonssystemer. Hvis den nødvendige indikatoren allerede er implementert i en rapport, vil brukeren umiddelbart se et sett med ferdiglagde rapporter der denne indikatoren brukes, og vil kunne bestemme effektiv gjenbruk av eksisterende funksjonalitet eller dens minimale modifikasjon, uten å starte nye forespørsler om utvikling av en ny rapport.

Modul for å beskrive tekniske transformasjoner og DataLineage

Hva er disse modulene, spør du? Det er ikke nok å bare implementere rapportregisteret og ordlisten, det er også nødvendig å basere alle forretningsvilkår på den fysiske databasemodellen. Dermed var vi i stand til å fullføre prosessen med å danne livssyklusen for data fra kildesystemer til BI-visualisering gjennom alle lag i datavarehuset. Med andre ord, bygg en DataLineage.

Vi utviklet et grensesnitt basert på formatet som tidligere ble brukt i selskapet for å beskrive reglene og logikken for datatransformasjon. Den samme informasjonen legges inn gjennom grensesnittet som tidligere, men definisjonen av begrepet identifikator fra virksomhetsordlisten er blitt en forutsetning. Slik bygger vi en sammenheng mellom virksomheten og fysiske lag.

Hvem trenger det? Hva var galt med det gamle formatet som du jobbet med i flere år? Hvor mye har lønnskostnadene for å generere krav økt? Vi måtte forholde oss til slike spørsmål under implementeringen av verktøyet. Svarene her er ganske enkle - vi trenger alle dette, selskapets datakontor og brukerne våre.

De ansatte måtte faktisk tilpasse seg, til å begynne med førte dette til en liten økning i lønnskostnadene for å utarbeide dokumentasjon, men vi ordnet dette problemet. Øvelse, identifisering og optimalisering av problemområder har gjort jobben sin. Vi har oppnådd det viktigste - vi har forbedret kvaliteten på de utviklede kravene. Obligatoriske felt, enhetlige oppslagsverk, inndatamasker, innebygde sjekker - alt dette gjorde det mulig å forbedre kvaliteten på transformasjonsbeskrivelser betydelig. Vi gikk bort fra praksisen med å overlevere script som utviklingskrav og delte kunnskap som kun var tilgjengelig for utviklingsteamet. Den genererte metadatadatabasen reduserer tiden som kreves for å utføre regresjonsanalyse betydelig og gir muligheten til raskt å vurdere virkningen av endringer på ethvert lag i IT-landskapet (utstillingsrapporter, aggregater, kilder).

Hva har dette med vanlige brukere av rapporter å gjøre, hva er fordelene for dem? Takket være muligheten til å bygge DataLineage, mottar brukerne våre, selv de som er langt fra SQL og andre programmeringsspråk, raskt informasjon om kildene og objektene som en bestemt rapport genereres på grunnlag av.

Datakvalitetskontrollmodul

Alt vi snakket om ovenfor når det gjelder å sikre datatransparens er ikke viktig uten å forstå at dataene vi gir til brukerne er korrekte. En av de viktige modulene i vårt Data Governance-konsept er datakvalitetskontrollmodulen.

På det nåværende stadiet er dette en katalog over sjekker for utvalgte enheter. Det umiddelbare målet for produktutvikling er å utvide listen over kontroller og integrere med rapporteringsregisteret.
Hva vil det gi og til hvem? Sluttbrukeren av registeret vil ha tilgang til informasjon om planlagte og faktiske datoer for rapportberedskap, resultater av gjennomførte kontroller med dynamikk, og informasjon om kildene som er lastet inn i rapporten.

For oss er datakvalitetsmodulen integrert i arbeidsprosessene våre:

  • Rask dannelse av kundenes forventninger.
  • Ta beslutninger om videre bruk av data.
  • Innhenting av et foreløpig sett med problempunkter i de innledende stadiene av arbeidet for utvikling av regelmessige kvalitetskontroller.

Dette er selvfølgelig de første trinnene i å bygge en fullverdig databehandlingsprosess. Men vi er sikre på at bare ved å gjøre dette arbeidet målrettet, aktivt introdusere Data Governance-verktøy i arbeidsprosessen, vil vi gi kundene våre informasjonsinnhold, høy grad av tillit til dataene, åpenhet i mottak og øke hastigheten på lansering. ny funksjonalitet.

DataOffice-teamet

Kilde: www.habr.com

Legg til en kommentar