Notranje upravljanje podatkov

Pozdravljeni, Habr!

Podatki so najbolj dragoceno premoženje podjetja. Skoraj vsako podjetje z digitalno usmeritvijo to izjavi. Temu je težko ugovarjati: niti ena večja IT konferenca ne poteka brez razprave o pristopih k upravljanju, shranjevanju in obdelavi podatkov.

Podatki prihajajo do nas od zunaj, nastajajo tudi znotraj podjetja, če govorimo o podatkih iz telekomunikacijskega podjetja, potem je to za notranje zaposlene skladišče informacij o naročniku, njegovih interesih, navadah in lokaciji. Z ustreznim profiliranjem in segmentacijo so oglaševalske ponudbe najbolj učinkovite. Vendar v praksi ni vse tako rožnato. Podatki, ki jih podjetja hranijo, so lahko brezupno zastareli, redundantni, ponavljajoči se ali pa njihov obstoj ni znan nikomur, razen ozkemu krogu uporabnikov. ¯_(ツ)_/¯

Notranje upravljanje podatkov
Z eno besedo, podatke je treba učinkovito upravljati – le tako bodo postali sredstvo, ki podjetju prinaša resnične koristi in dobiček. Na žalost reševanje težav z upravljanjem podatkov zahteva premagovanje precej zapletenosti. Predvsem so posledica tako zgodovinske dediščine v obliki »živalskih vrtov« sistemov kot pomanjkanja enotnih procesov in pristopov k njihovemu upravljanju. Toda kaj pomeni biti "podatkovno voden"?

Prav o tem bomo govorili pod rezom, pa tudi o tem, kako nam je odprtokodni sklad pomagal.

Koncept strateškega upravljanja podatkov Data Governance (DG) je na ruskem trgu že precej znan, cilji, ki jih podjetje doseže z njegovo implementacijo, pa so jasni in jasno deklarirani. Naše podjetje ni bilo izjema in si je zadalo uvesti koncept upravljanja podatkov.

Kje smo torej začeli? Za začetek smo si oblikovali ključne cilje:

  1. Naj bodo naši podatki dostopni.
  2. Zagotovite preglednost življenjskega cikla podatkov.
  3. Zagotovite uporabnikom podjetja dosledne in dosledne podatke.
  4. Uporabnikom podjetja posredujte preverjene podatke.

Danes je na trgu programske opreme ducat orodij razreda Data Governance.

Notranje upravljanje podatkov

Toda po podrobni analizi in študiji rešitev smo sami zabeležili številne kritične komentarje:

  • Večina proizvajalcev ponuja celovit nabor rešitev, ki je za nas redundanten in podvaja obstoječo funkcionalnost. Poleg tega je drago v smislu virov, integracije v trenutno krajino IT.
  • Funkcionalnost in vmesnik sta namenjena tehnologom, ne poslovnim uporabnikom.
  • Nizka stopnja preživetja izdelkov in pomanjkanje uspešnih implementacij na ruskem trgu.
  • Visoki stroški programske opreme in nadaljnje podpore.

Zgoraj navedena merila in priporočila glede uvozne zamenjave programske opreme za ruska podjetja so nas prepričala, da smo se usmerili k lastnemu razvoju na odprtokodnem skladu. Izbrali smo platformo Django, brezplačno in odprtokodno ogrodje, napisano v Pythonu. Tako smo identificirali ključne module, ki bodo prispevali k zgoraj navedenim ciljem:

  1. Register poročil.
  2. Poslovni glosar.
  3. Modul za opis tehničnih preobrazb.
  4. Modul za opis življenjskega cikla podatkov od izvora do orodja BI.
  5. Modul za nadzor kakovosti podatkov.

Notranje upravljanje podatkov

Register poročil

Po rezultatih internih študij v velikih podjetjih zaposleni pri reševanju problemov, povezanih s podatki, porabijo 40-80 % časa za njihovo iskanje. Zato smo si zadali nalogo, da naredimo odprte informacije o obstoječih poročilih, ki so bila prej dostopna samo strankam. Tako skrajšamo čas za generiranje novih poročil in zagotovimo demokratizacijo podatkov.

Notranje upravljanje podatkov

Poročevalski register je postal enotno poročevalsko okno za interne uporabnike iz različnih regij, oddelkov in oddelkov. Združuje informacije o informacijskih storitvah, ustvarjenih v več korporativnih repozitorijih podjetja, v Rostelecomu pa jih je veliko.

Toda register ni le suhoparen seznam razvitih poročil. Za vsako poročilo posredujemo podatke, ki jih uporabnik potrebuje za seznanitev z njim:

  • kratek opis poročila;
  • globina dostopnosti podatkov;
  • segment strank;
  • orodje za vizualizacijo;
  • ime skladišča podjetja;
  • poslovne funkcionalne zahteve;
  • povezava do poročila;
  • povezava do aplikacije za dostop;
  • stanje izvajanja.

Analitika ravni uporabe je na voljo za poročila, poročila pa so razvrščena na vrhu seznama na podlagi analitike dnevnika glede na število edinstvenih uporabnikov. In to ni to. Poleg splošnih značilnosti smo podali tudi podroben opis atributne sestave poročil s primeri vrednosti in načinov izračuna. Takšna podrobnost uporabniku takoj da odgovor, ali je poročilo zanj koristno ali ne.

Razvoj tega modula je bil pomemben korak pri demokratizaciji podatkov in je bistveno skrajšal čas iskanja zahtevanih informacij. Poleg skrajšanega časa iskanja se je zmanjšalo tudi število prošenj ekipi za podporo za svetovanje. Nemogoče je omeniti še en koristen rezultat, ki smo ga dosegli z razvojem enotnega registra poročil - preprečevanje razvoja podvojenih poročil za različne strukturne enote.

Poslovni glosar

Vsi veste, da tudi znotraj istega podjetja podjetja govorijo različne jezike. Da, uporabljajo iste izraze, vendar pomenijo popolnoma različne stvari. Poslovni glosar je zasnovan za rešitev tega problema.

Poslovni glosar za nas ni le referenčna knjiga z opisom pojmov in metodologijo izračuna. To je popolno okolje za razvoj, dogovor in odobritev terminologije, gradnjo odnosov med pogoji in drugimi informacijskimi sredstvi podjetja. Preden izraz vstopi v poslovni glosar, mora prestati vse stopnje odobritve pri poslovnih strankah in centru za kakovost podatkov. Šele po tem je na voljo za uporabo.

Kot sem zapisal zgoraj, je edinstvenost tega orodja v tem, da omogoča povezave od nivoja poslovnega izraza do specifičnih uporabniških poročil, v katerih se uporablja, kot tudi do nivoja fizičnih objektov baze podatkov.

Notranje upravljanje podatkov

To je omogočeno z uporabo identifikatorjev izrazov v glosarju v podrobnem opisu poročil registra in opisu fizičnih objektov baze podatkov.

Trenutno je v Glosarju opredeljenih in dogovorjenih več kot 4000 izrazov. Z njegovo uporabo se poenostavi in ​​pospeši obdelava vhodnih zahtevkov za spremembe v informacijskih sistemih podjetja. Če je zahtevani indikator že implementiran v katerem koli poročilu, bo uporabnik takoj videl nabor že pripravljenih poročil, kjer je ta indikator uporabljen, in se bo lahko odločil za učinkovito ponovno uporabo obstoječe funkcionalnosti ali njeno minimalno spremembo, ne da bi sprožil nove zahteve za izdelavo novega poročila.

Modul za opis tehničnih transformacij in DataLineage

Kaj so ti moduli, se sprašujete? Ni dovolj zgolj implementacija registra poročil in glosarja, potrebno je tudi utemeljiti vse poslovne izraze na fizičnem modelu baze podatkov. Tako smo lahko zaključili proces oblikovanja življenjskega cikla podatkov od izvornih sistemov do BI vizualizacije skozi vse plasti podatkovnega skladišča. Z drugimi besedami, zgradite DataLineage.

Razvili smo vmesnik, ki temelji na formatu, ki je bil prej v podjetju uporabljen za opis pravil in logike transformacije podatkov. Preko vmesnika se vnašajo enaki podatki kot doslej, le da je predpogoj definicija pojma identifikator iz poslovnega slovarja. Tako gradimo povezavo med poslovnim in fizičnim slojem.

Kdo ga potrebuje? Kaj je bilo narobe s starim formatom, s katerim ste delali več let? Koliko so se povečali stroški dela za ustvarjanje potreb? S takimi vprašanji smo se morali ukvarjati med implementacijo orodja. Odgovori so precej preprosti – to potrebujemo vsi, podatkovna pisarna našega podjetja in naši uporabniki.

Zaposleni so se res morali prilagoditi, sprva je to vodilo v nekoliko višje stroške dela za pripravo dokumentacije, vendar smo to vprašanje uredili. Praksa, prepoznavanje in optimizacija problematičnih področij so opravili svoje delo. Dosegli smo glavno stvar - izboljšali smo kakovost razvitih zahtev. Obvezna polja, enotne referenčne knjige, vnosne maske, vgrajena preverjanja - vse to je omogočilo znatno izboljšanje kakovosti opisov transformacij. Odmaknili smo se od prakse predaje skript kot razvojne zahteve in delili znanje, ki je bilo na voljo samo razvojni ekipi. Ustvarjena zbirka metapodatkov bistveno skrajša čas, potreben za izvedbo regresijske analize, in omogoča hitro oceno vpliva sprememb na katero koli plast okolja IT (predstavitvena poročila, agregati, viri).

Kaj ima to opraviti z običajnimi uporabniki poročil, kakšne so prednosti zanje? Zahvaljujoč zmožnosti gradnje DataLineage naši uporabniki, tudi tisti, ki so daleč od SQL in drugih programskih jezikov, hitro prejmejo informacije o virih in objektih, na podlagi katerih je določeno poročilo ustvarjeno.

Modul za nadzor kakovosti podatkov

Vse, o čemer smo govorili zgoraj v smislu zagotavljanja preglednosti podatkov, ni pomembno brez razumevanja, da so podatki, ki jih dajemo uporabnikom, pravilni. Eden od pomembnih modulov našega koncepta Data Governance je modul za nadzor kakovosti podatkov.

V trenutni fazi je to katalog čekov za izbrane subjekte. Neposredni cilj razvoja izdelka je razširitev seznama pregledov in integracija z registrom poročanja.
Kaj bo dal in komu? Končnemu uporabniku registra bodo na voljo podatki o načrtovanih in dejanskih datumih pripravljenosti poročil, rezultati opravljenih pregledov z dinamiko ter podatki o virih, naloženih v poročilo.

Za nas je modul kakovosti podatkov, ki je integriran v naše delovne procese:

  • Hitro oblikovanje pričakovanj strank.
  • Sprejemanje odločitev o nadaljnji uporabi podatkov.
  • Pridobivanje predhodnega nabora problemskih točk v začetnih fazah dela za razvoj rednih kontrol kakovosti.

Seveda so to prvi koraki pri izgradnji polnopravnega procesa upravljanja podatkov. Prepričani pa smo, da bomo le z namenskim opravljanjem tega dela, aktivnim uvajanjem orodij Data Governance v delovni proces, našim strankam zagotovili vsebino informacij, visoko stopnjo zaupanja v podatke, transparentnost njihovega prejema in povečali hitrost lansiranja. nova funkcionalnost.

Ekipa DataOffice

Vir: www.habr.com

Dodaj komentar