Interná správa údajov

Čau Habr!

Dáta sú najcennejším aktívom spoločnosti. Deklaruje to takmer každá firma s digitálnym zameraním. Je ťažké s tým polemizovať: ani jedna veľká IT konferencia sa nekoná bez diskusie o prístupoch k správe, ukladaniu a spracovaniu údajov.

Dáta k nám prichádzajú zvonku, generujú sa aj v rámci spoločnosti, a ak hovoríme o dátach od telekomunikačnej spoločnosti, tak pre interných zamestnancov sú to úložisko informácií o klientovi, jeho záujmoch, zvykoch a polohe. Pri správnom profilovaní a segmentácii sú reklamné ponuky najefektívnejšie. V praxi však nie je všetko také ružové. Údaje, ktoré spoločnosti uchovávajú, môžu byť beznádejne zastarané, nadbytočné, opakujúce sa alebo ich existenciu nepozná nikto okrem úzkeho okruhu používateľov. ¯_(ツ)_/¯

Interná správa údajov
Jedným slovom, dáta musia byť efektívne spravované – len tak sa stanú aktívom, ktoré prináša skutočné výhody a zisk pre podnikanie. Bohužiaľ, riešenie problémov so správou údajov si vyžaduje prekonať pomerne veľa zložitostí. Sú spôsobené najmä historickým dedičstvom v podobe „zoologických záhrad“ systémov a nedostatkom jednotných procesov a prístupov k ich riadeniu. Čo však znamená byť „riadený údajmi“?

Presne o tom si povieme pod rezom, ako aj o tom, ako nám pomohol opensource stack.

Koncepcia strategického manažmentu dát Data Governance (DG) je už na ruskom trhu pomerne dobre známa a ciele dosiahnuté podnikaním v dôsledku jej implementácie sú jasné a jasne deklarované. Naša spoločnosť nebola výnimkou a dala si za úlohu zaviesť koncept správy dát.

Kde sme teda začali? Na začiatok sme si stanovili kľúčové ciele:

  1. Udržujte naše údaje dostupné.
  2. Zabezpečte transparentnosť životného cyklu údajov.
  3. Poskytujte používateľom spoločnosti konzistentné a konzistentné údaje.
  4. Poskytnite používateľom spoločnosti overené údaje.

Dnes je na softvérovom trhu tucet nástrojov triedy Data Governance.

Interná správa údajov

Po podrobnej analýze a štúdiu riešení sme však zaznamenali niekoľko kritických pripomienok:

  • Väčšina výrobcov ponúka komplexný súbor riešení, ktorý je pre nás nadbytočný a duplikuje existujúcu funkcionalitu. Navyše je to drahé z hľadiska zdrojov a integrácie do súčasného prostredia IT.
  • Funkcionalita a rozhranie sú navrhnuté pre technológov, nie pre koncových používateľov.
  • Nízka miera prežitia produktov a nedostatok úspešných implementácií na ruskom trhu.
  • Vysoké náklady na softvér a ďalšiu podporu.

Vyššie uvedené kritériá a odporúčania týkajúce sa nahrádzania importu softvéru pre ruské spoločnosti nás presvedčili, aby sme sa posunuli smerom k vlastnému vývoju na opensource stacku. Platforma, ktorú sme si vybrali, bola Django, bezplatný a open source framework napísaný v Pythone. Preto sme identifikovali kľúčové moduly, ktoré prispejú k vyššie uvedeným cieľom:

  1. Register hlásení.
  2. Obchodný glosár.
  3. Modul na popis technických premien.
  4. Modul na popis životného cyklu údajov od zdroja po nástroj BI.
  5. Modul kontroly kvality dát.

Interná správa údajov

Register hlásení

Podľa výsledkov interných štúdií vo veľkých spoločnostiach zamestnanci pri riešení problémov súvisiacich s údajmi trávia 40 – 80 % času ich hľadaním. Preto sme si dali za úlohu sprístupniť otvorené informácie o existujúcich reportoch, ktoré boli predtým dostupné len zákazníkom. Skrátime tak čas na generovanie nových reportov a zabezpečíme demokratizáciu dát.

Interná správa údajov

Register hlásení sa stal jednotným oknom hlásenia pre interných používateľov z rôznych regiónov, oddelení a divízií. Konsoliduje informácie o informačných službách vytvorených v niekoľkých podnikových úložiskách spoločnosti a v Rostelecome ich je veľa.

Register však nie je len suchým zoznamom rozpracovaných správ. Ku každému prehľadu poskytujeme informácie potrebné na to, aby sa s ním používateľ mohol oboznámiť:

  • stručný popis správy;
  • hĺbka dostupnosti údajov;
  • zákaznícky segment;
  • vizualizačný nástroj;
  • názov podnikového úložiska;
  • obchodné funkčné požiadavky;
  • odkaz na správu;
  • odkaz na žiadosť o prístup;
  • stav implementácie.

Pre zostavy sú k dispozícii analýzy na úrovni používania a zostavy sú zoradené na začiatku zoznamu na základe analýzy denníka na základe počtu jedinečných používateľov. A to nie je ono. Okrem všeobecných charakteristík sme poskytli aj podrobný popis atribútového zloženia reportov s príkladmi hodnôt a metód výpočtu. Takéto detaily okamžite dávajú používateľovi odpoveď, či je pre neho správa užitočná alebo nie.

Vývoj tohto modulu bol dôležitým krokom v demokratizácii dát a výrazne skrátil čas potrebný na nájdenie požadovaných informácií. Okrem skrátenia času vyhľadávania sa znížil aj počet žiadostí tímu podpory o poskytnutie konzultácií. Nemožno nespomenúť ďalší užitočný výsledok, ktorý sme dosiahli vytvorením jednotného registra hlásení – zamedzením vzniku duplicitných hlásení pre rôzne štrukturálne jednotky.

Obchodný glosár

Všetci viete, že aj v rámci tej istej spoločnosti hovoria podniky rôznymi jazykmi. Áno, používajú rovnaké výrazy, ale znamenajú úplne iné veci. Na vyriešenie tohto problému je navrhnutý obchodný glosár.

Obchodný glosár pre nás nie je len referenčná kniha s popisom pojmov a metodikou výpočtu. Ide o plnohodnotné prostredie na vývoj, odsúhlasovanie a schvaľovanie terminológie, budovanie vzťahov medzi pojmami a inými informačnými aktívami spoločnosti. Pred vstupom do obchodného slovníka musí výraz prejsť všetkými fázami schválenia s podnikovými zákazníkmi a centrom kvality údajov. Až potom bude k dispozícii na použitie.

Ako som písal vyššie, jedinečnosť tohto nástroja je v tom, že umožňuje prepojenia z úrovne obchodného výrazu na konkrétne užívateľské zostavy, v ktorých je použitý, ako aj na úroveň fyzických databázových objektov.

Interná správa údajov

Je to možné vďaka použitiu slovníkových identifikátorov termínov v podrobnom popise správ registra a popise fyzických databázových objektov.

V súčasnosti je v slovníku definovaných a dohodnutých viac ako 4000 XNUMX pojmov. Jeho použitie zjednodušuje a urýchľuje spracovanie prichádzajúcich požiadaviek na zmeny v informačných systémoch spoločnosti. Ak je požadovaný indikátor už implementovaný v ľubovoľnej zostave, používateľ okamžite uvidí sadu hotových zostáv, kde sa tento ukazovateľ používa, a bude sa môcť rozhodnúť o efektívnom opätovnom použití existujúcej funkcionality alebo jej minimálnej úprave bez spustenia nové požiadavky na vypracovanie novej správy.

Modul na popis technických transformácií a DataLineage

Čo sú to za moduly, pýtate sa? Nestačí len implementovať Register reportov a Glosár, ale je potrebné zakotviť aj všetky obchodné podmienky na fyzickom databázovom modeli. Takto sme mohli dokončiť proces formovania životného cyklu dát od zdrojových systémov až po BI vizualizáciu cez všetky vrstvy dátového skladu. Inými slovami, vytvorte DataLineage.

Vyvinuli sme rozhranie založené na formáte používanom predtým v spoločnosti na popis pravidiel a logiky transformácie dát. Cez rozhranie sa zadávajú rovnaké informácie ako doteraz, ale nevyhnutnou podmienkou sa stala definícia pojmu identifikátor z obchodného slovníka. Takto budujeme prepojenie medzi obchodnou a fyzickou vrstvou.

kto to potrebuje? Čo bolo zlé na starom formáte, s ktorým ste pracovali niekoľko rokov? O koľko sa zvýšili mzdové náklady na generovanie požiadaviek? S takýmito otázkami sme sa museli popasovať pri implementácii nástroja. Odpovede sú celkom jednoduché – potrebujeme to všetci, dátová kancelária našej spoločnosti a naši používatelia.

Zamestnanci sa museli prispôsobiť, spočiatku to viedlo k miernemu zvýšeniu mzdových nákladov na prípravu dokumentácie, ale tento problém sme vyriešili. Cvičenie, identifikácia a optimalizácia problémových oblastí urobili svoje. To hlavné sme dosiahli – skvalitnili sme vypracované požiadavky. Povinné polia, jednotné referenčné knihy, vstupné masky, vstavané kontroly - to všetko umožnilo výrazne zlepšiť kvalitu popisov transformácií. Vzdialili sme sa od praxe odovzdávania skriptov ako požiadaviek na vývoj a zdieľania znalostí, ktoré mal k dispozícii iba vývojový tím. Vygenerovaná databáza metadát výrazne skracuje čas potrebný na vykonanie regresnej analýzy a poskytuje možnosť rýchlo posúdiť vplyv zmien na akúkoľvek vrstvu prostredia IT (prezentačné správy, súhrny, zdroje).

Čo to má spoločné s bežnými používateľmi prehľadov, aké to má pre nich výhody? Vďaka schopnosti budovať DataLineage naši používatelia, dokonca aj tí, ktorí majú ďaleko od SQL a iných programovacích jazykov, rýchlo dostávajú informácie o zdrojoch a objektoch, na základe ktorých sa generuje konkrétny report.

Modul kontroly kvality údajov

Všetko, o čom sme hovorili vyššie, pokiaľ ide o zabezpečenie transparentnosti údajov, nie je dôležité bez toho, aby sme pochopili, že údaje, ktoré poskytujeme používateľom, sú správne. Jedným z dôležitých modulov nášho konceptu Data Governance je modul kontroly kvality dát.

V súčasnej fáze ide o katalóg šekov pre vybrané subjekty. Bezprostredným cieľom vývoja produktu je rozšírenie zoznamu kontrol a integrácia s registrom správ.
Čo to dá a komu? Koncový užívateľ registra bude mať prístup k informáciám o plánovaných a skutočných termínoch pripravenosti hlásenia, výsledkoch ukončených kontrol s dynamikou a informáciám o zdrojoch načítaných do hlásenia.

Pre nás je modul kvality údajov integrovaný do našich pracovných procesov:

  • Pohotové formovanie očakávaní zákazníkov.
  • Rozhodovanie o ďalšom využívaní údajov.
  • Získanie predbežného súboru problémových bodov v počiatočných fázach práce na rozvoj pravidelných kontrol kvality.

Samozrejme, toto sú prvé kroky pri budovaní plnohodnotného procesu správy dát. Sme si však istí, že len cieľavedomým vykonávaním tejto práce, aktívnym zavádzaním nástrojov Data Governance do pracovného procesu poskytneme našim klientom informačný obsah, vysokú mieru dôvery v dáta, transparentnosť pri ich prijímaní a zvýšime rýchlosť spúšťania nová funkčnosť.

Tím DataOffice

Zdroj: hab.com

Pridať komentár