Vnitropodniková správa dat

Čau Habr!

Data jsou nejcennějším aktivem společnosti. To deklaruje téměř každá firma s digitálním zaměřením. S tím je těžké polemizovat: ani jedna velká IT konference se nekoná bez projednání přístupů ke správě, ukládání a zpracování dat.

Data k nám přicházejí zvenčí, jsou také generována v rámci společnosti, a pokud se bavíme o datech od telekomunikační společnosti, tak pro interní zaměstnance jsou to úložiště informací o klientovi, jeho zájmech, zvycích a umístění. Při správné profilaci a segmentaci jsou reklamní nabídky nejúčinnější. V praxi však není vše tak růžové. Data, která firmy ukládají, mohou být beznadějně zastaralá, nadbytečná, opakující se nebo jejich existenci nikdo kromě úzkého okruhu uživatelů nezná. ¯_(ツ)_/¯

Vnitropodniková správa dat
Jedním slovem, data musí být efektivně spravována – jen tak se stanou aktivem, které přináší skutečné výhody a zisk pro podnikání. Bohužel řešení problémů se správou dat vyžaduje překonání poměrně velké složitosti. Jsou způsobeny především historickým dědictvím v podobě „zoologických zahrad“ systémů a nedostatkem jednotných procesů a přístupů k jejich řízení. Co to ale znamená být „řízený daty“?

Přesně o tom si budeme povídat pod řezem a také o tom, jak nám pomohl opensource stack.

Koncept strategického řízení dat Data Governance (DG) je na ruském trhu již poměrně dobře známý a cíle, kterých podnikání v důsledku jeho implementace dosahuje, jsou jasné a jasně deklarované. Naše společnost nebyla výjimkou a dala si za úkol zavést koncept správy dat.

Kde jsme tedy začali? Pro začátek jsme si stanovili klíčové cíle:

  1. Udržujte naše data přístupná.
  2. Zajistěte transparentnost životního cyklu dat.
  3. Poskytujte firemním uživatelům konzistentní a konzistentní data.
  4. Poskytněte firemním uživatelům ověřená data.

Dnes je na softwarovém trhu tucet nástrojů třídy Data Governance.

Vnitropodniková správa dat

Ale po podrobné analýze a studiu řešení jsme pro sebe zaznamenali řadu kritických připomínek:

  • Většina výrobců nabízí ucelenou sadu řešení, která je pro nás nadbytečná a duplikuje stávající funkčnost. Navíc je to drahé z hlediska zdrojů a integrace do současného prostředí IT.
  • Funkčnost a rozhraní jsou navrženy pro technology, nikoli pro koncové uživatele.
  • Nízká míra přežití produktů a nedostatek úspěšných implementací na ruském trhu.
  • Vysoké náklady na software a další podporu.

Výše uvedená kritéria a doporučení týkající se náhrady importu softwaru pro ruské společnosti nás přesvědčila k tomu, abychom se vydali směrem k vlastnímu vývoji na opensource stacku. Platforma, kterou jsme zvolili, byla Django, bezplatný a open source framework napsaný v Pythonu. A tak jsme identifikovali klíčové moduly, které přispějí k výše uvedeným cílům:

  1. Registr hlášení.
  2. Obchodní glosář.
  3. Modul pro popis technických přeměn.
  4. Modul pro popis životního cyklu dat od zdroje po nástroj BI.
  5. Modul kontroly kvality dat.

Vnitropodniková správa dat

Registr hlášení

Podle výsledků interních studií ve velkých společnostech stráví zaměstnanci při řešení problémů souvisejících s daty jejich vyhledáváním 40–80 % času. Proto jsme si dali za úkol zpřístupnit otevřené informace o existujících reportech, které byly dříve dostupné pouze zákazníkům. Zkracujeme tak dobu generování nových reportů a zajišťujeme demokratizaci dat.

Vnitropodniková správa dat

Registr hlášení se stal jednotným oknem hlášení pro interní uživatele z různých regionů, oddělení a divizí. Konsoliduje informace o informačních službách vytvořených v několika firemních úložištích společnosti a v Rostelecomu jich je mnoho.

Registr ale není jen suchý seznam rozpracovaných reportů. Ke každému přehledu poskytujeme informace potřebné k tomu, aby se s ním uživatel mohl seznámit:

  • stručný popis zprávy;
  • hloubka dostupnosti dat;
  • zákaznický segment;
  • vizualizační nástroj;
  • název podnikového úložiště;
  • obchodní funkční požadavky;
  • odkaz na zprávu;
  • odkaz na žádost o přístup;
  • stav implementace.

Pro přehledy jsou k dispozici analýzy na úrovni použití a přehledy jsou seřazeny na začátku seznamu na základě analýzy protokolů na základě počtu jedinečných uživatelů. A to není ono. Kromě obecných charakteristik jsme také poskytli podrobný popis atributového složení reportů s příklady hodnot a metod výpočtu. Takové detaily okamžitě dávají uživateli odpověď, zda je pro něj zpráva užitečná nebo ne.

Vývoj tohoto modulu byl důležitým krokem v demokratizaci dat a výrazně zkrátil čas potřebný k vyhledání požadovaných informací. Kromě zkrácení doby vyhledávání se také snížil počet žádostí týmu podpory o poskytnutí konzultací. Nelze nepoznamenat další užitečný výsledek, kterého jsme dosáhli vytvořením jednotné evidence výkazů – zamezení vzniku duplicitních výkazů pro různé strukturální jednotky.

Obchodní glosář

Všichni víte, že i v rámci jedné společnosti mluví podniky různými jazyky. Ano, používají stejné výrazy, ale znamenají úplně jiné věci. K vyřešení tohoto problému je navržen obchodní glosář.

Obchodní glosář pro nás není jen referenční knihou s popisem pojmů a metodikou výpočtu. Jedná se o plnohodnotné prostředí pro vývoj, odsouhlasení a schvalování terminologie, budování vztahů mezi pojmy a dalšími informačními aktivy společnosti. Před vstupem do obchodního glosáře musí termín projít všemi fázemi schválení s firemními zákazníky a centrem kvality dat. Teprve poté bude k dispozici pro použití.

Jak jsem psal výše, jedinečnost tohoto nástroje je v tom, že umožňuje napojení z úrovně obchodního termínu na konkrétní uživatelské sestavy, ve kterých je použit, a také na úroveň fyzických databázových objektů.

Vnitropodniková správa dat

To je možné díky použití slovníkových identifikátorů termínů v podrobném popisu zpráv registru a popisu fyzických databázových objektů.

V současné době je ve slovníku definováno a dohodnuto více než 4000 XNUMX termínů. Jeho použití zjednodušuje a zrychluje zpracování příchozích požadavků na změny v informačních systémech společnosti. Pokud je požadovaný indikátor již implementován v jakémkoli reportu, pak uživatel okamžitě uvidí sadu připravených reportů, kde je tento indikátor použit, a bude se moci rozhodnout o efektivním opětovném použití stávající funkcionality nebo její minimální úpravě, aniž by spouštěl nové požadavky na vypracování nové zprávy.

Modul pro popis technických transformací a DataLineage

Co jsou to za moduly, ptáte se? Nestačí pouze implementovat Registr reportů a Glosář, ale je také nutné založit všechny obchodní podmínky na fyzickém databázovém modelu. Podařilo se nám tak dokončit proces formování životního cyklu dat od zdrojových systémů až po vizualizaci BI přes všechny vrstvy datového skladu. Jinými slovy, vytvořte DataLineage.

Vyvinuli jsme rozhraní založené na formátu používaném dříve ve společnosti pro popis pravidel a logiky transformace dat. Přes rozhraní se zadávají stejné informace jako dříve, ale nezbytnou podmínkou se stala definice pojmu identifikátor z obchodního slovníku. Tímto způsobem budujeme spojení mezi obchodní a fyzickou vrstvou.

kdo to potřebuje? Co bylo špatného na starém formátu, se kterým jste několik let pracoval? O kolik se zvýšily mzdové náklady na generování požadavků? S takovými otázkami jsme se museli vypořádat při implementaci nástroje. Odpovědi jsou poměrně jednoduché – potřebujeme to všichni, datová kancelář naší společnosti i naši uživatelé.

Zaměstnanci se skutečně museli přizpůsobit, zpočátku to vedlo k mírnému zvýšení mzdových nákladů na přípravu dokumentace, ale tento problém jsme vyřešili. Cvičení, identifikace a optimalizace problémových oblastí udělaly své. Dosáhli jsme toho hlavního – zkvalitnili jsme vypracované požadavky. Povinná pole, jednotné referenční knihy, vstupní masky, vestavěné kontroly – to vše umožnilo výrazně zlepšit kvalitu popisů transformací. Upustili jsme od praxe předávání skriptů jako požadavků na vývoj a sdílení znalostí, které byly dostupné pouze vývojovému týmu. Vygenerovaná databáze metadat výrazně zkracuje čas potřebný k provedení regresní analýzy a poskytuje možnost rychle vyhodnotit dopad změn na jakoukoli vrstvu prostředí IT (předváděcí sestavy, agregáty, zdroje).

Co to má společného s běžnými uživateli reportů, jaké to pro ně má výhody? Díky schopnosti budovat DataLineage naši uživatelé, i ti, kteří mají daleko k SQL a jiným programovacím jazykům, rychle dostávají informace o zdrojích a objektech, na jejichž základě je generována konkrétní sestava.

Modul kontroly kvality dat

Vše, o čem jsme hovořili výše, pokud jde o zajištění transparentnosti dat, není důležité, aniž bychom pochopili, že data, která uživatelům poskytujeme, jsou správná. Jedním z důležitých modulů našeho konceptu Data Governance je modul kontroly kvality dat.

V současné fázi se jedná o katalog kontrol pro vybrané subjekty. Bezprostředním cílem vývoje produktu je rozšíření seznamu kontrol a integrace s registrem hlášení.
Co to dá a komu? Koncový uživatel registru bude mít přístup k informacím o plánovaných a skutečných termínech připravenosti hlášení, výsledcích provedených kontrol s dynamikou a informacím o zdrojích načtených do hlášení.

Pro nás je modul kvality dat integrovaný do našich pracovních procesů:

  • Pohotové formování očekávání zákazníků.
  • Rozhodování o dalším využití dat.
  • Získání předběžného souboru problémových bodů v počátečních fázích práce pro vývoj pravidelných kontrol kvality.

To jsou samozřejmě první kroky k vybudování plnohodnotného procesu správy dat. Jsme si ale jisti, že pouze cílevědomým prováděním této práce, aktivním zaváděním nástrojů Data Governance do pracovního procesu poskytneme našim klientům informační obsah, vysokou míru důvěry v data, transparentnost jejich příjmu a zvýšíme rychlost spouštění novou funkcionalitu.

Tým DataOffice

Zdroj: www.habr.com

Přidat komentář