Upravljanje podacima unutar tvrtke

Hej Habr!

Podaci su najvrjednija imovina tvrtke. Gotovo svaka digitalna tvrtka to tvrdi. Teško je raspravljati s ovime: niti jedna veća informatička konferencija nije održana bez rasprave o pristupima upravljanju, pohrani i obradi podataka.

Podaci nam dolaze izvana, generiraju se i unutar tvrtke, a ako govorimo o podacima iz telekom kompanije, onda je to za interne zaposlenike skladište informacija o klijentu, njegovim interesima, navikama i lokaciji. Uz pravilno profiliranje i segmentaciju, oglašivačke ponude su najučinkovitije. Međutim, u praksi nije sve tako ružičasto. Podaci koje tvrtke pohranjuju mogu biti beznadno zastarjeli, suvišni, repetitivni ili nikome osim uskom krugu korisnika nije poznato njihovo postojanje. ¯_(ツ)_/¯

Upravljanje podacima unutar tvrtke
Jednom riječju, podacima se mora učinkovito upravljati – tek tada će oni postati imovina koja donosi stvarnu korist i profit poslovanju. Nažalost, rješavanje problema upravljanja podacima zahtijeva prevladavanje dosta složenosti. Oni su uglavnom zbog povijesnog nasljeđa u obliku "zooloških vrtova" sustava i nedostatka jedinstvenih procesa i pristupa njihovom upravljanju. Ali što znači biti "vođen podacima"?

Upravo o tome ćemo govoriti u nastavku, kao i kako nam je opensource stack pomogao.

Koncept strateškog upravljanja podacima Data Governance (DG) već je dobro poznat na ruskom tržištu, a ciljevi koje poslovanje postiže kao rezultat njegove implementacije jasni su i jasno deklarirani. Naša tvrtka nije bila iznimka i postavila si je zadatak uvođenja koncepta upravljanja podacima.

Dakle, gdje smo počeli? Za početak smo si postavili ključne ciljeve:

  1. Neka naši podaci budu dostupni.
  2. Osigurajte transparentnost životnog ciklusa podataka.
  3. Pružite korisnicima tvrtke dosljedne, dosljedne podatke.
  4. Pružite korisnicima tvrtke provjerene podatke.

Danas na tržištu softvera postoji desetak alata klase Data Governance.

Upravljanje podacima unutar tvrtke

No, nakon detaljne analize i proučavanja rješenja, zabilježili smo niz kritičkih komentara za sebe:

  • Većina proizvođača nudi sveobuhvatan skup rješenja, koji je za nas suvišan i duplicira postojeću funkcionalnost. Plus, skupo u smislu resursa, integracije u trenutni IT krajolik.
  • Funkcionalnost i sučelje dizajnirani su za tehnologe, a ne za krajnje poslovne korisnike.
  • Niska stopa preživljavanja proizvoda i nedostatak uspješnih implementacija na ruskom tržištu.
  • Visoka cijena softvera i daljnje podrške.

Gore navedeni kriteriji i preporuke u vezi sa supstitucijom uvoza softvera za ruske tvrtke uvjerili su nas da krenemo prema vlastitom razvoju na opensource stacku. Platforma koju smo odabrali je Django, besplatni okvir otvorenog koda napisan u Pythonu. Stoga smo identificirali ključne module koji će doprinijeti gore navedenim ciljevima:

  1. Registar izvješća.
  2. Poslovni pojmovnik.
  3. Modul za opis tehničkih transformacija.
  4. Modul za opisivanje životnog ciklusa podataka od izvora do BI alata.
  5. Modul kontrole kvalitete podataka.

Upravljanje podacima unutar tvrtke

Registar izvješća

Prema rezultatima internih studija u velikim tvrtkama, prilikom rješavanja problema vezanih uz podatke, zaposlenici troše 40-80% svog vremena tražeći ih. Stoga smo si postavili zadatak učiniti otvorenim informacije o postojećim izvješćima koje su dosad bile dostupne samo korisnicima. Time skraćujemo vrijeme za generiranje novih izvješća i osiguravamo demokratizaciju podataka.

Upravljanje podacima unutar tvrtke

Registar izvještaja postao je jedinstveni prozor za izvještaje za interne korisnike iz različitih regija, odjela i odjela. Konsolidira informacije o informacijskim uslugama stvorenim u nekoliko korporativnih repozitorija tvrtke, a ima ih mnogo u Rostelecomu.

No registar nije samo suhoparan popis razvijenih izvješća. Za svako izvješće dajemo podatke potrebne da se korisnik s njim upozna:

  • kratak opis izvješća;
  • dubina dostupnosti podataka;
  • segment kupaca;
  • alat za vizualizaciju;
  • naziv korporativne pohrane;
  • poslovni funkcionalni zahtjevi;
  • poveznica na izvješće;
  • link na aplikaciju za pristup;
  • status implementacije.

Analitika razine korištenja dostupna je za izvješća, a izvješća su rangirana na vrhu popisa na temelju analitike dnevnika na temelju broja jedinstvenih korisnika. I to nije to. Osim općih karakteristika, dali smo i detaljan opis sastava atributa izvješća s primjerima vrijednosti i metoda izračuna. Takvo detaljiziranje korisniku odmah daje odgovor je li izvješće korisno za njega ili ne.

Razvoj ovog modula bio je važan korak u demokratizaciji podataka i značajno je smanjio vrijeme potrebno za pronalazak traženih informacija. Osim smanjenja vremena pretraživanja, smanjio se i broj zahtjeva timu za podršku za pružanje konzultacija. Nemoguće je ne spomenuti još jedan koristan rezultat koji smo postigli razvojem jedinstvenog registra izvješća - sprječavanje izrade dvostrukih izvješća za različite strukturne jedinice.

Poslovni pojmovnik

Svi znate da čak i unutar iste tvrtke, tvrtke govore različitim jezicima. Da, koriste iste pojmove, ali znače potpuno različite stvari. Poslovni pojmovnik osmišljen je da riješi ovaj problem.

Za nas poslovni pojmovnik nije samo priručnik s opisom pojmova i metodologijom izračuna. Ovo je punopravno okruženje za razvoj, dogovaranje i odobravanje terminologije, izgradnju odnosa između pojmova i drugih informacijskih sredstava tvrtke. Prije ulaska u poslovni pojmovnik, pojam mora proći sve faze odobrenja s poslovnim korisnicima i centrom za kvalitetu podataka. Tek nakon toga postaje dostupan za korištenje.

Kao što sam gore napisao, jedinstvenost ovog alata je u tome što omogućuje povezivanje od razine poslovnog pojma do konkretnih korisničkih izvješća u kojima se koristi, kao i do razine fizičkih objekata baze podataka.

Upravljanje podacima unutar tvrtke

To je omogućeno upotrebom identifikatora pojmova iz glosara u detaljnom opisu izvješća registra i opisu fizičkih objekata baze podataka.

Trenutno je u Pojmovniku definirano i dogovoreno više od 4000 pojmova. Njegovo korištenje pojednostavljuje i ubrzava obradu pristiglih zahtjeva za promjenama u informacijskim sustavima poduzeća. Ako je traženi indikator već implementiran u bilo kojem izvješću, tada će korisnik odmah vidjeti skup gotovih izvješća u kojima se ovaj indikator koristi, te će moći odlučiti o učinkovitoj ponovnoj uporabi postojeće funkcionalnosti ili njezinoj minimalnoj izmjeni, bez pokretanja novi zahtjevi za izradu novog izvješća.

Modul za opisivanje tehničkih transformacija i DataLineage

Pitate se koji su to moduli? Nije dovoljno samo implementirati Registar izvještaja i Glosar, već je potrebno sve poslovne pojmove utemeljiti na fizičkom modelu baze podataka. Time smo uspjeli dovršiti proces formiranja životnog ciklusa podataka od izvornih sustava do BI vizualizacije kroz sve slojeve skladišta podataka. Drugim riječima, izgradite DataLineage.

Razvili smo sučelje temeljeno na formatu koji se dosad koristio u tvrtki za opisivanje pravila i logike transformacije podataka. Kroz sučelje se unose isti podaci kao i dosad, ali je preduvjet postala definicija pojma identifikator iz poslovnog rječnika. Tako gradimo vezu između poslovnog i fizičkog sloja.

Kome to treba? Što nije bilo u redu sa starim formatom s kojim ste radili nekoliko godina? Koliko su porasli troškovi rada za generiranje zahtjeva? Morali smo se pozabaviti takvim pitanjima tijekom implementacije alata. Odgovori su ovdje vrlo jednostavni - svi trebamo ovo, ured za podatke naše tvrtke i naši korisnici.

Doduše, zaposlenici su se morali prilagoditi, to je u početku dovelo do blagog povećanja troškova rada za izradu dokumentacije, ali smo to pitanje riješili. Praksa, identificiranje i optimizacija problematičnih područja učinili su svoje. Postigli smo glavnu stvar - poboljšali smo kvalitetu razvijenih zahtjeva. Obavezna polja, objedinjene referentne knjige, maske za unos, ugrađene provjere - sve je to omogućilo značajno poboljšanje kvalitete opisa transformacije. Odmaknuli smo se od prakse predaje skripti kao razvojnih zahtjeva i dijeljenja znanja koje je bilo dostupno samo razvojnom timu. Generirana baza metapodataka značajno smanjuje vrijeme potrebno za provođenje regresijske analize i pruža mogućnost brze procjene utjecaja promjena na bilo koji sloj IT okruženja (prikazna izvješća, agregati, izvori).

Kakve to veze ima s običnim korisnicima izvješća, koje su prednosti za njih? Zahvaljujući mogućnosti izgradnje DataLineagea, naši korisnici, čak i oni daleko od SQL-a i drugih programskih jezika, brzo dobivaju informacije o izvorima i objektima na temelju kojih se generira određeno izvješće.

Modul kontrole kvalitete podataka

Sve o čemu smo gore govorili u smislu osiguravanja transparentnosti podataka nije važno bez razumijevanja da su podaci koje dajemo korisnicima točni. Jedan od važnih modula našeg koncepta upravljanja podacima je modul kontrole kvalitete podataka.

U trenutnoj fazi to je katalog čekova za odabrane subjekte. Neposredni cilj razvoja proizvoda je proširiti popis provjera i integrirati se s registrom izvješća.
Što će dati i kome? Krajnjem korisniku registra bit će dostupni podaci o planiranim i stvarnim datumima spremnosti izvješća, rezultatima obavljenih provjera s dinamikom, te podaci o izvorima učitanim u izvješće.

Za nas je modul kvalitete podataka integriran u naše radne procese:

  • Brzo formiranje očekivanja kupaca.
  • Donošenje odluka o daljnjem korištenju podataka.
  • Dobivanje preliminarnog skupa problematičnih točaka u početnim fazama rada za razvoj redovitih kontrola kvalitete.

Naravno, ovo su prvi koraci u izgradnji potpunog procesa upravljanja podacima. Ali uvjereni smo da ćemo samo svrsishodnim obavljanjem ovog posla, aktivnim uvođenjem Data Governance alata u radni proces, našim klijentima osigurati informativni sadržaj, visoku razinu povjerenja u podatke, transparentnost u njihovom primitku i povećati brzinu lansiranja nova funkcionalnost.

DataOffice tim

Izvor: www.habr.com

Dodajte komentar