In-house upravljanje podacima

Hej Habr!

Podaci su najvrednija imovina kompanije. Gotovo svaka kompanija sa digitalnim fokusom to izjavljuje. Teško je raspravljati s ovim: nijedna velika IT konferencija se ne održava bez rasprave o pristupima upravljanju, pohranjivanju i obradi podataka.

Podaci nam dolaze spolja, generišu se i unutar kompanije, a ako govorimo o podacima iz telekom kompanije, onda je za interne zaposlene ovo skladište informacija o klijentu, njegovim interesovanjima, navikama i lokaciji. Uz pravilno profilisanje i segmentaciju, reklamne ponude su najefikasnije. Međutim, u praksi nije sve tako ružičasto. Podaci koje kompanije pohranjuju mogu biti beznadežno zastarjeli, suvišni, ponavljajući se ili je njihovo postojanje nepoznato nikome osim uskom krugu korisnika. ¯_(ツ)_/¯

In-house upravljanje podacima
Jednom riječju, podacima se mora efikasno upravljati – tek tada će oni postati imovina koja donosi stvarne koristi i profit poslovanju. Nažalost, rješavanje problema upravljanja podacima zahtijeva prevazilaženje dosta složenosti. Oni su uglavnom zbog istorijskog naslijeđa u obliku „zooloških vrtova“ sistema i nedostatka jedinstvenih procesa i pristupa njihovom upravljanju. Ali šta znači biti „vođen podacima“?

Upravo o tome ćemo pričati pod rezom, kao i o tome kako nam je opensource stek pomogao.

Koncept strateškog upravljanja podacima Data Governance (DG) je već prilično poznat na ruskom tržištu, a ciljevi koje poslovanje ostvaruje kao rezultat njegove implementacije su jasni i jasno deklarirani. Naša kompanija nije bila izuzetak i postavila je sebi zadatak da uvede koncept upravljanja podacima.

Pa odakle smo počeli? Za početak, formirali smo ključne ciljeve za sebe:

  1. Neka naši podaci budu dostupni.
  2. Osigurati transparentnost životnog ciklusa podataka.
  3. Omogućite korisnicima kompanije dosljedne, konzistentne podatke.
  4. Omogućite korisnicima kompanije provjerene podatke.

Danas na tržištu softvera postoji desetak alata klase upravljanja podacima.

In-house upravljanje podacima

No, nakon detaljne analize i proučavanja rješenja, zabilježili smo niz kritičnih komentara za sebe:

  • Većina proizvođača nudi sveobuhvatan skup rješenja, koji je za nas suvišan i duplira postojeću funkcionalnost. Plus, skup u smislu resursa, integracija u trenutni IT pejzaž.
  • Funkcionalnost i interfejs dizajnirani su za tehnologe, a ne za poslovne korisnike.
  • Niska stopa preživljavanja proizvoda i nedostatak uspješnih implementacija na ruskom tržištu.
  • Visoka cijena softvera i daljnje podrške.

Gore navedeni kriterijumi i preporuke u vezi sa zamenom uvoza softvera za ruske kompanije ubedili su nas da krenemo ka sopstvenom razvoju na steku otvorenog koda. Platforma koju smo odabrali je Django, besplatni okvir otvorenog koda napisan na Pythonu. I tako smo identifikovali ključne module koji će doprineti gore navedenim ciljevima:

  1. Registar izvještaja.
  2. Poslovni pojmovnik.
  3. Modul za opisivanje tehničkih transformacija.
  4. Modul za opisivanje životnog ciklusa podataka od izvora do BI alata.
  5. Modul kontrole kvaliteta podataka.

In-house upravljanje podacima

Registar izvještaja

Prema rezultatima internih studija u velikim kompanijama, prilikom rješavanja problema vezanih za podatke, zaposleni provode 40-80% svog vremena tražeći ih. Stoga smo si postavili zadatak da otvorimo informacije o postojećim izvještajima koji su do sada bili dostupni samo kupcima. Time smanjujemo vrijeme za generiranje novih izvještaja i osiguravamo demokratizaciju podataka.

In-house upravljanje podacima

Registar prijavljivanja postao je jedinstveni prozor za izvještavanje za interne korisnike iz različitih regija, odjela i odjeljenja. Objedinjuje informacije o informacijskim uslugama kreiranim u nekoliko korporativnih repozitorija kompanije, a ima ih mnogo u Rostelecomu.

Ali registar nije samo suha lista izrađenih izvještaja. Za svaki izvještaj dajemo informacije potrebne kako bi se korisnik upoznao s njim:

  • kratak opis izvještaja;
  • dubina dostupnosti podataka;
  • segment kupaca;
  • alat za vizualizaciju;
  • naziv korporativnog skladišta;
  • poslovni funkcionalni zahtjevi;
  • link do izvještaja;
  • link do aplikacije za pristup;
  • status implementacije.

Analitika nivoa upotrebe dostupna je za izveštaje, a izveštaji su rangirani na vrhu liste na osnovu analitike dnevnika na osnovu broja jedinstvenih korisnika. I to nije to. Pored opštih karakteristika, dali smo i detaljan opis sastava atributa izveštaja sa primerima vrednosti i metoda izračunavanja. Takva detaljizacija odmah daje korisniku odgovor da li mu je izvještaj koristan ili ne.

Razvoj ovog modula bio je važan korak u demokratizaciji podataka i značajno je smanjio vrijeme potrebno za pronalaženje potrebnih informacija. Pored smanjenja vremena pretraživanja, smanjen je i broj zahtjeva timu za podršku za pružanje konsultacija. Nemoguće je ne istaći još jedan koristan rezultat koji smo postigli izradom jedinstvenog registra izvještaja – sprječavanje izrade duplikata izvještaja za različite strukturne jedinice.

Poslovni pojmovnik

Svi znate da čak i unutar iste kompanije, preduzeća govore različite jezike. Da, koriste iste izraze, ali znače potpuno različite stvari. Poslovni pojmovnik je dizajniran da riješi ovaj problem.

Poslovni pojmovnik za nas nije samo priručnik sa opisom pojmova i metodologijom obračuna. Ovo je potpuno okruženje za razvoj, dogovaranje i odobravanje terminologije, izgradnju odnosa između termina i drugih informacionih sredstava kompanije. Prije ulaska u poslovni pojmovnik, termin mora proći sve faze odobrenja kod poslovnih korisnika i centra za kvalitet podataka. Tek nakon toga postaje dostupan za upotrebu.

Kao što sam gore napisao, jedinstvenost ovog alata je u tome što omogućava povezivanje od nivoa poslovnog pojma do određenih korisničkih izveštaja u kojima se koristi, kao i do nivoa fizičkih objekata baze podataka.

In-house upravljanje podacima

Ovo je omogućeno upotrebom identifikatora termina u glosaru u detaljnom opisu izveštaja registra i opisu fizičkih objekata baze podataka.

Trenutno je više od 4000 pojmova definisano i dogovoreno u Glosaru. Njegova upotreba pojednostavljuje i ubrzava obradu pristiglih zahtjeva za izmjenom informacionih sistema kompanije. Ako je traženi indikator već implementiran u bilo kojem izvještaju, tada će korisnik odmah vidjeti skup gotovih izvještaja u kojima se koristi ovaj indikator i moći će odlučiti o efektivnoj ponovnoj upotrebi postojeće funkcionalnosti ili njenoj minimalnoj modifikaciji, bez pokretanja novi zahtjevi za izradu novog izvještaja.

Modul za opisivanje tehničkih transformacija i DataLineage

Šta su to moduli, pitate se? Nije dovoljno samo implementirati Registar izvještaja i Glosar, potrebno je sve poslovne pojmove utemeljiti na modelu fizičke baze podataka. Tako smo uspjeli da završimo proces formiranja životnog ciklusa podataka od izvornih sistema do BI vizualizacije kroz sve slojeve skladišta podataka. Drugim riječima, izgradite DataLineage.

Razvili smo interfejs baziran na formatu koji se ranije koristio u kompaniji za opisivanje pravila i logike transformacije podataka. Kroz interfejs se unose iste informacije kao i do sada, ali je definicija pojma identifikator iz poslovnog rečnika postala preduslov. Na taj način gradimo vezu između poslovnog i fizičkog sloja.

Kome to treba? Šta nije u redu sa starim formatom s kojim ste radili nekoliko godina? Koliko su porasli troškovi rada za stvaranje zahtjeva? Morali smo da se pozabavimo takvim pitanjima tokom implementacije alata. Odgovori su ovdje prilično jednostavni - ovo nam je svima potrebno, uredu podataka naše kompanije i našim korisnicima.

Zaposleni su se zaista morali prilagoditi, to je u početku dovelo do blagog povećanja troškova rada za izradu dokumentacije, ali smo riješili ovaj problem. Praksa, identifikacija i optimizacija problematičnih područja učinili su svoj posao. Postigli smo glavno - poboljšali smo kvalitet razvijenih zahtjeva. Obavezna polja, objedinjene referentne knjige, maske unosa, ugrađene provjere - sve je to omogućilo značajno poboljšanje kvalitete opisa transformacije. Odmaknuli smo se od prakse predaje skripti kao razvojnih zahtjeva i podijelili znanje koje je bilo dostupno samo razvojnom timu. Generirana baza metapodataka značajno smanjuje vrijeme potrebno za provođenje regresione analize i pruža mogućnost brze procjene utjecaja promjena na bilo koji sloj IT pejzaža (izlog izvještaja, agregata, izvora).

Kakve to veze ima sa običnim korisnicima izvještaja, koje su prednosti za njih? Zahvaljujući mogućnosti izgradnje DataLineage-a, naši korisnici, čak i oni koji su daleko od SQL-a i drugih programskih jezika, brzo dobijaju informacije o izvorima i objektima na osnovu kojih se generira određeni izvještaj.

Modul kontrole kvaliteta podataka

Sve o čemu smo gore govorili u smislu osiguravanja transparentnosti podataka nije važno bez razumijevanja da su podaci koje dajemo korisnicima tačni. Jedan od važnih modula našeg koncepta upravljanja podacima je modul kontrole kvaliteta podataka.

U trenutnoj fazi, ovo je katalog čekova za odabrane entitete. Neposredni cilj razvoja proizvoda je proširenje liste provjera i integracija sa registrom izvještaja.
Šta će to dati i kome? Krajnji korisnik registra imaće pristup informacijama o planiranim i stvarnim datumima spremnosti izvještaja, rezultatima izvršenih provjera sa dinamikom, te informacijama o izvorima učitanim u izvještaj.

Za nas je modul kvaliteta podataka integrisan u naše radne procese:

  • Brzo formiranje očekivanja kupaca.
  • Donošenje odluka o daljoj upotrebi podataka.
  • Dobijanje preliminarnog skupa problemskih tačaka u početnim fazama rada za razvoj redovnih kontrola kvaliteta.

Naravno, ovo su prvi koraci u izgradnji punopravnog procesa upravljanja podacima. No, uvjereni smo da ćemo samo svrsishodnim obavljanjem ovog posla, aktivnim uvođenjem alata upravljanja podacima u radni proces, našim klijentima pružiti informativni sadržaj, visok nivo povjerenja u podatke, transparentnost u njihovom prijemu i povećati brzinu pokretanja nova funkcionalnost.

DataOffice tim

izvor: www.habr.com

Dodajte komentar