Guvernarea datelor internă

Hei Habr!

Datele sunt cel mai valoros activ al unei companii. Aproape fiecare companie digitală susține acest lucru. Este greu de argumentat cu acest lucru: nu are loc nicio conferință IT majoră fără a discuta despre abordările de gestionare, stocare și procesare a datelor.

Datele ne vin din exterior, sunt generate și în cadrul companiei, iar dacă vorbim despre date de la o companie de telecomunicații, atunci pentru angajații interni acesta este un depozit de informații despre client, interesele, obiceiurile și locația acestuia. Cu o profilare și o segmentare adecvată, ofertele publicitare sunt cele mai eficiente. Cu toate acestea, în practică, nu totul este atât de roz. Datele pe care companiile le stochează pot fi iremediabil depășite, redundante, repetitive sau existența lor este necunoscută de nimeni, cu excepția unui cerc restrâns de utilizatori. ¯_(ツ)_/¯

Guvernarea datelor internă
Într-un cuvânt, datele trebuie gestionate eficient - abia atunci vor deveni un activ care aduce beneficii reale și profit afacerii. Din păcate, rezolvarea problemelor de gestionare a datelor necesită depășirea multor complexități. Ele se datorează în principal atât moștenirii istorice sub formă de „grădini zoologice” a sistemelor, cât și lipsei de procese și abordări unificate ale managementului acestora. Dar ce înseamnă să fii „condus pe date”?

Este exact despre ce vom vorbi sub tăietură, precum și despre cum ne-a ajutat stiva opensource.

Conceptul de management strategic al datelor Data Governance (DG) este deja destul de cunoscut pe piața rusă, iar obiectivele atinse de afaceri ca urmare a implementării sale sunt clare și clar declarate. Compania noastră nu a făcut excepție și și-a propus să introducă conceptul de management al datelor.

Deci de unde am început? Pentru început, ne-am format obiective cheie pentru noi înșine:

  1. Păstrați datele noastre accesibile.
  2. Asigurați transparența ciclului de viață al datelor.
  3. Oferiți utilizatorilor companiei date consecvente și consecvente.
  4. Oferiți utilizatorilor companiei date verificate.

Astăzi, pe piața de software există o duzină de instrumente de clasă Data Governance.

Guvernarea datelor internă

Dar după o analiză și un studiu detaliat al soluțiilor, am înregistrat o serie de comentarii critice pentru noi înșine:

  • Majoritatea producătorilor oferă un set cuprinzător de soluții, care pentru noi este redundant și dublează funcționalitățile existente. În plus, costisitoare din punct de vedere al resurselor, integrarea în peisajul IT actual.
  • Funcționalitatea și interfața sunt concepute pentru tehnologi, nu pentru utilizatorii finali de afaceri.
  • Rata scăzută de supraviețuire a produselor și lipsa implementărilor de succes pe piața rusă.
  • Cost ridicat al software-ului și asistență suplimentară.

Criteriile și recomandările exprimate mai sus cu privire la înlocuirea importurilor de software pentru companiile rusești ne-au convins să mergem către propria noastră dezvoltare pe o stivă opensource. Platforma pe care am ales-o a fost Django, un framework gratuit și open source scris în Python. Și astfel am identificat module cheie care vor contribui la obiectivele menționate mai sus:

  1. Registrul rapoartelor.
  2. Glosar de afaceri.
  3. Modul pentru descrierea transformărilor tehnice.
  4. Modul pentru descrierea ciclului de viață al datelor de la sursă la instrumentul BI.
  5. Modul de control al calității datelor.

Guvernarea datelor internă

Registrul rapoartelor

Conform rezultatelor studiilor interne în companii mari, atunci când rezolvă probleme legate de date, angajații petrec 40-80% din timp căutându-le. Prin urmare, ne-am propus să facem informații deschise despre rapoartele existente, care anterior erau disponibile doar clienților. Astfel, reducem timpul pentru generarea de noi rapoarte și asigurăm democratizarea datelor.

Guvernarea datelor internă

Registrul de raportare a devenit o fereastră unică de raportare pentru utilizatorii interni din diferite regiuni, departamente și divizii. Consolidează informațiile despre serviciile de informare create în mai multe depozite corporative ale companiei și există multe dintre ele în Rostelecom.

Dar registrul nu este doar o listă uscată de rapoarte elaborate. Pentru fiecare raport, oferim informațiile necesare pentru ca utilizatorul să se familiarizeze cu acesta:

  • o scurtă descriere a raportului;
  • profunzimea disponibilității datelor;
  • segmentul de clienți;
  • instrument de vizualizare;
  • numele depozitului corporativ;
  • cerințe funcționale ale afacerii;
  • link către raport;
  • link către cererea de acces;
  • starea de implementare.

Analizele nivelului de utilizare sunt disponibile pentru rapoarte, iar rapoartele sunt clasate în partea de sus a listei pe baza analizelor de jurnal pe baza numărului de utilizatori unici. Și asta nu este. Pe lângă caracteristicile generale, am oferit și o descriere detaliată a compoziției atributelor rapoartelor cu exemple de valori și metode de calcul. O astfel de detaliere oferă imediat utilizatorului un răspuns dacă raportul îi este util sau nu.

Dezvoltarea acestui modul a fost un pas important în democratizarea datelor și a redus semnificativ timpul necesar pentru găsirea informațiilor necesare. Pe lângă reducerea timpului de căutare, a scăzut și numărul de solicitări către echipa de asistență pentru a oferi consultații. Este imposibil să nu remarcăm un alt rezultat util pe care l-am obținut prin dezvoltarea unui registru unificat al rapoartelor - împiedicând dezvoltarea rapoartelor duplicate pentru diferite unități structurale.

Glosar de afaceri

Știți cu toții că, chiar și în cadrul aceleiași companii, companiile vorbesc limbi diferite. Da, folosesc aceiași termeni, dar înseamnă lucruri complet diferite. Un glosar de afaceri este conceput pentru a rezolva această problemă.

Pentru noi, un glosar de afaceri nu este doar o carte de referință cu o descriere a termenilor și o metodologie de calcul. Acesta este un mediu cu drepturi depline pentru dezvoltarea, acordul și aprobarea terminologiei, construirea de relații între termeni și alte active informative ale companiei. Înainte de a intra în glosarul de afaceri, un termen trebuie să treacă prin toate etapele aprobării cu clienții de afaceri și cu centrul de calitate a datelor. Abia după aceasta devine disponibil pentru utilizare.

Așa cum am scris mai sus, unicitatea acestui instrument constă în faptul că permite conexiuni de la nivelul unui termen de afaceri la rapoartele specifice ale utilizatorilor în care este utilizat, precum și la nivelul obiectelor fizice ale bazei de date.

Guvernarea datelor internă

Acest lucru este posibil prin utilizarea identificatorilor de termeni din glosar în descrierea detaliată a rapoartelor de registru și în descrierea obiectelor fizice ale bazei de date.

În prezent, în Glosar au fost definiți și conveniți peste 4000 de termeni. Utilizarea acestuia simplifică și accelerează procesarea cererilor primite de modificări în sistemele informaționale ale companiei. Dacă indicatorul necesar este deja implementat în orice raport, atunci utilizatorul va vedea imediat un set de rapoarte gata făcute în care este utilizat acest indicator și va putea decide cu privire la reutilizarea efectivă a funcționalității existente sau modificarea minimă a acesteia, fără a iniția noi cereri pentru elaborarea unui nou raport.

Modul pentru descrierea transformărilor tehnice și DataLineage

Ce sunt aceste module, vă întrebați? Nu este suficient să implementați pur și simplu Registrul și Glosarul de rapoarte; este, de asemenea, necesar să bazați toți termenii de afaceri pe modelul bazei de date fizice. Astfel, am putut finaliza procesul de formare a ciclului de viață al datelor de la sistemele sursă la vizualizarea BI prin toate straturile depozitului de date. Cu alte cuvinte, construiți un DataLineage.

Am dezvoltat o interfață bazată pe formatul folosit anterior în companie pentru a descrie regulile și logica transformării datelor. Prin interfață sunt introduse aceleași informații ca și înainte, dar definirea termenului de identificare din glosarul de afaceri a devenit o condiție prealabilă. Acesta este modul în care construim o conexiune între business și straturile fizice.

Cine are nevoie? Ce a fost în neregulă cu vechiul format cu care ai lucrat câțiva ani? Cât de mult au crescut costurile cu forța de muncă pentru generarea cerințelor? A trebuit să ne confruntăm cu astfel de întrebări în timpul implementării instrumentului. Răspunsurile aici sunt destul de simple - avem cu toții nevoie de asta, biroul de date al companiei noastre și utilizatorii noștri.

Într-adevăr, angajații au fost nevoiți să se adapteze; la început, acest lucru a dus la o ușoară creștere a costurilor cu forța de muncă pentru întocmirea documentației, dar am rezolvat această problemă. Practicarea, identificarea și optimizarea zonelor cu probleme și-au făcut treaba. Am realizat principalul lucru - am îmbunătățit calitatea cerințelor dezvoltate. Câmpuri obligatorii, cărți de referință unificate, măști de intrare, verificări încorporate - toate acestea au făcut posibilă îmbunătățirea semnificativă a calității descrierilor transformărilor. Ne-am îndepărtat de practica de a preda scripturi ca cerințe de dezvoltare și am împărtășit cunoștințele care erau disponibile doar echipei de dezvoltare. Baza de date de metadate generată reduce semnificativ timpul necesar pentru efectuarea analizei de regresie și oferă posibilitatea de a evalua rapid impactul modificărilor asupra oricărui nivel al peisajului IT (rapoarte vitrine, agregate, surse).

Ce legătură are acest lucru cu utilizatorii obișnuiți ai rapoartelor, care sunt avantajele pentru aceștia? Datorită capacității de a construi DataLineage, utilizatorii noștri, chiar și cei departe de SQL și alte limbaje de programare, primesc rapid informații despre sursele și obiectele pe baza cărora este generat un anumit raport.

Modul de control al calității datelor

Tot ceea ce am vorbit mai sus în ceea ce privește asigurarea transparenței datelor nu este important fără a înțelege că datele pe care le oferim utilizatorilor sunt corecte. Unul dintre modulele importante ale conceptului nostru de guvernare a datelor este modulul de control al calității datelor.

În stadiul actual, acesta este un catalog de verificări pentru entitățile selectate. Scopul imediat pentru dezvoltarea produsului este extinderea listei de verificări și integrarea cu registrul de raportare.
Ce va oferi și cui? Utilizatorul final al registrului va avea acces la informații despre datele planificate și reale de pregătire a raportului, rezultatele verificărilor finalizate cu dinamică și informații despre sursele încărcate în raport.

Pentru noi, modulul de calitate a datelor integrat în procesele noastre de lucru este:

  • Formarea promptă a așteptărilor clienților.
  • Luarea deciziilor privind utilizarea ulterioară a datelor.
  • Obținerea unui set preliminar de puncte problematice la etapele inițiale de lucru pentru dezvoltarea controalelor regulate de calitate.

Desigur, aceștia sunt primii pași în construirea unui proces de gestionare a datelor cu drepturi depline. Dar suntem încrezători că numai prin realizarea intenționată a acestei lucrări, prin introducerea activă a instrumentelor de guvernare a datelor în procesul de lucru, vom oferi clienților noștri conținut informațional, un nivel ridicat de încredere în date, transparență în primirea acestora și creșterea vitezei de lansare. noua functionalitate.

Echipa DataOffice

Sursa: www.habr.com

Adauga un comentariu