Governança de dades interna

Hola Habr!

Les dades són l'actiu més valuós d'una empresa. Gairebé totes les empreses amb enfocament digital ho declaren. És difícil discutir amb això: no es fa cap conferència de TI important sense discutir els enfocaments per gestionar, emmagatzemar i processar dades.

Les dades ens arriben de fora, també es generen dins de l'empresa, i si parlem de dades d'una empresa de telecomunicacions, per als empleats interns aquest és un magatzem d'informació sobre el client, els seus interessos, hàbits i ubicació. Amb un perfil i una segmentació adequats, les ofertes publicitàries són més efectives. Tanmateix, a la pràctica, no tot és tan rosat. Les dades que emmagatzemen les empreses poden estar irremediablement obsoletes, redundants, repetitives, o la seva existència és desconeguda per a ningú, excepte per a un cercle reduït d'usuaris. ¯_(ツ)_/¯

Governança de dades interna
En una paraula, les dades s'han de gestionar de manera eficaç; només així es convertiran en un actiu que aporti beneficis i beneficis reals al negoci. Malauradament, resoldre problemes de gestió de dades requereix superar moltes complexitats. Es deuen principalment tant al llegat històric en forma de "zoològics" de sistemes com a la manca de processos i enfocaments unificats per a la seva gestió. Però, què vol dir estar "controlat per dades"?

Això és exactament del que parlarem sota el tall, així com de com ens va ajudar la pila de codi obert.

El concepte de gestió estratègica de dades Data Governance (DG) ja és força conegut al mercat rus, i els objectius assolits per les empreses com a resultat de la seva implementació són clars i clarament declarats. La nostra empresa no va ser una excepció i es va plantejar la tasca d'introduir el concepte de gestió de dades.

Llavors, per on vam començar? Per començar, ens vam plantejar objectius clau:

  1. Mantenir les nostres dades accessibles.
  2. Garantir la transparència del cicle de vida de les dades.
  3. Proporcioneu als usuaris de l'empresa dades coherents i coherents.
  4. Proporcioneu als usuaris de l'empresa dades verificades.

Avui, hi ha una dotzena d'eines de classe de govern de dades al mercat del programari.

Governança de dades interna

Però després d'una anàlisi i un estudi detallats de les solucions, vam registrar una sèrie de comentaris crítics per a nosaltres mateixos:

  • La majoria de fabricants ofereixen un conjunt complet de solucions, que per a nosaltres és redundant i duplica la funcionalitat existent. A més, cara en termes de recursos, integració en el panorama informàtic actual.
  • La funcionalitat i la interfície estan dissenyades per a tecnòlegs, no per a usuaris finals empresarials.
  • Baixa taxa de supervivència dels productes i manca d'implementacions reeixides al mercat rus.
  • Alt cost del programari i suport addicional.

Els criteris i recomanacions expressades anteriorment pel que fa a la substitució d'importació de programari per a les empreses russes ens van convèncer a avançar cap al nostre propi desenvolupament en una pila de codi obert. La plataforma que vam escollir va ser Django, un framework de codi obert i gratuït escrit en Python. I així hem identificat mòduls clau que contribuiran als objectius indicats anteriorment:

  1. Registre d'informes.
  2. Glossari empresarial.
  3. Mòdul de descripció de transformacions tècniques.
  4. Mòdul per descriure el cicle de vida de les dades des de la font fins a l'eina de BI.
  5. Mòdul de control de qualitat de dades.

Governança de dades interna

Registre d'informes

Segons els resultats d'estudis interns en grans empreses, a l'hora de resoldre problemes relacionats amb les dades, els empleats dediquen entre el 40 i el 80% del seu temps a buscar-los. Per tant, ens vam proposar fer informació oberta sobre informes existents que abans estaven disponibles només per als clients. Així, reduïm el temps de generació de nous informes i garantim la democratització de les dades.

Governança de dades interna

El registre d'informes s'ha convertit en una finestra d'informes única per als usuaris interns de diverses regions, departaments i divisions. Consolida la informació dels serveis d'informació creada en diversos repositoris corporatius de l'empresa, i n'hi ha molts a Rostelecom.

Però el registre no és només una llista seca d'informes desenvolupats. Per a cada informe, proporcionem la informació necessària perquè l'usuari es familiaritzi amb ell:

  • breu descripció de l'informe;
  • profunditat de la disponibilitat de dades;
  • segment de clients;
  • eina de visualització;
  • nom de l'emmagatzematge corporatiu;
  • requisits funcionals empresarials;
  • enllaç a l'informe;
  • enllaç a la sol·licitud d'accés;
  • estat d'execució.

Les analítiques del nivell d'ús estan disponibles per als informes i els informes es classifiquen a la part superior de la llista en funció de les analítiques de registre en funció del nombre d'usuaris únics. I això no és tot. A més de les característiques generals, també hem proporcionat una descripció detallada de la composició d'atributs dels informes amb exemples de valors i mètodes de càlcul. Aquests detalls donen immediatament a l'usuari una resposta sobre si l'informe li és útil o no.

El desenvolupament d'aquest mòdul va suposar un pas important en la democratització de les dades i va reduir considerablement el temps necessari per trobar la informació requerida. A més de reduir el temps de cerca, també s'ha reduït el nombre de peticions a l'equip d'assistència per oferir consultes. És impossible no assenyalar un altre resultat útil que vam aconseguir mitjançant el desenvolupament d'un registre unificat d'informes, evitant el desenvolupament d'informes duplicats per a diferents unitats estructurals.

Glossari empresarial

Tots sabeu que fins i tot dins de la mateixa empresa, les empreses parlen idiomes diferents. Sí, fan servir els mateixos termes, però signifiquen coses completament diferents. Un glossari empresarial està dissenyat per resoldre aquest problema.

Per a nosaltres, un glossari empresarial no és només un llibre de referència amb una descripció de termes i una metodologia de càlcul. Aquest és un entorn complet per desenvolupar, acordar i aprovar terminologia, establir relacions entre termes i altres actius d'informació de l'empresa. Abans d'entrar al glossari empresarial, un terme ha de passar per totes les etapes d'aprovació amb els clients empresarials i el centre de qualitat de dades. Només després d'això està disponible per al seu ús.

Com he escrit més amunt, la singularitat d'aquesta eina és que permet connexions des del nivell d'un terme empresarial fins a informes d'usuari específics en què s'utilitza, així com al nivell d'objectes físics de la base de dades.

Governança de dades interna

Això és possible gràcies a l'ús d'identificadors de termes de glossari en la descripció detallada dels informes de registre i la descripció dels objectes físics de la base de dades.

Actualment, al Glossari s'han definit i acordat més de 4000 termes. El seu ús simplifica i agilitza la tramitació de les sol·licituds entrants de canvis en els sistemes d'informació de l'empresa. Si l'indicador requerit ja està implementat en qualsevol informe, l'usuari veurà immediatament un conjunt d'informes preparats on s'utilitza aquest indicador i podrà decidir sobre la reutilització efectiva de la funcionalitat existent o la seva modificació mínima, sense iniciar noves sol·licituds per a l'elaboració d'un nou informe.

Mòdul de descripció de transformacions tècniques i DataLineage

Quins són aquests mòduls, et preguntes? No n'hi ha prou amb simplement implementar el Registre d'informes i el glossari, sinó que també cal basar tots els termes comercials en el model de base de dades física. Així, vam poder completar el procés de formació del cicle de vida de les dades des dels sistemes font fins a la visualització de BI a través de totes les capes del magatzem de dades. En altres paraules, creeu un DataLineage.

Hem desenvolupat una interfície basada en el format utilitzat anteriorment a l'empresa per descriure les regles i la lògica de la transformació de dades. A través de la interfície s'introdueix la mateixa informació que abans, però la definició del terme identificador del glossari empresarial s'ha convertit en un requisit previ. Així és com construïm una connexió entre les capes empresarials i físiques.

Qui ho necessita? Què hi havia de dolent amb el format antic amb el qual vas treballar durant uns quants anys? Quant han augmentat els costos laborals per generar necessitats? Hem hagut de tractar aquestes preguntes durant la implementació de l'eina. Les respostes aquí són força senzilles: tots ho necessitem, l'oficina de dades de la nostra empresa i els nostres usuaris.

Efectivament, els empleats s'han hagut d'adaptar; en un principi, això va comportar un lleuger augment dels costos laborals per a l'elaboració de la documentació, però vam resoldre aquest problema. La pràctica, la identificació i l'optimització de les àrees problemàtiques han fet la seva feina. Hem aconseguit el més important: hem millorat la qualitat dels requisits desenvolupats. Camps obligatoris, llibres de referència unificats, màscares d'entrada, comprovacions integrades: tot això va permetre millorar significativament la qualitat de les descripcions de transformació. Ens vam allunyar de la pràctica de lliurar scripts com a requisits de desenvolupament i compartim coneixements que només estaven disponibles per a l'equip de desenvolupament. La base de dades de metadades generada redueix significativament el temps necessari per dur a terme l'anàlisi de regressió i ofereix la possibilitat d'avaluar ràpidament l'impacte dels canvis en qualsevol capa del panorama informàtic (informes d'aparador, agregats, fonts).

Què té a veure això amb els usuaris habituals dels informes, quins avantatges tenen per a ells? Gràcies a la capacitat de construir DataLineage, els nostres usuaris, fins i tot aquells allunyats d'SQL i altres llenguatges de programació, reben ràpidament informació sobre les fonts i els objectes a partir dels quals es genera un informe concret.

Mòdul de control de qualitat de dades

Tot el que hem parlat anteriorment pel que fa a garantir la transparència de les dades no és important sense entendre que les dades que donem als usuaris són correctes. Un dels mòduls importants del nostre concepte de governança de dades és el mòdul de control de qualitat de dades.

En l'etapa actual, es tracta d'un catàleg de xecs per a les entitats seleccionades. L'objectiu immediat per al desenvolupament del producte és ampliar la llista de comprovacions i integrar-se amb el registre d'informes.
Què donarà i a qui? L'usuari final del registre tindrà accés a informació sobre les dates previstes i reals de preparació de l'informe, els resultats de les comprovacions realitzades amb dinàmiques i informació sobre les fonts carregades a l'informe.

Per a nosaltres, el mòdul de qualitat de dades integrat als nostres processos de treball és:

  • Formació ràpida de les expectatives dels clients.
  • Prendre decisions sobre l'ús posterior de les dades.
  • Obtenció d'un conjunt preliminar de punts problemàtics en les fases inicials del treball per al desenvolupament de controls de qualitat regulars.

Per descomptat, aquests són els primers passos per construir un procés complet de gestió de dades. Però estem segurs que només fent aquesta feina amb propòsit, introduint activament eines de govern de dades en el procés de treball, oferirem als nostres clients contingut informatiu, un alt nivell de confiança en les dades, transparència en la seva recepció i augmentarem la velocitat de llançament. nova funcionalitat.

Equip de DataOffice

Font: www.habr.com

Afegeix comentari