Data Governance yn eigen hûs

Hoi Habr!

Gegevens binne de meast weardefolle asset fan in bedriuw. Hast elk bedriuw mei in digitale fokus ferklearret dit. It is dreech om hjirmei te argumintearjen: gjin inkele grutte IT-konferinsje wurdt hâlden sûnder oanpakken te besprekken foar it behearen, opslaan en ferwurkjen fan gegevens.

Gegevens komme nei ús fan bûten, it wurdt ek generearre binnen it bedriuw, en as wy prate oer gegevens fan in telekombedriuw, dan is dit foar ynterne meiwurkers in opslachhûs fan ynformaasje oer de klant, syn belangen, gewoanten en lokaasje. Mei juste profilearring en segmentaasje binne reklame-oanbiedingen it meast effektyf. Yn 'e praktyk is lykwols net alles sa rooskleurich. De gegevens dy't bedriuwen opslaan kinne hopeleas ferâldere, oerstallich, repetitive wêze, of har bestean is ûnbekend foar elkenien, útsein in smelle sirkel fan brûkers. ¯_(ツ)_/¯

Data Governance yn eigen hûs
Yn in wurd, gegevens moatte effektyf wurde beheard - allinich dan sil it in oanwinst wurde dy't echte foardielen en winst foar it bedriuw bringt. Spitigernôch fereasket it oplossen fan problemen mei gegevensbehear it oerwinnen fan in protte kompleksiteiten. Se binne benammen te tankjen oan sawol de histoaryske erfenis yn 'e foarm fan "dierentuinen" fan systemen en it ûntbrekken fan ferienige prosessen en oanpak foar har behear. Mar wat betsjut it om "gegevens oandreaun" te wêzen?

Dit is krekt wêr't wy oer sille prate ûnder de besuniging, lykas hoe't de opensource-stapel ús holp.

It konsept fan strategysk gegevensbehear Data Governance (DG) is al frij goed bekend yn 'e Russyske merk, en de doelen dy't troch it bedriuw berikt wurde as gefolch fan har ymplemintaasje binne dúdlik en dúdlik ferklearre. Us bedriuw wie gjin útsûndering en stelde himsels de taak om it konsept fan gegevensbehear yn te fieren.

Dus wêr binne wy ​​begûn? Om te begjinnen hawwe wy wichtige doelen foar ússels foarme:

  1. Hâld ús gegevens tagonklik.
  2. Soargje foar transparânsje fan 'e gegevenslibbenssyklus.
  3. Biede bedriuwsbrûkers mei konsekwinte, konsekwinte gegevens.
  4. Biede bedriuw brûkers mei ferifiearre gegevens.

Tsjintwurdich binne d'r in tsiental ark foar Data Governance-klasse op 'e softwaremerk.

Data Governance yn eigen hûs

Mar nei in detaillearre analyze en stúdzje fan 'e oplossingen hawwe wy in oantal krityske opmerkingen foar ússels opnommen:

  • De measte fabrikanten biede in wiidweidige set fan oplossings, dy't foar ús oerstallich is en duplicates besteande funksjonaliteit. Plus, djoer yn termen fan boarnen, yntegraasje yn it hjoeddeistige IT-lânskip.
  • De funksjonaliteit en ynterface binne ûntworpen foar technologen, net foar saaklike ein brûkers.
  • Lege survival rate fan produkten en gebrek oan suksesfolle ymplemintaasje op 'e Russyske merk.
  • Hege kosten fan software en fierdere stipe.

De hjirboppe útsprutsen kritearia en oanbefellings oangeande ymportferfanging fan software foar Russyske bedriuwen oertsjûgen ús om te gean nei ús eigen ûntwikkeling op in opensource-stapel. It platfoarm dat wy hawwe keazen wie Django, in frije en iepen boarne ramt skreaun yn Python. En sa hawwe wy wichtige modules identifisearre dy't sille bydrage oan de hjirboppe neamde doelen:

  1. Register fan rapporten.
  2. Business glossary.
  3. Module foar it beskriuwen fan technyske transformaasjes.
  4. Module foar it beskriuwen fan de gegevenslibbenssyklus fan 'e boarne oant it BI-ark.
  5. Data kwaliteit kontrôle module.

Data Governance yn eigen hûs

Register fan rapporten

Neffens de resultaten fan ynterne stúdzjes yn grutte bedriuwen, by it oplossen fan gegevens-relatearre problemen, meiwurkers besteegje 40-80% fan harren tiid op syk nei harren. Dêrom sette wy ússels de taak om iepen ynformaasje te meitsjen oer besteande rapporten dy't earder allinich beskikber wiene foar klanten. Sa ferminderje wy de tiid foar it generearjen fan nije rapporten en soargje wy foar demokratisearring fan gegevens.

Data Governance yn eigen hûs

It rapportaazjeregister is in ienich rapportaazjefinster wurden foar ynterne brûkers út ferskate regio's, ôfdielingen en divyzjes. It konsolidearret ynformaasje oer ynformaasjetsjinsten makke yn ferskate bedriuwsrepositories fan it bedriuw, en d'r binne in protte fan har yn Rostelecom.

Mar it register is net allinich in droege list fan ûntwikkele rapporten. Foar elk rapport leverje wy de ynformaasje dy't nedich is foar de brûker om har fertroud te meitsjen mei:

  • koarte beskriuwing fan it rapport;
  • djipte fan beskikberens fan gegevens;
  • klant segment;
  • fisualisaasje ark;
  • namme fan it bedriuw opslach;
  • saaklike funksjonele easken;
  • keppeling nei it rapport;
  • keppeling nei applikaasje foar tagong;
  • útfiering status.

Gebrûksnivo-analytika binne beskikber foar rapporten, en rapporten wurde oan 'e boppekant fan' e list rangearre op basis fan loganalyse basearre op it oantal unike brûkers. En dat is it net. Neist de algemiene skaaimerken hawwe wy ek in detaillearre beskriuwing levere fan 'e attribút gearstalling fan' e rapporten mei foarbylden fan wearden en berekkeningsmetoaden. Sokke detaillearring jout de brûker fuortendaliks in antwurd oft it rapport nuttich is foar him of net.

De ûntwikkeling fan dizze module wie in wichtige stap yn 'e demokratisearring fan gegevens en fermindere de tiid dy't nedich is om de fereaske ynformaasje te finen signifikant. Neist it ferminderjen fan syktiid is it oantal oanfragen oan it stipeteam om konsultaasjes te leverjen ek ôfnommen. It is ûnmooglik om net in oar nuttich resultaat te notearjen dat wy hawwe berikt troch it ûntwikkeljen fan in ienriedich register fan rapporten - it foarkommen fan 'e ûntwikkeling fan dûbele rapporten foar ferskate strukturele ienheden.

Business glossary

Jo witte allegear dat sels binnen itselde bedriuw bedriuwen ferskate talen prate. Ja, se brûke deselde termen, mar se betsjutte folslein oare dingen. In saaklike glossary is ûntworpen om dit probleem op te lossen.

Foar ús is in saaklike glossary net allinich in referinsjeboek mei in beskriuwing fan termen en berekkeningsmetoade. Dit is in folweardige omjouwing foar it ûntwikkeljen, akseptearjen en goedkarren fan terminology, it bouwen fan relaasjes tusken termen en oare ynformaasjeaktiva fan it bedriuw. Foardat jo de saaklike glossary ynfiere, moat in term troch alle stadia fan goedkarring gean mei saaklike klanten en it sintrum foar gegevenskwaliteit. Pas dêrnei komt it beskikber foar gebrûk.

Lykas ik hjirboppe skreau, is de eigenheid fan dit ark dat it ferbiningen makket fan it nivo fan in saaklike term nei spesifike brûkersrapporten wêryn it wurdt brûkt, en ek nei it nivo fan fysike databankobjekten.

Data Governance yn eigen hûs

Dit wurdt mooglik makke troch it brûken fan glossary term identifiers yn 'e detaillearre beskriuwing fan registerrapporten en de beskriuwing fan fysike databankobjekten.

Op it stuit binne mear dan 4000 termen definieare en ôfpraat yn 'e Glossary. It gebrûk simplifies en fersnelt de ferwurking fan ynkommende oanfragen foar feroaringen yn 'e ynformaasjesystemen fan it bedriuw. As de fereaske yndikator al is ymplementearre yn in rapport, dan sil de brûker fuortendaliks in set fan klearmakke rapporten sjen wêr't dizze yndikator wurdt brûkt, en sil by steat wêze om te besluten oer it effektive wergebrûk fan besteande funksjonaliteit of syn minimale wiziging, sûnder te begjinnen nije oanfragen foar de ûntwikkeling fan in nij rapport.

Module foar it beskriuwen fan technyske transformaasjes en DataLineage

Wat binne dizze modules, freegje jo? It is net genôch om gewoan it rapportregister en glossary te ymplementearjen; it is ek nedich om alle bedriuwsbetingsten te grûnen op it fysike databankmodel. Sa koene wy ​​it proses foltôgje fan it foarmjen fan de gegevenslibbenssyklus fan boarnesystemen oant BI-fisualisaasje troch alle lagen fan it gegevenspakhús. Mei oare wurden, bouwe in DataLineage.

Wy ûntwikkele in ynterface basearre op it formaat dat earder yn it bedriuw brûkt waard foar it beskriuwen fan de regels en logika fan gegevenstransformaasje. Deselde ynformaasje wurdt ynfierd fia de ynterface as earder, mar de definysje fan de term identifier út de saaklike glossary is wurden in betingst. Dit is hoe't wy in ferbining bouwe tusken de saaklike en fysike lagen.

Wa hat it nedich? Wat wie der mis mei it âlde formaat wêrmei jo ferskate jierren wurke hawwe? Hoefolle binne de arbeidskosten foar it generearjen fan easken tanommen? By de ymplemintaasje fan it ark hiene wy ​​te krijen mei sokke fragen. De antwurden hjir binne frij ienfâldich - wy hawwe dit allegear nedich, it gegevensburo fan ús bedriuw en ús brûkers.

Yndied, de meiwurkers moasten oanpasse; yn 't earstoan late dit ta in lichte ferheging fan' e arbeidskosten foar it opstellen fan dokumintaasje, mar wy hawwe dit probleem oplost. Oefenjen, identifisearjen en optimalisearjen fan probleemgebieten hawwe har wurk dien. Wy hawwe it wichtichste berikt - wy hawwe de kwaliteit fan 'e ûntwikkele easken ferbettere. Ferplichte fjilden, ferienige referinsjeboeken, ynfiermaskers, ynboude kontrôles - dit alles makke it mooglik om de kwaliteit fan transformaasjebeskriuwingen signifikant te ferbetterjen. Wy ferhuze fuort fan 'e praktyk fan it oerjaan fan skripts as ûntwikkelingseasken en dielde kennis dy't allinich beskikber wie foar it ûntwikkelingsteam. De generearre metadata-database ferminderet de tiid dy't nedich is foar it útfieren fan regression-analyse signifikant en biedt de mooglikheid om de ynfloed fan feroaringen op elke laach fan it IT-lânskip fluch te beoardieljen (showcase-rapporten, aggregaten, boarnen).

Wat hat dit te krijen mei gewoane brûkers fan rapporten, wat binne de foardielen foar harren? Mei tank oan de mooglikheid om DataLineage te bouwen, krije ús brûkers, sels dy fier fan SQL en oare programmeartalen, fluch ynformaasje oer de boarnen en objekten op basis wêrfan in bepaald rapport wurdt generearre.

Data Quality Control Module

Alles wêr't wy hjirboppe oer praat hawwe yn termen fan it garandearjen fan transparânsje fan gegevens is net wichtich sûnder te begripen dat de gegevens dy't wy oan brûkers jouwe, korrekt binne. Ien fan 'e wichtige modules fan ús konsept foar gegevensbestjoer is de module foar kontrôle foar gegevenskwaliteit.

Op it hjoeddeiske stadium is dit in katalogus fan kontrôles foar selektearre entiteiten. It direkte doel foar produktûntwikkeling is om de list fan kontrôles út te wreidzjen en te yntegrearjen mei it rapportaazjeregister.
Wat sil it jaan en oan wa? De ein brûker fan it register sil hawwe tagong ta ynformaasje oer de plande en werklike datums fan rapport reewilligens, de resultaten fan foltôge kontrôles mei dynamyk, en ynformaasje oer de boarnen laden yn it rapport.

Foar ús is de module foar gegevenskwaliteit yntegreare yn ús wurkprosessen:

  • Prompt formaasje fan klant ferwachtings.
  • Besluten nimme oer fierder gebrûk fan gegevens.
  • It krijen fan in foarriedige set fan probleempunten yn 'e earste fazen fan wurk foar de ûntwikkeling fan reguliere kwaliteitskontrôles.

Fansels binne dit de earste stappen yn it bouwen fan in folweardich proses foar gegevensbehear. Mar wy binne der wis fan dat allinich troch dit wurk doelbewust te dwaan, aktyf yntrodusearjen fan ark foar gegevensbestjoer yn it wurkproses, wy ús kliïnten ynformaasjeynhâld sille leverje, in heech nivo fan fertrouwen yn 'e gegevens, transparânsje yn har ûntfangst en de snelheid fan lansearring ferheegje nije funksjonaliteit.

DataOffice Team

Boarne: www.habr.com

Add a comment