Datastyrning internt

Hej Habr!

Data är ett företags mest värdefulla tillgång. Nästan alla digitala företag hävdar detta. Det är svårt att argumentera mot detta: inte en enda större IT-konferens hålls utan att diskutera metoder för att hantera, lagra och bearbeta data.

Data kommer till oss utifrån, den genereras också inom företaget, och om vi talar om data från ett telekomföretag, så är detta för interna anställda ett förråd av information om kunden, hans intressen, vanor och plats. Med korrekt profilering och segmentering är reklamerbjudanden mest effektiva. Men i praktiken är inte allt så rosa. Den data som företag lagrar kan vara hopplöst föråldrad, överflödig, repetitiv, eller så är dess existens okänd för någon förutom en smal krets av användare. ¯_(ツ)_/¯

Datastyrning internt
Med ett ord, data måste hanteras effektivt - först då kommer det att bli en tillgång som ger verkliga fördelar och vinst till verksamheten. Tyvärr kräver att lösa datahanteringsproblem att övervinna en hel del komplexitet. De beror främst på både det historiska arvet i form av "zoo" av system och avsaknaden av enhetliga processer och tillvägagångssätt för deras förvaltning. Men vad innebär det att vara "datadriven"?

Detta är precis vad vi kommer att prata om under skärningen, liksom hur opensource-stacken hjälpte oss.

Konceptet med strategisk datahantering Data Governance (DG) är redan ganska välkänt på den ryska marknaden, och de mål som uppnås av företag som ett resultat av dess implementering är tydliga och tydligt deklarerade. Vårt företag var inget undantag och satte sig i uppgift att introducera konceptet datahantering.

Så var började vi? Till att börja med satte vi upp nyckelmål för oss själva:

  1. Håll vår data tillgänglig.
  2. Säkerställ insyn i datalivscykeln.
  3. Förse företagsanvändare med konsekventa, konsekventa data.
  4. Förse företagsanvändare med verifierad data.

Idag finns det ett dussin Data Governance-klassverktyg på mjukvarumarknaden.

Datastyrning internt

Men efter en detaljerad analys och studie av lösningarna, registrerade vi ett antal kritiska kommentarer för oss själva:

  • De flesta tillverkare erbjuder en heltäckande uppsättning lösningar, vilket för oss är redundant och duplicerar befintlig funktionalitet. Plus, dyrt i termer av resurser, integration i det nuvarande IT-landskapet.
  • Funktionaliteten och gränssnittet är designat för teknologer, inte affärsslutanvändare.
  • Låg överlevnadsgrad för produkter och brist på framgångsrika implementeringar på den ryska marknaden.
  • Hög kostnad för programvara och ytterligare support.

Kriterierna och rekommendationerna ovan angående importersättning av mjukvara för ryska företag övertygade oss att gå mot vår egen utveckling på en öppen källkodsstack. Plattformen vi valde var Django, ett gratis ramverk med öppen källkod skrivet i Python. Och därför har vi identifierat nyckelmoduler som kommer att bidra till målen ovan:

  1. Register över rapporter.
  2. Affärsordlista.
  3. Modul för att beskriva tekniska transformationer.
  4. Modul för att beskriva datalivscykeln från källan till BI-verktyget.
  5. Datakvalitetskontrollmodul.

Datastyrning internt

Register över rapporter

Enligt resultaten av interna studier i stora företag, när de löser datarelaterade problem, spenderar anställda 40-80 % av sin tid på att söka efter dem. Därför satte vi oss i uppgift att göra öppen information om befintliga rapporter som tidigare endast var tillgängliga för kunder. På så sätt minskar vi tiden för att generera nya rapporter och säkerställer demokratisering av data.

Datastyrning internt

Rapporteringsregistret har blivit ett enda rapporteringsfönster för interna användare från olika regioner, avdelningar och divisioner. Den konsoliderar information om informationstjänster som skapats i flera av företagets arkiv, och det finns många av dem i Rostelecom.

Men registret är inte bara en torr lista över utvecklade rapporter. För varje rapport tillhandahåller vi den information som behövs för att användaren ska kunna bekanta sig med den:

  • kort beskrivning av rapporten;
  • datatillgänglighetens djup;
  • kundsegment;
  • visualiseringsverktyg;
  • namnet på företagets lager;
  • affärsfunktionella krav;
  • länk till rapporten;
  • länk till ansökan om åtkomst;
  • genomförandestatus.

Användningsnivåanalyser är tillgängliga för rapporter, och rapporterna rankas högst upp på listan baserat på logganalys baserat på antalet unika användare. Och det är det inte. Utöver de allmänna egenskaperna har vi också tillhandahållit en detaljerad beskrivning av attributsammansättningen i rapporterna med exempel på värden och beräkningsmetoder. Sådan detaljering ger omedelbart användaren ett svar om rapporten är användbar för honom eller inte.

Utvecklingen av denna modul var ett viktigt steg i demokratiseringen av data och minskade avsevärt tiden det tar att hitta den information som krävs. Förutom att minska söktiden har antalet förfrågningar till supportteamet om att ge konsultationer också minskat. Det är omöjligt att inte notera ett annat användbart resultat som vi uppnådde genom att utveckla ett enhetligt register över rapporter - förhindra utvecklingen av dubbletter av rapporter för olika strukturella enheter.

Affärsordlista

Ni vet alla att även inom samma företag talar företag olika språk. Ja, de använder samma termer, men de betyder helt olika saker. En företagsordlista är utformad för att lösa detta problem.

För oss är en företagsordlista inte bara en uppslagsbok med beskrivning av termer och beräkningsmetodik. Detta är en fullfjädrad miljö för att utveckla, komma överens om och godkänna terminologi, bygga relationer mellan termer och andra informationstillgångar i företaget. Innan man går in i affärsordlistan måste en term gå igenom alla stadier av godkännande med företagskunder och datakvalitetscentret. Först efter detta blir den tillgänglig för användning.

Som jag skrev ovan är det unika med detta verktyg att det tillåter kopplingar från nivån av en affärsterm till specifika användarrapporter där det används, såväl som till nivån av fysiska databasobjekt.

Datastyrning internt

Detta möjliggörs genom användning av ordlista termidentifierare i den detaljerade beskrivningen av registerrapporter och beskrivningen av fysiska databasobjekt.

För närvarande har mer än 4000 XNUMX termer definierats och kommit överens om i ordlistan. Användningen förenklar och påskyndar behandlingen av inkommande förfrågningar om förändringar i företagets informationssystem. Om den erforderliga indikatorn redan är implementerad i någon rapport, kommer användaren omedelbart att se en uppsättning färdiga rapporter där denna indikator används, och kommer att kunna besluta om effektiv återanvändning av befintlig funktionalitet eller dess minimala ändring, utan att initiera nya önskemål om utveckling av en ny rapport.

Modul för att beskriva tekniska transformationer och DataLineage

Vilka är dessa moduler, frågar du dig? Det räcker inte att bara implementera Rapportregistret och Ordlistan, det är också nödvändigt att grunda alla affärsvillkor på den fysiska databasmodellen. Därmed kunde vi slutföra processen att forma datalivscykeln från källsystem till BI-visualisering genom alla lager i datalagret. Med andra ord, bygg en DataLineage.

Vi utvecklade ett gränssnitt baserat på det format som tidigare använts i företaget för att beskriva regler och logik för datatransformation. Samma information läggs in genom gränssnittet som tidigare, men definitionen av begreppet identifierare från affärsordlistan har blivit en förutsättning. Så bygger vi en koppling mellan verksamheten och de fysiska lagren.

Vem behöver det? Vad var det för fel på det gamla formatet som du jobbat med i flera år? Hur mycket har arbetskostnaderna för att skapa krav ökat? Vi var tvungna att hantera sådana frågor under implementeringen av verktyget. Svaren här är ganska enkla - vi behöver alla detta, vårt företags datakontor och våra användare.

De anställda var faktiskt tvungna att anpassa sig, till en början ledde detta till en liten ökning av arbetskostnaderna för att förbereda dokumentation, men vi löste problemet. Övning, identifiering och optimering av problemområden har gjort sitt jobb. Vi har uppnått det viktigaste - vi har förbättrat kvaliteten på de utvecklade kraven. Obligatoriska fält, enhetliga referensböcker, inmatningsmasker, inbyggda kontroller - allt detta gjorde det möjligt att avsevärt förbättra kvaliteten på transformationsbeskrivningar. Vi gick bort från praxis att lämna över skript som utvecklingskrav och delade kunskap som bara var tillgänglig för utvecklingsteamet. Den genererade metadatadatabasen minskar avsevärt den tid som krävs för att utföra regressionsanalys och ger möjlighet att snabbt bedöma effekterna av förändringar på alla lager av IT-landskapet (presentationsrapporter, aggregat, källor).

Vad har detta med vanliga användare av rapporter att göra, vilka är fördelarna för dem? Tack vare möjligheten att bygga DataLineage får våra användare, även de som är långt ifrån SQL och andra programmeringsspråk, snabbt information om källorna och objekten utifrån vilka en viss rapport genereras.

Datakvalitetskontrollmodul

Allt vi pratade om ovan när det gäller att säkerställa datatransparens är inte viktigt utan att förstå att den data vi ger till användarna är korrekt. En av de viktiga modulerna i vårt datastyrningskoncept är datakvalitetskontrollmodulen.

I det aktuella skedet är detta en katalog över kontroller för utvalda enheter. Det omedelbara målet för produktutvecklingen är att utöka listan över kontroller och integrera med rapporteringsregistret.
Vad kommer det att ge och till vem? Slutanvändaren av registret kommer att ha tillgång till information om planerade och faktiska datum för rapportberedskap, resultaten av genomförda kontroller med dynamik och information om källorna som laddats in i rapporten.

För oss är datakvalitetsmodulen integrerad i våra arbetsprocesser:

  • Snabb bildning av kundernas förväntningar.
  • Ta beslut om vidare användning av data.
  • Att erhålla en preliminär uppsättning problempunkter i de inledande stadierna av arbetet för utveckling av regelbundna kvalitetskontroller.

Naturligtvis är detta de första stegen i att bygga en fullfjädrad datahanteringsprocess. Men vi är övertygade om att vi endast genom att målmedvetet utföra detta arbete, aktivt införa verktyg för datastyrning i arbetsprocessen, kommer att förse våra kunder med informationsinnehåll, ett högt förtroende för uppgifterna, transparens i mottagandet av dem och öka hastigheten på lanseringen. ny funktionalitet.

DataOffice Team

Källa: will.com

Lägg en kommentar