Governance dei dati interna

Ehi Habr!

I dati sono il bene più prezioso di un'azienda. Quasi tutte le aziende con un focus digitale lo dichiarano. È difficile discuterne: non si tiene una sola grande conferenza IT senza discutere gli approcci alla gestione, archiviazione ed elaborazione dei dati.

I dati ci arrivano dall'esterno, vengono generati anche all'interno dell'azienda e se parliamo di dati di una società di telecomunicazioni, per i dipendenti interni questo è un magazzino di informazioni sul cliente, sui suoi interessi, abitudini e posizione. Con una corretta profilazione e segmentazione, le offerte pubblicitarie sono più efficaci. Tuttavia, in pratica, non tutto è così roseo. I dati archiviati dalle aziende possono essere irrimediabilmente obsoleti, ridondanti, ripetitivi o la loro esistenza è sconosciuta a nessuno tranne che a una ristretta cerchia di utenti. ¯_(ツ)_/¯

Governance dei dati interna
In una parola, i dati devono essere gestiti in modo efficace: solo così diventeranno una risorsa che porterà benefici e profitti reali al business. Sfortunatamente, la risoluzione dei problemi di gestione dei dati richiede il superamento di numerose complessità. Sono principalmente dovuti sia all’eredità storica sotto forma di “zoo” di sistemi, sia alla mancanza di processi e approcci unificati alla loro gestione. Ma cosa significa essere “data drive”?

Questo è esattamente ciò di cui parleremo nel taglio, e anche di come lo stack opensource ci ha aiutato.

Il concetto di gestione strategica dei dati Data Governance (DG) è già abbastanza noto nel mercato russo e gli obiettivi raggiunti dalle aziende come risultato della sua implementazione sono chiari e chiaramente dichiarati. La nostra azienda non ha fatto eccezione e si è posta il compito di introdurre il concetto di gestione dei dati.

Allora da dove abbiamo iniziato? Per cominciare, ci siamo fissati degli obiettivi chiave:

  1. Mantieni i nostri dati accessibili.
  2. Garantire la trasparenza del ciclo di vita dei dati.
  3. Fornire agli utenti aziendali dati coerenti e coerenti.
  4. Fornire agli utenti aziendali dati verificati.

Oggi sul mercato del software esistono una dozzina di strumenti di classe Data Governance.

Governance dei dati interna

Ma dopo un'analisi dettagliata e uno studio delle soluzioni, abbiamo registrato una serie di commenti critici:

  • La maggior parte dei produttori offre un set completo di soluzioni, che per noi è ridondante e duplica le funzionalità esistenti. Inoltre, l'integrazione nell'attuale panorama IT è costosa in termini di risorse.
  • La funzionalità e l'interfaccia sono progettate per i tecnici, non per gli utenti finali aziendali.
  • Basso tasso di sopravvivenza dei prodotti e mancanza di implementazioni di successo sul mercato russo.
  • Costo elevato del software e ulteriore supporto.

I criteri e le raccomandazioni sopra espressi riguardo alla sostituzione delle importazioni di software per le aziende russe ci hanno convinto a procedere verso il nostro sviluppo su uno stack opensource. La piattaforma che abbiamo scelto è stata Django, un framework gratuito e open source scritto in Python. E così abbiamo identificato i moduli chiave che contribuiranno agli obiettivi sopra indicati:

  1. Registro delle segnalazioni.
  2. Glossario aziendale.
  3. Modulo per la descrizione delle trasformazioni tecniche.
  4. Modulo per la descrizione del ciclo di vita dei dati dalla sorgente allo strumento BI.
  5. Modulo di controllo della qualità dei dati.

Governance dei dati interna

Registro delle segnalazioni

Secondo i risultati di studi interni condotti in grandi aziende, quando risolvono problemi relativi ai dati, i dipendenti trascorrono il 40-80% del loro tempo a cercarli. Pertanto, ci siamo posti il ​​compito di rendere pubbliche le informazioni sui report esistenti che in precedenza erano disponibili solo ai clienti. Pertanto, riduciamo i tempi per la generazione di nuovi report e garantiamo la democratizzazione dei dati.

Governance dei dati interna

Il registro delle segnalazioni è diventato un'unica finestra di segnalazione per gli utenti interni di varie regioni, dipartimenti e divisioni. Consolida le informazioni sui servizi informativi creati in diversi repository aziendali dell'azienda e ce ne sono molti in Rostelecom.

Ma il registro non è solo un elenco di report sviluppati. Per ciascun rapporto forniamo le informazioni necessarie affinché l'utente possa familiarizzarsi con esso:

  • breve descrizione del rapporto;
  • profondità della disponibilità dei dati;
  • segmento di clientela;
  • strumento di visualizzazione;
  • nome del magazzino aziendale;
  • requisiti funzionali aziendali;
  • collegamento al rapporto;
  • collegamento alla domanda di accesso;
  • stato di attuazione.

Per i report sono disponibili analisi del livello di utilizzo e i report vengono classificati in cima all'elenco in base all'analisi dei log in base al numero di utenti univoci. E non è tutto. Oltre alle caratteristiche generali, abbiamo fornito anche una descrizione dettagliata della composizione degli attributi dei report con esempi di valori e modalità di calcolo. Tali dettagli danno immediatamente all'utente una risposta se il rapporto gli è utile o meno.

Lo sviluppo di questo modulo è stato un passo importante nella democratizzazione dei dati e ha ridotto significativamente il tempo necessario per trovare le informazioni richieste. Oltre a ridurre i tempi di ricerca, è diminuito anche il numero di richieste al team di supporto per fornire consulenze. È impossibile non notare un altro risultato utile che abbiamo ottenuto sviluppando un registro unificato dei rapporti: evitando lo sviluppo di rapporti duplicati per diverse unità strutturali.

Glossario aziendale

Sapete tutti che anche all'interno della stessa azienda le imprese parlano lingue diverse. Sì, usano gli stessi termini, ma significano cose completamente diverse. Un glossario aziendale è progettato per risolvere questo problema.

Per noi un glossario aziendale non è solo un libro di consultazione con una descrizione dei termini e della metodologia di calcolo. Si tratta di un ambiente completo per sviluppare, concordare e approvare la terminologia, costruire relazioni tra termini e altre risorse informative dell'azienda. Prima di entrare nel glossario aziendale, un termine deve superare tutte le fasi di approvazione da parte dei clienti aziendali e del centro qualità dati. Solo dopo diventa disponibile per l'uso.

Come ho scritto sopra, l'unicità di questo strumento è che consente collegamenti dal livello di un termine aziendale ai report specifici degli utenti in cui viene utilizzato, nonché al livello degli oggetti fisici del database.

Governance dei dati interna

Ciò è reso possibile attraverso l'uso di identificatori di termini del glossario nella descrizione dettagliata dei report del registro e nella descrizione degli oggetti fisici del database.

Attualmente nel Glossario sono stati definiti e concordati più di 4000 termini. Il suo utilizzo semplifica e velocizza l'elaborazione delle richieste di modifiche in arrivo nei sistemi informativi aziendali. Se l'indicatore richiesto è già implementato in qualsiasi report, l'utente vedrà immediatamente una serie di report già pronti in cui viene utilizzato questo indicatore e sarà in grado di decidere sull'effettivo riutilizzo della funzionalità esistente o sulla sua modifica minima, senza avviare nuove richieste per lo sviluppo di un nuovo report.

Modulo per la descrizione delle trasformazioni tecniche e DataLineage

Quali sono questi moduli, chiedi? Non è sufficiente implementare semplicemente il Registro dei Report e il Glossario; è anche necessario fondare tutti i termini aziendali sul modello fisico del database. Pertanto, siamo stati in grado di completare il processo di formazione del ciclo di vita dei dati dai sistemi di origine alla visualizzazione BI attraverso tutti i livelli del data warehouse. In altre parole, crea un DataLineage.

Abbiamo sviluppato un'interfaccia basata sul formato precedentemente utilizzato in azienda per descrivere le regole e la logica della trasformazione dei dati. Attraverso l'interfaccia vengono inserite le stesse informazioni di prima, ma la definizione dell'identificatore del termine dal glossario aziendale è diventata un prerequisito. In questo modo creiamo una connessione tra il livello aziendale e quello fisico.

Chi ne ha bisogno? Cosa c'era di sbagliato nel vecchio formato con cui hai lavorato per diversi anni? Quanto sono aumentati i costi della manodopera per la generazione dei fabbisogni? Abbiamo dovuto affrontare tali domande durante l'implementazione dello strumento. Le risposte qui sono abbastanza semplici: ne abbiamo tutti bisogno, l'ufficio dati della nostra azienda e i nostri utenti.

In effetti, i dipendenti hanno dovuto adattarsi; all'inizio ciò ha comportato un leggero aumento dei costi di manodopera per la preparazione della documentazione, ma abbiamo risolto il problema. La pratica, l'identificazione e l'ottimizzazione delle aree problematiche hanno svolto il loro lavoro. Abbiamo raggiunto l'obiettivo principale: abbiamo migliorato la qualità dei requisiti sviluppati. Campi obbligatori, libri di consultazione unificati, maschere di input, controlli integrati: tutto ciò ha permesso di migliorare significativamente la qualità delle descrizioni delle trasformazioni. Ci siamo allontanati dalla pratica di consegnare gli script come requisiti di sviluppo e di conoscenza condivisa che era disponibile solo al team di sviluppo. Il database dei metadati generato riduce significativamente il tempo necessario per condurre analisi di regressione e offre la possibilità di valutare rapidamente l'impatto delle modifiche su qualsiasi livello del panorama IT (report di presentazione, aggregati, fonti).

Cosa c'entra questo con i normali utenti dei report, quali sono i vantaggi per loro? Grazie alla capacità di costruire DataLineage, i nostri utenti, anche quelli lontani da SQL e altri linguaggi di programmazione, ricevono rapidamente informazioni sulle fonti e sugli oggetti sulla base dei quali viene generato un particolare report.

Modulo di controllo della qualità dei dati

Tutto ciò di cui abbiamo parlato sopra in termini di garanzia della trasparenza dei dati non è importante senza comprendere che i dati che forniamo agli utenti sono corretti. Uno dei moduli importanti del nostro concetto di governance dei dati è il modulo di controllo della qualità dei dati.

Allo stato attuale, si tratta di un catalogo di assegni per entità selezionate. L'obiettivo immediato per lo sviluppo del prodotto è espandere l'elenco dei controlli e integrarlo con il registro dei report.
Cosa darà e a chi? L'utente finale del registro avrà accesso alle informazioni sulle date previste ed effettive di preparazione del report, sui risultati dei controlli completati con dinamica e sulle informazioni sulle fonti caricate nel report.

Per noi il modulo di qualità dei dati integrato nei nostri processi lavorativi è:

  • Formazione tempestiva delle aspettative del cliente.
  • Prendere decisioni sull’ulteriore utilizzo dei dati.
  • Ottenere una serie preliminare di punti problematici nelle fasi iniziali del lavoro per lo sviluppo di controlli di qualità regolari.

Naturalmente, questi sono i primi passi nella costruzione di un processo di gestione dei dati completo. Ma siamo fiduciosi che solo svolgendo questo lavoro in modo mirato, introducendo attivamente strumenti di governance dei dati nel processo di lavoro, forniremo ai nostri clienti contenuti informativi, un elevato livello di fiducia nei dati, trasparenza nella loro ricezione e aumenteremo la velocità di lancio nuova funzionalità.

Squadra di DataOffice

Fonte: habr.com

Aggiungi un commento