DataGovernance μόνοι σας

Γεια σου Χαμπρ!

Τα δεδομένα είναι το πολυτιμότερο περιουσιακό στοιχείο μιας εταιρείας. Σχεδόν κάθε εταιρεία με ψηφιακή εστίαση το δηλώνει αυτό. Είναι δύσκολο να διαφωνήσει κανείς με αυτό: δεν πραγματοποιείται ούτε ένα σημαντικό συνέδριο πληροφορικής χωρίς να συζητηθούν προσεγγίσεις για τη διαχείριση, την αποθήκευση και την επεξεργασία δεδομένων.

Τα δεδομένα έρχονται σε εμάς από έξω, παράγονται επίσης μέσα στην εταιρεία και αν μιλάμε για δεδομένα από μια εταιρεία τηλεπικοινωνιών, τότε για εσωτερικούς υπαλλήλους αυτό είναι μια αποθήκη πληροφοριών για τον πελάτη, τα ενδιαφέροντα, τις συνήθειες και την τοποθεσία του. Με την κατάλληλη δημιουργία προφίλ και τμηματοποίηση, οι διαφημιστικές προσφορές είναι πιο αποτελεσματικές. Ωστόσο, στην πράξη, δεν είναι όλα τόσο ρόδινα. Τα δεδομένα που αποθηκεύουν οι εταιρείες μπορεί να είναι απελπιστικά ξεπερασμένα, περιττά, επαναλαμβανόμενα ή η ύπαρξή τους είναι άγνωστη σε κανέναν εκτός από έναν στενό κύκλο χρηστών. ¯_(ツ)_/¯

DataGovernance μόνοι σας
Με μια λέξη, τα δεδομένα πρέπει να τυγχάνουν αποτελεσματικής διαχείρισης - μόνο τότε θα γίνουν ένα περιουσιακό στοιχείο που φέρνει πραγματικά οφέλη και κέρδη στην επιχείρηση. Δυστυχώς, η επίλυση προβλημάτων διαχείρισης δεδομένων απαιτεί την υπέρβαση πολλών πολυπλοκοτήτων. Οφείλονται κυρίως τόσο στην ιστορική κληρονομιά με τη μορφή «ζωολογικών κήπων» συστημάτων όσο και στην έλλειψη ενιαίων διαδικασιών και προσεγγίσεων για τη διαχείρισή τους. Τι σημαίνει, όμως, να είσαι «οδηγούμενος από δεδομένα»;

Αυτό ακριβώς θα μιλήσουμε κάτω από το cut, καθώς και για το πώς μας βοήθησε η στοίβα ανοιχτού κώδικα.

Η έννοια της στρατηγικής διαχείρισης δεδομένων Διακυβέρνηση δεδομένων (DG) είναι ήδη αρκετά γνωστή στη ρωσική αγορά και οι στόχοι που επιτυγχάνονται από τις επιχειρήσεις ως αποτέλεσμα της εφαρμογής της είναι σαφείς και ξεκάθαρα δηλωμένοι. Η εταιρεία μας δεν αποτέλεσε εξαίρεση και έθεσε ως καθήκον της να εισαγάγει την έννοια της διαχείρισης δεδομένων.

Από πού ξεκινήσαμε λοιπόν; Αρχικά, διαμορφώσαμε βασικούς στόχους για τον εαυτό μας:

  1. Διατηρήστε τα δεδομένα μας προσβάσιμα.
  2. Διασφάλιση της διαφάνειας του κύκλου ζωής των δεδομένων.
  3. Παρέχετε στους χρήστες της εταιρείας συνεπή, συνεπή δεδομένα.
  4. Παρέχετε στους χρήστες της εταιρείας επαληθευμένα δεδομένα.

Σήμερα, υπάρχουν δώδεκα εργαλεία κατηγορίας Data Governance στην αγορά λογισμικού.

DataGovernance μόνοι σας

Αλλά μετά από μια λεπτομερή ανάλυση και μελέτη των λύσεων, καταγράψαμε μια σειρά από επικριτικά σχόλια για εμάς:

  • Οι περισσότεροι κατασκευαστές προσφέρουν ένα ολοκληρωμένο σύνολο λύσεων, το οποίο για εμάς είναι περιττό και αντιγράφει την υπάρχουσα λειτουργικότητα. Επιπλέον, ακριβή από πλευράς πόρων, ενσωμάτωση στο σημερινό τοπίο πληροφορικής.
  • Η λειτουργικότητα και η διεπαφή έχουν σχεδιαστεί για τεχνολόγους και όχι για επιχειρηματικούς τελικούς χρήστες.
  • Χαμηλό ποσοστό επιβίωσης προϊόντων και έλλειψη επιτυχημένων εφαρμογών στη ρωσική αγορά.
  • Υψηλό κόστος λογισμικού και περαιτέρω υποστήριξη.

Τα κριτήρια και οι συστάσεις που εκφράστηκαν παραπάνω σχετικά με την αντικατάσταση λογισμικού εισαγωγής για ρωσικές εταιρείες μας έπεισαν να προχωρήσουμε προς τη δική μας ανάπτυξη σε μια στοίβα ανοιχτού κώδικα. Η πλατφόρμα που επιλέξαμε ήταν το Django, ένα πλαίσιο ελεύθερου και ανοιχτού κώδικα γραμμένο σε Python. Και έτσι έχουμε εντοπίσει βασικές ενότητες που θα συμβάλουν στους στόχους που αναφέρθηκαν παραπάνω:

  1. Μητρώο αναφορών.
  2. Γλωσσάριο επιχειρήσεων.
  3. Ενότητα για την περιγραφή τεχνικών μετασχηματισμών.
  4. Ενότητα για την περιγραφή του κύκλου ζωής δεδομένων από την πηγή στο εργαλείο BI.
  5. Μονάδα ελέγχου ποιότητας δεδομένων.

DataGovernance μόνοι σας

Μητρώο αναφορών

Σύμφωνα με τα αποτελέσματα εσωτερικών μελετών σε μεγάλες εταιρείες, κατά την επίλυση προβλημάτων που σχετίζονται με δεδομένα, οι εργαζόμενοι ξοδεύουν το 40-80% του χρόνου τους αναζητώντας τα. Ως εκ τούτου, θέσαμε ως καθήκον μας να κάνουμε ανοιχτές πληροφορίες σχετικά με υπάρχουσες αναφορές που προηγουμένως ήταν διαθέσιμες μόνο στους πελάτες. Έτσι, μειώνουμε το χρόνο για τη δημιουργία νέων αναφορών και διασφαλίζουμε τον εκδημοκρατισμό των δεδομένων.

DataGovernance μόνοι σας

Το μητρώο αναφοράς έχει γίνει ένα ενιαίο παράθυρο αναφοράς για εσωτερικούς χρήστες από διάφορες περιοχές, τμήματα και τμήματα. Συγκεντρώνει πληροφορίες για υπηρεσίες πληροφοριών που δημιουργούνται σε πολλά εταιρικά αποθετήρια της εταιρείας και υπάρχουν πολλά από αυτά στη Rostelecom.

Αλλά το μητρώο δεν είναι απλώς μια ξερή λίστα ανεπτυγμένων αναφορών. Για κάθε αναφορά, παρέχουμε τις απαραίτητες πληροφορίες για να εξοικειωθεί ο χρήστης με αυτήν:

  • σύντομη περιγραφή της έκθεσης·
  • βάθος διαθεσιμότητας δεδομένων·
  • τμήμα πελατών·
  • εργαλείο οπτικοποίησης?
  • όνομα της εταιρικής αποθήκευσης·
  • επιχειρησιακές λειτουργικές απαιτήσεις·
  • σύνδεσμος προς την έκθεση·
  • σύνδεσμος προς την εφαρμογή για πρόσβαση·
  • κατάσταση υλοποίησης.

Τα αναλυτικά στοιχεία επιπέδου χρήσης είναι διαθέσιμα για αναφορές και οι αναφορές κατατάσσονται στην κορυφή της λίστας με βάση τα αναλυτικά στοιχεία καταγραφής με βάση τον αριθμό των μοναδικών χρηστών. Και δεν είναι αυτό. Εκτός από τα γενικά χαρακτηριστικά, παρέχουμε επίσης μια λεπτομερή περιγραφή της σύνθεσης των χαρακτηριστικών των αναφορών με παραδείγματα τιμών και μεθόδων υπολογισμού. Αυτή η λεπτομέρεια δίνει αμέσως στον χρήστη μια απάντηση εάν η αναφορά είναι χρήσιμη για αυτόν ή όχι.

Η ανάπτυξη αυτής της ενότητας ήταν ένα σημαντικό βήμα στον εκδημοκρατισμό των δεδομένων και μείωσε σημαντικά τον χρόνο που απαιτείται για την εύρεση των απαιτούμενων πληροφοριών. Εκτός από τη μείωση του χρόνου αναζήτησης, ο αριθμός των αιτημάτων προς την ομάδα υποστήριξης για παροχή συμβουλών έχει επίσης μειωθεί. Είναι αδύνατο να μην σημειωθεί ένα άλλο χρήσιμο αποτέλεσμα που επιτύχαμε με την ανάπτυξη ενός ενοποιημένου μητρώου αναφορών - αποτρέποντας την ανάπτυξη διπλών αναφορών για διαφορετικές δομικές μονάδες.

Γλωσσάριο επιχειρήσεων

Όλοι γνωρίζετε ότι ακόμη και μέσα στην ίδια εταιρεία, οι επιχειρήσεις μιλούν διαφορετικές γλώσσες. Ναι, χρησιμοποιούν τους ίδιους όρους, αλλά σημαίνουν εντελώς διαφορετικά πράγματα. Ένα επιχειρηματικό γλωσσάρι έχει σχεδιαστεί για να λύσει αυτό το πρόβλημα.

Για εμάς, ένα επιχειρηματικό γλωσσάρι δεν είναι απλώς ένα βιβλίο αναφοράς με περιγραφή όρων και μεθοδολογία υπολογισμού. Αυτό είναι ένα πλήρες περιβάλλον για την ανάπτυξη, τη συμφωνία και την έγκριση ορολογίας, τη δημιουργία σχέσεων μεταξύ των όρων και άλλων στοιχείων ενεργητικού της εταιρείας. Πριν εισαγάγετε το γλωσσάρι επιχειρήσεων, ένας όρος πρέπει να περάσει από όλα τα στάδια έγκρισης με επιχειρηματικούς πελάτες και το κέντρο ποιότητας δεδομένων. Μόνο μετά από αυτό γίνεται διαθέσιμο για χρήση.

Όπως έγραψα παραπάνω, η μοναδικότητα αυτού του εργαλείου είναι ότι επιτρέπει συνδέσεις από το επίπεδο ενός επιχειρηματικού όρου σε συγκεκριμένες αναφορές χρηστών στις οποίες χρησιμοποιείται, καθώς και στο επίπεδο των φυσικών αντικειμένων βάσης δεδομένων.

DataGovernance μόνοι σας

Αυτό καθίσταται δυνατό μέσω της χρήσης αναγνωριστικών όρων γλωσσαρίου στη λεπτομερή περιγραφή των αναφορών μητρώου και στην περιγραφή των φυσικών αντικειμένων της βάσης δεδομένων.

Επί του παρόντος, περισσότεροι από 4000 όροι έχουν οριστεί και συμφωνηθεί στο Γλωσσάρι. Η χρήση του απλοποιεί και επιταχύνει την επεξεργασία των εισερχόμενων αιτημάτων για αλλαγές στα πληροφοριακά συστήματα της εταιρείας. Εάν ο απαιτούμενος δείκτης έχει ήδη εφαρμοστεί σε οποιαδήποτε αναφορά, τότε ο χρήστης θα δει αμέσως ένα σύνολο έτοιμων αναφορών όπου χρησιμοποιείται αυτός ο δείκτης και θα μπορεί να αποφασίσει για την αποτελεσματική επαναχρησιμοποίηση της υπάρχουσας λειτουργικότητας ή την ελάχιστη τροποποίησή της, χωρίς να ξεκινήσει νέα αιτήματα για την ανάπτυξη νέας έκθεσης.

Ενότητα για την περιγραφή τεχνικών μετασχηματισμών και DataLineage

Ποιες είναι αυτές οι ενότητες, ρωτάτε; Δεν αρκεί απλώς η εφαρμογή του Μητρώου Αναφορών και του Γλωσσάριου· είναι επίσης απαραίτητο να γειωθούν όλοι οι επιχειρηματικοί όροι στο μοντέλο της φυσικής βάσης δεδομένων. Έτσι, μπορέσαμε να ολοκληρώσουμε τη διαδικασία διαμόρφωσης του κύκλου ζωής δεδομένων από τα συστήματα πηγής έως την οπτικοποίηση BI σε όλα τα επίπεδα της αποθήκης δεδομένων. Με άλλα λόγια, δημιουργήστε ένα DataLineage.

Αναπτύξαμε μια διεπαφή βασισμένη στη μορφή που χρησιμοποιήθηκε προηγουμένως στην εταιρεία για την περιγραφή των κανόνων και της λογικής του μετασχηματισμού δεδομένων. Οι ίδιες πληροφορίες εισάγονται μέσω της διεπαφής όπως προηγουμένως, αλλά ο ορισμός του όρου αναγνωριστικό από το επιχειρηματικό γλωσσάρι έχει καταστεί απαραίτητη προϋπόθεση. Αυτός είναι ο τρόπος με τον οποίο χτίζουμε μια σύνδεση μεταξύ του επιχειρηματικού και του φυσικού επιπέδου.

Ποιος το χρειάζεται; Τι ήταν λάθος με το παλιό σχήμα με το οποίο δουλέψατε για αρκετά χρόνια; Πόσο έχει αυξηθεί το κόστος εργασίας για τη δημιουργία απαιτήσεων; Τέτοια ερωτήματα έπρεπε να αντιμετωπίσουμε κατά την εφαρμογή του εργαλείου. Οι απαντήσεις εδώ είναι πολύ απλές - το χρειαζόμαστε όλοι, το γραφείο δεδομένων της εταιρείας μας και οι χρήστες μας.

Πράγματι, οι εργαζόμενοι έπρεπε να προσαρμοστούν· στην αρχή, αυτό οδήγησε σε ελαφρά αύξηση του κόστους εργασίας για την προετοιμασία της τεκμηρίωσης, αλλά διευθετήσαμε αυτό το ζήτημα. Η εξάσκηση, ο εντοπισμός και η βελτιστοποίηση προβληματικών περιοχών έχουν κάνει τη δουλειά τους. Έχουμε επιτύχει το κύριο πράγμα - έχουμε βελτιώσει την ποιότητα των ανεπτυγμένων απαιτήσεων. Υποχρεωτικά πεδία, ενοποιημένα βιβλία αναφοράς, μάσκες εισόδου, ενσωματωμένοι έλεγχοι - όλα αυτά κατέστησαν δυνατή τη σημαντική βελτίωση της ποιότητας των περιγραφών μετασχηματισμού. Απομακρυνθήκαμε από την πρακτική παράδοσης σεναρίων ως απαιτήσεων ανάπτυξης και κοινής γνώσης που ήταν διαθέσιμη μόνο στην ομάδα ανάπτυξης. Η παραγόμενη βάση δεδομένων μεταδεδομένων μειώνει σημαντικά τον χρόνο που απαιτείται για τη διεξαγωγή ανάλυσης παλινδρόμησης και παρέχει τη δυνατότητα γρήγορης αξιολόγησης του αντίκτυπου των αλλαγών σε οποιοδήποτε επίπεδο του τοπίου της πληροφορικής (εκθέσεις έκθεσης, συγκεντρωτικά στοιχεία, πηγές).

Τι σχέση έχει αυτό με τους απλούς χρήστες αναφορών, ποια είναι τα πλεονεκτήματα για αυτούς; Χάρη στη δυνατότητα δημιουργίας DataLineage, οι χρήστες μας, ακόμη και όσοι βρίσκονται μακριά από SQL και άλλες γλώσσες προγραμματισμού, λαμβάνουν γρήγορα πληροφορίες σχετικά με τις πηγές και τα αντικείμενα βάσει των οποίων δημιουργείται μια συγκεκριμένη αναφορά.

Μονάδα Ποιοτικού Ελέγχου Δεδομένων

Όλα όσα αναφέραμε παραπάνω όσον αφορά τη διασφάλιση της διαφάνειας των δεδομένων δεν είναι σημαντικά χωρίς να καταλαβαίνουμε ότι τα δεδομένα που δίνουμε στους χρήστες είναι σωστά. Μία από τις σημαντικές ενότητες της ιδέας μας για τη Διακυβέρνηση δεδομένων είναι η ενότητα ελέγχου ποιότητας δεδομένων.

Στο τρέχον στάδιο, αυτός είναι ένας κατάλογος επιταγών για επιλεγμένες οντότητες. Ο άμεσος στόχος για την ανάπτυξη προϊόντων είναι η επέκταση της λίστας των ελέγχων και η ενοποίηση με το μητρώο αναφοράς.
Τι θα δώσει και σε ποιον; Ο τελικός χρήστης του μητρώου θα έχει πρόσβαση σε πληροφορίες σχετικά με τις προγραμματισμένες και πραγματικές ημερομηνίες ετοιμότητας της αναφοράς, τα αποτελέσματα των ολοκληρωμένων ελέγχων με τη δυναμική και πληροφορίες σχετικά με τις πηγές που έχουν φορτωθεί στην αναφορά.

Για εμάς, η ενότητα ποιότητας δεδομένων που είναι ενσωματωμένη στις διαδικασίες εργασίας μας είναι:

  • Άμεση διαμόρφωση των προσδοκιών των πελατών.
  • Λήψη αποφάσεων για περαιτέρω χρήση δεδομένων.
  • Λήψη ενός προκαταρκτικού συνόλου σημείων προβλημάτων στα αρχικά στάδια της εργασίας για την ανάπτυξη τακτικών ποιοτικών ελέγχων.

Φυσικά, αυτά είναι τα πρώτα βήματα για τη δημιουργία μιας ολοκληρωμένης διαδικασίας διαχείρισης δεδομένων. Αλλά είμαστε βέβαιοι ότι μόνο κάνοντας σκόπιμα αυτό το έργο, εισάγοντας ενεργά εργαλεία Διακυβέρνησης Δεδομένων στη διαδικασία εργασίας, θα παρέχουμε στους πελάτες μας περιεχόμενο πληροφοριών, υψηλό επίπεδο εμπιστοσύνης στα δεδομένα, διαφάνεια στη λήψη τους και αύξηση της ταχύτητας κυκλοφορίας νέα λειτουργικότητα.

Ομάδα DataOffice

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο