Ποιότητα δεδομένων στην αποθήκη

Η ποιότητα των δεδομένων στην αποθήκη είναι σημαντική προϋπόθεση για τη λήψη πολύτιμων πληροφοριών. Η κακή ποιότητα οδηγεί σε αρνητική αλυσιδωτή αντίδραση μακροπρόθεσμα.
Πρώτον, χάνεται η εμπιστοσύνη στις πληροφορίες που παρέχονται. Οι άνθρωποι αρχίζουν να χρησιμοποιούν λιγότερο εφαρμογές Business Intelligence· οι δυνατότητες των εφαρμογών παραμένουν αζήτητες.
Ως αποτέλεσμα, τίθεται υπό αμφισβήτηση περαιτέρω επένδυση στο αναλυτικό έργο.

Ευθύνη για την ποιότητα των δεδομένων

Η πτυχή που σχετίζεται με τη βελτίωση της ποιότητας των δεδομένων είναι εξαιρετικά σημαντική στα έργα BI. Ωστόσο, δεν είναι προνόμιο μόνο των ειδικών τεχνικών.
Η ποιότητα των δεδομένων επηρεάζεται επίσης από πτυχές όπως

Εταιρική κουλτούρα

  • Οι ίδιοι οι εργαζόμενοι ενδιαφέρονται να παράγουν καλή ποιότητα;
  • Εάν όχι, γιατί όχι; Μπορεί να υπάρξει σύγκρουση συμφερόντων.
  • Ίσως υπάρχουν εταιρικοί κανόνες που καθορίζουν ποιος είναι υπεύθυνος για την ποιότητα;

Διαδικασίες

  • Ποια δεδομένα δημιουργούνται στο τέλος αυτών των αλυσίδων;
  • Ίσως τα λειτουργικά συστήματα να είναι ρυθμισμένα με τέτοιο τρόπο ώστε να πρέπει να "στρίβετε" για να αντικατοπτρίζει αυτή ή εκείνη την κατάσταση στην πραγματικότητα.
  • Τα λειτουργικά συστήματα εκτελούν μόνα τους επαλήθευση και συμφωνία δεδομένων;

Όλοι στον οργανισμό είναι υπεύθυνοι για την ποιότητα των δεδομένων στα συστήματα αναφοράς.

Ορισμός και νόημα

Η ποιότητα είναι η αποδεδειγμένη ικανοποίηση των προσδοκιών των πελατών.

Αλλά η ποιότητα των δεδομένων δεν περιέχει ορισμό. Αντανακλά πάντα το πλαίσιο χρήσης. Η αποθήκη δεδομένων και το σύστημα BI εξυπηρετούν διαφορετικούς σκοπούς από το λειτουργικό σύστημα από το οποίο προέρχονται τα δεδομένα.

Για παράδειγμα, σε ένα λειτουργικό σύστημα, το χαρακτηριστικό πελάτη μπορεί να είναι ένα προαιρετικό πεδίο. Στο αποθετήριο, αυτό το χαρακτηριστικό μπορεί να χρησιμοποιηθεί ως διάσταση και απαιτείται η συμπλήρωσή του. Το οποίο, με τη σειρά του, εισάγει την ανάγκη συμπλήρωσης προεπιλεγμένων τιμών.

Οι απαιτήσεις αποθήκευσης δεδομένων αλλάζουν συνεχώς και είναι συνήθως υψηλότερες από αυτές των λειτουργικών συστημάτων. Αλλά μπορεί να είναι και το αντίστροφο, όταν δεν χρειάζεται να αποθηκεύονται λεπτομερείς πληροφορίες από το λειτουργικό σύστημα στον χώρο αποθήκευσης.

Για να καταστεί η ποιότητα των δεδομένων μετρήσιμη, πρέπει να περιγραφούν τα πρότυπά της. Τα άτομα που χρησιμοποιούν πληροφορίες και στοιχεία για την εργασία τους πρέπει να συμμετέχουν στη διαδικασία περιγραφής. Το αποτέλεσμα αυτής της εμπλοκής μπορεί να είναι ένας κανόνας, σύμφωνα με τον οποίο μπορεί κανείς να πει με μια ματιά στο τραπέζι εάν υπάρχει σφάλμα ή όχι. Αυτός ο κανόνας πρέπει να μορφοποιηθεί ως σενάριο/κωδικός για επακόλουθη επαλήθευση.

Βελτίωση της ποιότητας των δεδομένων

Είναι αδύνατο να καθαρίσετε και να διορθώσετε όλα τα υποθετικά σφάλματα κατά τη διαδικασία φόρτωσης δεδομένων στην αποθήκη. Η καλή ποιότητα δεδομένων μπορεί να επιτευχθεί μόνο μέσω στενής συνεργασίας μεταξύ όλων των συμμετεχόντων. Τα άτομα που εισάγουν δεδομένα σε λειτουργικά συστήματα πρέπει να μάθουν ποιες ενέργειες οδηγούν σε σφάλματα.

Η ποιότητα των δεδομένων είναι μια διαδικασία. Δυστυχώς, πολλοί οργανισμοί δεν έχουν στρατηγική για συνεχή βελτίωση. Πολλοί περιορίζονται μόνο στην αποθήκευση δεδομένων και δεν χρησιμοποιούν πλήρως τις δυνατότητες των αναλυτικών συστημάτων. Συνήθως, κατά την ανάπτυξη αποθηκών δεδομένων, το 70-80% του προϋπολογισμού δαπανάται για την υλοποίηση της ενοποίησης δεδομένων. Η διαδικασία παρακολούθησης και βελτίωσης παραμένει ημιτελής, αν όχι καθόλου.

Εργαλεία

Η χρήση εργαλείων λογισμικού μπορεί να βοηθήσει στη διαδικασία αυτοματοποίησης της βελτίωσης και της παρακολούθησης της ποιότητας των δεδομένων. Για παράδειγμα, μπορούν να αυτοματοποιήσουν πλήρως την τεχνική επαλήθευση των δομών αποθήκευσης: μορφή πεδίου, παρουσία προεπιλεγμένων τιμών, συμμόρφωση με ονόματα πεδίων πίνακα.

Μπορεί να είναι πιο δύσκολο να ελέγξετε το περιεχόμενο. Καθώς οι απαιτήσεις αποθήκευσης αλλάζουν, η ερμηνεία των δεδομένων μπορεί επίσης να αλλάξει. Το ίδιο το εργαλείο μπορεί να γίνει ένα τεράστιο έργο που απαιτεί υποστήριξη.

Συμβούλιο

Οι σχεσιακές βάσεις δεδομένων, στις οποίες συνήθως σχεδιάζονται καταστήματα, έχουν την αξιοσημείωτη ικανότητα να δημιουργούν προβολές. Μπορούν να χρησιμοποιηθούν για τον γρήγορο έλεγχο δεδομένων εάν γνωρίζετε τις ιδιαιτερότητες του περιεχομένου. Κάθε περίπτωση εύρεσης σφάλματος ή προβλήματος στα δεδομένα μπορεί να καταγραφεί με τη μορφή ερωτήματος βάσης δεδομένων.

Με αυτόν τον τρόπο θα δημιουργηθεί μια βάση γνώσεων για το περιεχόμενο. Φυσικά, τέτοια αιτήματα πρέπει να είναι γρήγορα. Οι προβολές απαιτούν συνήθως λιγότερο ανθρώπινο χρόνο για να διατηρηθούν από τα εργαλεία που βασίζονται σε τραπέζι. Η προβολή είναι πάντα έτοιμη να εμφανίσει το αποτέλεσμα της δοκιμής.
Στην περίπτωση σημαντικών αναφορών, η προβολή μπορεί να περιέχει μια στήλη με τον παραλήπτη. Είναι λογικό να χρησιμοποιείτε τα ίδια εργαλεία BI για να αναφέρετε την κατάσταση της ποιότητας των δεδομένων στην αποθήκη.

Παράδειγμα

Το ερώτημα γράφτηκε για τη βάση δεδομένων Oracle. Σε αυτό το παράδειγμα, οι δοκιμές επιστρέφουν μια αριθμητική τιμή που μπορεί να ερμηνευτεί όπως επιθυμείτε. Οι τιμές T_MIN και T_MAX μπορούν να χρησιμοποιηθούν για τη ρύθμιση του επιπέδου συναγερμού. Το πεδίο REPORT χρησιμοποιήθηκε κάποτε ως μήνυμα σε ένα εμπορικό προϊόν ETL που δεν ήξερε πώς να στέλνει σωστά μηνύματα ηλεκτρονικού ταχυδρομείου, επομένως το rpad είναι "δεκανίκι".

Στην περίπτωση ενός μεγάλου πίνακα, μπορείτε να προσθέσετε, για παράδειγμα, AND ROWNUM <= 10, π.χ. εάν υπάρχουν 10 σφάλματα, τότε αυτό είναι αρκετό για να προκαλέσει συναγερμό.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Η έκδοση χρησιμοποιεί υλικό από το βιβλίο
Ρόναλντ Μπάχμαν, Δρ. Γκουίντο Κέμπερ
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Πηγή: www.habr.com

Προσθέστε ένα σχόλιο