Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό

1. Αρχικά στοιχεία

Ο καθαρισμός δεδομένων είναι μία από τις προκλήσεις που αντιμετωπίζουν οι εργασίες ανάλυσης δεδομένων. Αυτό το υλικό αντανακλούσε τις εξελίξεις και τις λύσεις που προέκυψαν ως αποτέλεσμα της επίλυσης ενός πρακτικού προβλήματος ανάλυσης της βάσης δεδομένων στο σχηματισμό της κτηματολογικής αξίας. Πηγές εδώ «ΕΚΘΕΣΗ αριθ. 01/OKS-2019 σχετικά με τα αποτελέσματα της κρατικής κτηματογράφησης όλων των τύπων ακινήτων (εκτός από οικόπεδα) στην επικράτεια της Αυτόνομης Περιφέρειας Khanty-Mansiysk - Ugra».

Εξετάστηκε το αρχείο «Συγκριτικό μοντέλο total.ods» στο «Παράρτημα Β. Αποτελέσματα προσδιορισμού ΚΣ 5. Πληροφορίες για τη μέθοδο προσδιορισμού της κτηματολογικής αξίας 5.1 Συγκριτική προσέγγιση».

Πίνακας 1. Στατιστικοί δείκτες του συνόλου δεδομένων στο αρχείο «Συγκριτικό μοντέλο total.ods»
Συνολικός αριθμός πεδίων, τεμ. — 44
Συνολικός αριθμός εγγραφών, τεμ. — 365 490
Συνολικός αριθμός χαρακτήρων, τεμ. — 101 714 693
Μέσος αριθμός χαρακτήρων σε μια εγγραφή, τεμ. — 278,297
Τυπική απόκλιση χαρακτήρων σε μια εγγραφή, τεμ. — 15,510
Ελάχιστος αριθμός χαρακτήρων σε μια καταχώρηση, τεμ. — 198
Μέγιστος αριθμός χαρακτήρων σε μια καταχώρηση, τεμ. — 363

2. Εισαγωγικό μέρος. Βασικά πρότυπα

Κατά την ανάλυση της καθορισμένης βάσης δεδομένων, διαμορφώθηκε μια εργασία για τον καθορισμό των απαιτήσεων για τον βαθμό καθαρισμού, καθώς, όπως είναι σαφές σε όλους, η συγκεκριμένη βάση δεδομένων δημιουργεί νομικές και οικονομικές συνέπειες για τους χρήστες. Κατά τη διάρκεια της εργασίας, αποδείχθηκε ότι δεν υπήρχαν συγκεκριμένες απαιτήσεις για τον βαθμό καθαρισμού των μεγάλων δεδομένων. Αναλύοντας τους νομικούς κανόνες σε αυτό το θέμα, κατέληξα στο συμπέρασμα ότι όλα διαμορφώνονται από πιθανότητες. Δηλαδή, έχει εμφανιστεί μια συγκεκριμένη εργασία, συγκεντρώνονται πηγές πληροφοριών για την εργασία, στη συνέχεια σχηματίζεται ένα σύνολο δεδομένων και, με βάση το δημιουργημένο σύνολο δεδομένων, εργαλεία για την επίλυση του προβλήματος. Οι λύσεις που προκύπτουν αποτελούν σημεία αναφοράς στην επιλογή από εναλλακτικές λύσεις. Το παρουσίασα στο Σχήμα 1.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό

Δεδομένου ότι, για τον καθορισμό οποιωνδήποτε προτύπων, είναι προτιμότερο να βασίζεστε σε δοκιμασμένες τεχνολογίες, επέλεξα τις απαιτήσεις που ορίζονται στο "MHRA GxP Data Integrity Definitions and Guidance for Industry", γιατί θεώρησα αυτό το έγγραφο το πιο περιεκτικό για αυτό το θέμα. Ειδικότερα, σε αυτό το έγγραφο η ενότητα λέει «Θα πρέπει να σημειωθεί ότι οι απαιτήσεις ακεραιότητας δεδομένων ισχύουν εξίσου για τα χειροκίνητα (έντυπα) και τα ηλεκτρονικά δεδομένα». (μετάφραση: «...οι απαιτήσεις ακεραιότητας δεδομένων ισχύουν εξίσου για τα χειροκίνητα (έντυπα) και τα ηλεκτρονικά δεδομένα»). Η διατύπωση αυτή συνδέεται πολύ συγκεκριμένα με την έννοια της «έγγραφης απόδειξης», στις διατάξεις του άρθρου 71 του Κώδικα Πολιτικής Δικονομίας, άρθ. 70 CAS, Άρθρο 75 APC, «γραπτώς» Άρθ. 84 Κώδικας Πολιτικής Δικονομίας.

Το σχήμα 2 παρουσιάζει ένα διάγραμμα της διαμόρφωσης προσεγγίσεων σε τύπους πληροφοριών στη νομολογία.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Ρύζι. 2. Πηγή εδώ.

Το Σχήμα 3 δείχνει τον μηχανισμό του Σχήματος 1, για τις εργασίες της παραπάνω «Καθοδήγησης». Είναι εύκολο, κάνοντας μια σύγκριση, να δούμε ότι οι προσεγγίσεις που χρησιμοποιούνται όταν πληρούνται οι απαιτήσεις για ακεραιότητα πληροφοριών στα σύγχρονα πρότυπα για συστήματα πληροφοριών είναι σημαντικά περιορισμένες σε σύγκριση με τη νομική έννοια της πληροφορίας.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Εικ. 3

Στο καθορισμένο έγγραφο (Καθοδήγηση), η σύνδεση με το τεχνικό μέρος, τις δυνατότητες επεξεργασίας και αποθήκευσης δεδομένων, επιβεβαιώνεται καλά από ένα απόσπασμα από το Κεφάλαιο 18.2. Σχεσιακή βάση δεδομένων: "Αυτή η δομή αρχείου είναι εγγενώς πιο ασφαλής, καθώς τα δεδομένα διατηρούνται σε μια μεγάλη μορφή αρχείου που διατηρεί τη σχέση μεταξύ δεδομένων και μεταδεδομένων."

Στην πραγματικότητα, σε αυτή την προσέγγιση - από τις υπάρχουσες τεχνικές δυνατότητες, δεν υπάρχει τίποτα το αφύσικο και, από μόνο του, είναι μια φυσική διαδικασία, αφού η επέκταση των εννοιών προέρχεται από την πιο μελετημένη δραστηριότητα - το σχεδιασμό βάσεων δεδομένων. Όμως, από την άλλη πλευρά, εμφανίζονται νομικοί κανόνες που δεν προβλέπουν εκπτώσεις στις τεχνικές δυνατότητες των υφιστάμενων συστημάτων, για παράδειγμα: GDPR - Γενικός Κανονισμός Προστασίας Δεδομένων.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Ρύζι. 4. Χωνί τεχνικών δυνατοτήτων (Πηγή).

Σε αυτές τις πτυχές, γίνεται σαφές ότι το αρχικό σύνολο δεδομένων (Εικ. 1) θα πρέπει πρώτα απ 'όλα να αποθηκευτεί και, δεύτερον, να αποτελέσει τη βάση για την εξαγωγή πρόσθετων πληροφοριών από αυτό. Λοιπόν, για παράδειγμα: οι κάμερες που καταγράφουν τους κανόνες κυκλοφορίας είναι πανταχού παρούσες, τα συστήματα επεξεργασίας πληροφοριών εξαλείφουν τους παραβάτες, αλλά άλλες πληροφορίες μπορούν επίσης να προσφερθούν σε άλλους καταναλωτές, για παράδειγμα, ως παρακολούθηση μάρκετινγκ της δομής της ροής των πελατών σε ένα εμπορικό κέντρο. Και αυτό είναι μια πηγή πρόσθετης προστιθέμενης αξίας κατά τη χρήση του BigDat. Είναι πολύ πιθανό τα σύνολα δεδομένων που συλλέγονται τώρα, κάπου στο μέλλον, να έχουν αξία σύμφωνα με έναν μηχανισμό παρόμοιο με την αξία των σπάνιων εκδόσεων του 1700 αυτή τη στιγμή. Εξάλλου, στην πραγματικότητα, τα προσωρινά σύνολα δεδομένων είναι μοναδικά και είναι απίθανο να επαναληφθούν στο μέλλον.

3. Εισαγωγικό μέρος. Κριτήρια αξιολόγησης

Κατά τη διαδικασία επεξεργασίας, αναπτύχθηκε η ακόλουθη ταξινόμηση σφαλμάτων.

1. Κατηγορία σφάλματος (βάσει GOST R 8.736-2011): α) συστηματικά σφάλματα. β) τυχαία σφάλματα. γ) μια γκάφα.

2. Με πολλαπλότητα: α) μονοπαραμόρφωση. β) πολλαπλή παραμόρφωση.

3. Σύμφωνα με την κρισιμότητα των συνεπειών: α) κρίσιμες? β) όχι επικριτικό.

4. Ανά πηγή εμφάνισης:

Α) Τεχνικά – σφάλματα που συμβαίνουν κατά τη λειτουργία του εξοπλισμού. Ένα αρκετά σχετικό σφάλμα για συστήματα IoT, συστήματα με σημαντικό βαθμό επιρροής στην ποιότητα επικοινωνίας, εξοπλισμό (hardware).

Β) Σφάλματα χειριστή - σφάλματα σε μεγάλο εύρος από τυπογραφικά λάθη χειριστή κατά την εισαγωγή έως σφάλματα στις τεχνικές προδιαγραφές για το σχεδιασμό της βάσης δεδομένων.

Γ) Σφάλματα χρήστη - εδώ είναι τα σφάλματα χρήστη σε όλο το εύρος από "ξέχασα να αλλάξω τη διάταξη" έως λάθος μετρητές για πόδια.

5. Χωρίζεται σε ξεχωριστή τάξη:

α) το «καθήκον του διαχωριστή», δηλαδή το διάστημα και το «:» (στην περίπτωσή μας) όταν έγινε διπλό·
β) λέξεις γραμμένες μαζί.
γ) δεν υπάρχουν χαρακτήρες διαστήματος μετά την υπηρεσία
δ) συμμετρικά πολλαπλά σύμβολα: (), "", "...".

Συνολικά, με τη συστηματοποίηση των σφαλμάτων της βάσης δεδομένων που παρουσιάζονται στο Σχήμα 5, σχηματίζεται ένα αρκετά αποτελεσματικό σύστημα συντεταγμένων για την αναζήτηση σφαλμάτων και την ανάπτυξη ενός αλγόριθμου καθαρισμού δεδομένων για αυτό το παράδειγμα.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Ρύζι. 5. Τυπικά σφάλματα που αντιστοιχούν στις δομικές μονάδες της βάσης δεδομένων (Πηγή: Oreshkov V.I., Paklin N.B. "Βασικές έννοιες της ενοποίησης δεδομένων").

Ακρίβεια, Ακεραιότητα Τομέα, Τύπος Δεδομένων, Συνέπεια, Πλεονασμός, Πληρότητα, Αλληλεπικάλυψη, Συμμόρφωση με τους Κανόνες Επιχειρήσεων, Δομική Οριστική, Ανωμαλία Δεδομένων, Σαφήνεια, Έγκαιρη, Τήρηση των Κανόνων Ακεραιότητας Δεδομένων. (Σελίδα 334. Βασικές αρχές αποθήκευσης δεδομένων για επαγγελματίες πληροφορικής / Paulraj Ponniah.—2η έκδ.)

Παρουσιάστηκε αγγλική διατύπωση και ρωσική αυτόματη μετάφραση σε παρένθεση.

Ακρίβεια. Η τιμή που είναι αποθηκευμένη στο σύστημα για ένα στοιχείο δεδομένων είναι η σωστή τιμή για αυτήν την εμφάνιση του στοιχείου δεδομένων. Εάν έχετε ένα όνομα πελάτη και μια διεύθυνση αποθηκευμένη σε μια εγγραφή, τότε η διεύθυνση είναι η σωστή διεύθυνση για τον πελάτη με αυτό το όνομα. Εάν βρείτε την ποσότητα που έχει παραγγείλει ως 1000 μονάδες στο αρχείο για τον αριθμό παραγγελίας 12345678, τότε αυτή η ποσότητα είναι η ακριβής ποσότητα για αυτήν την παραγγελία.
[Ακρίβεια. Η τιμή που είναι αποθηκευμένη στο σύστημα για ένα στοιχείο δεδομένων είναι η σωστή τιμή για αυτήν την εμφάνιση του στοιχείου δεδομένων. Εάν έχετε ένα όνομα πελάτη και μια διεύθυνση αποθηκευμένα σε μια εγγραφή, τότε η διεύθυνση είναι η σωστή διεύθυνση για τον πελάτη με αυτό το όνομα. Εάν βρείτε την ποσότητα που έχει παραγγείλει ως 1000 μονάδες στο αρχείο για τον αριθμό παραγγελίας 12345678, τότε αυτή η ποσότητα είναι η ακριβής ποσότητα για αυτήν την παραγγελία.]

Ακεραιότητα τομέα. Η τιμή δεδομένων ενός χαρακτηριστικού εμπίπτει στο εύρος των επιτρεπόμενων, καθορισμένων τιμών. Το κοινό παράδειγμα είναι οι επιτρεπόμενες τιμές που είναι "αρσενικό" και "θηλυκό" για το στοιχείο δεδομένων φύλου.
[Ακεραιότητα τομέα. Η τιμή των δεδομένων χαρακτηριστικού εμπίπτει στο εύρος των έγκυρων, καθορισμένων τιμών. Ένα γενικό παράδειγμα είναι οι έγκυρες τιμές "male" και "female" για ένα στοιχείο δεδομένων φύλου.]

Τύπος δεδομένων. Η τιμή για ένα χαρακτηριστικό δεδομένων αποθηκεύεται στην πραγματικότητα ως ο τύπος δεδομένων που ορίζεται για αυτό το χαρακτηριστικό. Όταν ο τύπος δεδομένων του πεδίου ονόματος καταστήματος ορίζεται ως "κείμενο", όλες οι εμφανίσεις αυτού του πεδίου περιέχουν το όνομα καταστήματος που εμφανίζεται σε μορφή κειμένου και όχι αριθμητικούς κωδικούς.
[Τύπος δεδομένων. Η τιμή ενός χαρακτηριστικού δεδομένων αποθηκεύεται στην πραγματικότητα ως ο τύπος δεδομένων που ορίζεται για αυτό το χαρακτηριστικό. Εάν ο τύπος δεδομένων πεδίου ονόματος καταστήματος ορίζεται ως "κείμενο", όλες οι εμφανίσεις αυτού του πεδίου περιέχουν το όνομα καταστήματος που εμφανίζεται σε μορφή κειμένου και όχι αριθμητικούς κωδικούς.]

Συνοχή. Η μορφή και το περιεχόμενο ενός πεδίου δεδομένων είναι το ίδιο σε συστήματα πολλαπλών πηγών. Εάν ο κωδικός προϊόντος για το προϊόν ABC σε ένα σύστημα είναι 1234, τότε ο κωδικός για αυτό το προϊόν είναι 1234 σε κάθε σύστημα πηγής.
[Συνοχή. Η μορφή και το περιεχόμενο του πεδίου δεδομένων είναι τα ίδια σε διαφορετικά συστήματα πηγής. Εάν ο κωδικός προϊόντος για το προϊόν ABC σε ένα σύστημα είναι 1234, τότε ο κωδικός για αυτό το προϊόν είναι 1234 σε κάθε σύστημα πηγής.]

Πλεονασμός. Τα ίδια δεδομένα δεν πρέπει να αποθηκεύονται σε περισσότερα από ένα σημεία σε ένα σύστημα. Εάν, για λόγους αποτελεσματικότητας, ένα στοιχείο δεδομένων αποθηκεύεται σκόπιμα σε περισσότερα από ένα σημεία σε ένα σύστημα, τότε ο πλεονασμός πρέπει να προσδιορίζεται και να επαληθεύεται σαφώς.
[Πλεονασμός. Τα ίδια δεδομένα δεν πρέπει να αποθηκεύονται σε περισσότερα από ένα σημεία του συστήματος. Εάν, για λόγους αποτελεσματικότητας, ένα στοιχείο δεδομένων αποθηκεύεται σκόπιμα σε πολλαπλές τοποθεσίες σε ένα σύστημα, τότε ο πλεονασμός πρέπει να οριστεί με σαφήνεια και να επαληθευτεί.]

Πληρότητα. Δεν λείπουν τιμές για ένα δεδομένο χαρακτηριστικό στο σύστημα. Για παράδειγμα, σε ένα αρχείο πελάτη, πρέπει να υπάρχει μια έγκυρη τιμή για το πεδίο "κατάσταση" για κάθε πελάτη. Στο αρχείο για λεπτομέρειες παραγγελίας, κάθε εγγραφή λεπτομερειών για μια παραγγελία πρέπει να είναι πλήρως συμπληρωμένη.
[Πληρότητα. Δεν λείπουν τιμές στο σύστημα για αυτό το χαρακτηριστικό. Για παράδειγμα, το αρχείο πελάτη πρέπει να έχει μια έγκυρη τιμή για το πεδίο "status" για κάθε πελάτη. Στο αρχείο λεπτομερειών παραγγελίας, κάθε εγγραφή λεπτομερειών παραγγελίας πρέπει να έχει ολοκληρωθεί πλήρως.]

Αναπαραγωγή σε πανομοιότυπο. Η αντιγραφή των εγγραφών σε ένα σύστημα έχει επιλυθεί πλήρως. Εάν το αρχείο προϊόντος είναι γνωστό ότι έχει διπλότυπες εγγραφές, τότε προσδιορίζονται όλες οι διπλότυπες εγγραφές για κάθε προϊόν και δημιουργείται μια παραπομπή.
[Αντίγραφο. Η αντιγραφή των εγγραφών στο σύστημα έχει πλήρως εξαλειφθεί. Εάν ένα αρχείο προϊόντος είναι γνωστό ότι περιέχει διπλότυπες εγγραφές, τότε προσδιορίζονται όλες οι διπλότυπες εγγραφές για κάθε προϊόν και δημιουργείται μια παραπομπή.]

Συμμόρφωση με τους επιχειρηματικούς κανόνες. Οι τιμές κάθε στοιχείου δεδομένων συμμορφώνονται με τους προβλεπόμενους επιχειρηματικούς κανόνες. Σε ένα σύστημα δημοπρασιών, το σφυρί ή η τιμή πώλησης δεν μπορεί να είναι μικρότερη από την τιμή αποθεματικού. Σε ένα σύστημα τραπεζικών δανείων, το υπόλοιπο του δανείου πρέπει να είναι πάντα θετικό ή μηδενικό.
[Τήρηση επιχειρηματικών κανόνων. Οι τιμές κάθε στοιχείου δεδομένων συμμορφώνονται με τους καθιερωμένους επιχειρηματικούς κανόνες. Σε ένα σύστημα δημοπρασιών, το σφυρί ή η τιμή πώλησης δεν μπορεί να είναι μικρότερη από την τιμή αποθεματικού. Σε ένα τραπεζικό πιστωτικό σύστημα, το υπόλοιπο του δανείου πρέπει να είναι πάντα θετικό ή μηδενικό.]

Δομική οριστικότητα. Όπου ένα στοιχείο δεδομένων μπορεί φυσικά να δομηθεί σε μεμονωμένα στοιχεία, το στοιχείο πρέπει να περιέχει αυτήν την καλά καθορισμένη δομή. Για παράδειγμα, το όνομα ενός ατόμου φυσικά χωρίζεται σε όνομα, μεσαίο αρχικό και επώνυμο. Οι τιμές για ονόματα ατόμων πρέπει να αποθηκεύονται ως όνομα, μεσαίο αρχικό και επώνυμο. Αυτό το χαρακτηριστικό της ποιότητας των δεδομένων απλοποιεί την επιβολή των προτύπων και μειώνει τις τιμές που λείπουν.
[Δομική βεβαιότητα. Όταν ένα στοιχείο δεδομένων μπορεί να δομηθεί φυσικά σε μεμονωμένα στοιχεία, το στοιχείο πρέπει να περιέχει αυτήν την καλά καθορισμένη δομή. Για παράδειγμα, το όνομα ενός ατόμου χωρίζεται φυσικά σε όνομα, μεσαίο αρχικό και επώνυμο. Οι τιμές για μεμονωμένα ονόματα θα πρέπει να αποθηκεύονται ως όνομα, μεσαίο αρχικό και επώνυμο. Αυτό το χαρακτηριστικό ποιότητας δεδομένων απλοποιεί την εφαρμογή των προτύπων και μειώνει τις τιμές που λείπουν.]

Ανωμαλία δεδομένων. Ένα πεδίο πρέπει να χρησιμοποιείται μόνο για τον σκοπό για τον οποίο έχει οριστεί. Εάν το πεδίο Διεύθυνση-3 έχει οριστεί για οποιαδήποτε πιθανή τρίτη γραμμή διευθύνσεων για μεγάλες διευθύνσεις, τότε αυτό το πεδίο πρέπει να χρησιμοποιείται μόνο για την καταγραφή της τρίτης γραμμής διεύθυνσης. Δεν πρέπει να χρησιμοποιείται για την εισαγωγή αριθμού τηλεφώνου ή φαξ για τον πελάτη.
[Ανωμαλία δεδομένων. Ένα πεδίο πρέπει να χρησιμοποιείται μόνο για τον σκοπό για τον οποίο έχει οριστεί. Εάν το πεδίο Διεύθυνση-3 έχει οριστεί για οποιαδήποτε πιθανή τρίτη γραμμή διευθύνσεων για μεγάλες διευθύνσεις, τότε αυτό το πεδίο θα χρησιμοποιηθεί μόνο για την καταγραφή της τρίτης γραμμής διευθύνσεων. Δεν πρέπει να χρησιμοποιείται για την εισαγωγή αριθμού τηλεφώνου ή φαξ για έναν πελάτη.]

Σαφήνεια. Ένα στοιχείο δεδομένων μπορεί να διαθέτει όλα τα άλλα χαρακτηριστικά των ποιοτικών δεδομένων, αλλά εάν οι χρήστες δεν κατανοούν καθαρά το νόημά του, τότε το στοιχείο δεδομένων δεν έχει καμία αξία για τους χρήστες. Οι σωστές συμβάσεις ονομασίας βοηθούν να γίνουν κατανοητά τα στοιχεία δεδομένων από τους χρήστες.
[Σαφήνεια. Ένα στοιχείο δεδομένων μπορεί να έχει όλα τα άλλα χαρακτηριστικά των καλών δεδομένων, αλλά εάν οι χρήστες δεν κατανοούν ξεκάθαρα τη σημασία του, τότε το στοιχείο δεδομένων δεν έχει καμία αξία για τους χρήστες. Οι σωστές συμβάσεις ονομασίας βοηθούν να γίνουν κατανοητά τα στοιχεία δεδομένων από τους χρήστες.]

Εγκαιρος. Οι χρήστες καθορίζουν την επικαιρότητα των δεδομένων. Αν οι χρήστες αναμένουν ότι τα δεδομένα διαστάσεων πελάτη δεν είναι παλαιότερα από μία ημέρα, οι αλλαγές στα δεδομένα πελατών στα συστήματα προέλευσης πρέπει να εφαρμόζονται στην αποθήκη δεδομένων καθημερινά.
[Εγκαίρως. Οι χρήστες καθορίζουν την επικαιρότητα των δεδομένων. Εάν οι χρήστες αναμένουν ότι τα δεδομένα διαστάσεων πελάτη δεν θα είναι περισσότερα από μία ημέρα, οι αλλαγές στα δεδομένα πελατών στα συστήματα προέλευσης θα πρέπει να εφαρμόζονται στην αποθήκη δεδομένων σε καθημερινή βάση.]

Χρησιμότητα. Κάθε στοιχείο δεδομένων στην αποθήκη δεδομένων πρέπει να ικανοποιεί ορισμένες απαιτήσεις της συλλογής των χρηστών. Ένα στοιχείο δεδομένων μπορεί να είναι ακριβές και υψηλής ποιότητας, αλλά εάν δεν έχει καμία αξία για τους χρήστες, τότε είναι εντελώς περιττό αυτό το στοιχείο δεδομένων να βρίσκεται στην αποθήκη δεδομένων.
[Χρησιμότητα. Κάθε στοιχείο δεδομένων στο χώρο αποθήκευσης δεδομένων πρέπει να ικανοποιεί ορισμένες απαιτήσεις της συλλογής χρηστών. Ένα στοιχείο δεδομένων μπορεί να είναι ακριβές και υψηλής ποιότητας, αλλά εάν δεν παρέχει αξία στους χρήστες, τότε δεν είναι απαραίτητο αυτό το στοιχείο δεδομένων να βρίσκεται στην αποθήκη δεδομένων.]

Τήρηση Κανόνων Ακεραιότητας Δεδομένων. Τα δεδομένα που αποθηκεύονται στις σχεσιακές βάσεις δεδομένων των συστημάτων πηγής πρέπει να συμμορφώνονται με τους κανόνες ακεραιότητας οντοτήτων και αναφορικής ακεραιότητας. Οποιοσδήποτε πίνακας επιτρέπει το null ως πρωτεύον κλειδί δεν έχει ακεραιότητα οντότητας. Η αναφορική ακεραιότητα αναγκάζει τη σωστή δημιουργία των σχέσεων γονέα-παιδιού. Σε μια σχέση πελάτη προς παραγγελία, η ακεραιότητα αναφοράς διασφαλίζει την ύπαρξη πελάτη για κάθε παραγγελία στη βάση δεδομένων.
[Συμμόρφωση με τους κανόνες ακεραιότητας δεδομένων. Τα δεδομένα που αποθηκεύονται σε σχεσιακές βάσεις δεδομένων συστημάτων πηγής πρέπει να συμμορφώνονται με τους κανόνες ακεραιότητας οντοτήτων και ακεραιότητας αναφοράς. Οποιοσδήποτε πίνακας επιτρέπει το null ως πρωτεύον κλειδί δεν έχει ακεραιότητα οντότητας. Η αναφορική ακεραιότητα αναγκάζει να εδραιωθεί σωστά η σχέση μεταξύ γονέων και παιδιών. Σε μια σχέση πελάτη-παραγγελίας, η ακεραιότητα αναφοράς διασφαλίζει ότι υπάρχει πελάτης για κάθε παραγγελία στη βάση δεδομένων.]

4. Ποιότητα καθαρισμού δεδομένων

Η ποιότητα του καθαρισμού δεδομένων είναι ένα μάλλον προβληματικό ζήτημα στα bigdata. Η απάντηση στο ερώτημα ποιος βαθμός καθαρισμού δεδομένων είναι απαραίτητος για την ολοκλήρωση της εργασίας είναι θεμελιώδης για κάθε αναλυτή δεδομένων. Στα περισσότερα τρέχοντα προβλήματα, κάθε αναλυτής το καθορίζει μόνος του και είναι απίθανο κάποιος από το εξωτερικό να είναι σε θέση να αξιολογήσει αυτή την πτυχή στη λύση του. Ωστόσο, για το συγκεκριμένο έργο σε αυτήν την περίπτωση, αυτό το ζήτημα ήταν εξαιρετικά σημαντικό, καθώς η αξιοπιστία των νομικών δεδομένων θα πρέπει να τείνει σε ένα.

Εξέταση τεχνολογιών δοκιμής λογισμικού για τον προσδιορισμό της λειτουργικής αξιοπιστίας. Σήμερα υπάρχουν περισσότερα από αυτά τα μοντέλα 200. Πολλά από τα μοντέλα χρησιμοποιούν ένα μοντέλο εξυπηρέτησης αξίωσης:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Σχήμα. 6

Σκεπτόμενος ως εξής: "Εάν το σφάλμα που βρέθηκε είναι ένα συμβάν παρόμοιο με το συμβάν αποτυχίας σε αυτό το μοντέλο, τότε πώς να βρείτε ένα ανάλογο της παραμέτρου t;" Και συνέταξα το ακόλουθο μοντέλο: Ας φανταστούμε ότι ο χρόνος που χρειάζεται ένας ελεγκτής για να ελέγξει μια εγγραφή είναι 1 λεπτό (για τη συγκεκριμένη βάση δεδομένων), μετά για να βρει όλα τα σφάλματα θα χρειαστεί 365 λεπτά, δηλαδή περίπου 494 χρόνια και 3 μήνες χρόνου εργασίας. Όπως καταλαβαίνουμε, πρόκειται για πολύ μεγάλο όγκο εργασίας και το κόστος του ελέγχου της βάσης δεδομένων θα είναι απαγορευτικό για τον μεταγλωττιστή αυτής της βάσης δεδομένων. Σε αυτόν τον προβληματισμό, εμφανίζεται η οικονομική έννοια του κόστους και μετά από ανάλυση κατέληξα στο συμπέρασμα ότι πρόκειται για ένα αρκετά αποτελεσματικό εργαλείο. Με βάση τον νόμο της οικονομίας: «Ο όγκος παραγωγής (σε μονάδες) στον οποίο επιτυγχάνεται το μέγιστο κέρδος μιας επιχείρησης βρίσκεται στο σημείο όπου το οριακό κόστος παραγωγής μιας νέας μονάδας παραγωγής συγκρίνεται με την τιμή που μπορεί να λάβει αυτή η επιχείρηση. για μια νέα μονάδα." Με βάση το αξίωμα ότι η εύρεση κάθε επόμενου σφάλματος απαιτεί όλο και περισσότερο έλεγχο των αρχείων, αυτός είναι ένας παράγοντας κόστους. Δηλαδή, το αξίωμα που υιοθετείται στη δοκιμή μοντέλων αποκτά μια φυσική σημασία με το ακόλουθο μοτίβο: εάν για να βρεθεί το i-ο σφάλμα ήταν απαραίτητο να ελέγξετε n εγγραφές, τότε για να βρείτε το επόμενο (i+3) σφάλμα θα είναι απαραίτητο για έλεγχο m εγγραφών και ταυτόχρονα n

  1. Όταν ο αριθμός των εγγραφών που ελέγχθηκαν πριν εντοπιστεί νέο σφάλμα σταθεροποιείται.
  2. Όταν ο αριθμός των εγγραφών που ελέγχονται πριν από την εύρεση του επόμενου σφάλματος θα αυξηθεί.

Για να προσδιορίσω την κρίσιμη αξία, στράφηκα στην έννοια της οικονομικής σκοπιμότητας, η οποία σε αυτήν την περίπτωση, χρησιμοποιώντας την έννοια του κοινωνικού κόστους, μπορεί να διατυπωθεί ως εξής: «Το κόστος της διόρθωσης του λάθους θα πρέπει να βαρύνει τον οικονομικό παράγοντα που μπορεί να κάνει με το χαμηλότερο κόστος." Έχουμε έναν πράκτορα - έναν δοκιμαστή που ξοδεύει 1 λεπτό για να ελέγξει ένα αρχείο. Σε χρηματικούς όρους, εάν κερδίζετε 6000 ρούβλια/ημέρα, αυτό θα είναι 12,2 ρούβλια. (σήμερα περίπου). Απομένει να καθοριστεί η δεύτερη πλευρά της ισορροπίας στο οικονομικό δίκαιο. Σκέφτηκα έτσι. Ένα υπάρχον σφάλμα θα απαιτήσει από τον ενδιαφερόμενο να καταβάλει προσπάθεια για να το διορθώσει, δηλαδή από τον ιδιοκτήτη του ακινήτου. Ας υποθέσουμε ότι αυτό απαιτεί 1 ημέρα δράσης (υποβολή αίτησης, λήψη διορθωμένου εγγράφου). Τότε, από κοινωνική άποψη, το κόστος του θα είναι ίσο με τον μέσο μισθό ανά ημέρα. Μέσος δεδουλευμένος μισθός στην Αυτόνομη Περιφέρεια Khanty-Mansi «Αποτελέσματα της κοινωνικοοικονομικής ανάπτυξης της Αυτόνομης Περιφέρειας Khanty-Mansiysk - Ugra για τον Ιανουάριο-Σεπτέμβριο 2019» 73285 τρίψτε. ή 3053,542 ρούβλια/ημέρα. Συνεπώς, λαμβάνουμε μια κρίσιμη τιμή ίση με:
3053,542: 12,2 = 250,4 μονάδες εγγραφών.

Αυτό σημαίνει, από κοινωνική άποψη, εάν ένας ελεγκτής έλεγξε 251 εγγραφές και βρήκε ένα σφάλμα, ισοδυναμεί με το ότι ο χρήστης διορθώνει αυτό το σφάλμα ο ίδιος. Αντίστοιχα, εάν ο ελεγκτής ξόδεψε χρόνο ίσο με τον έλεγχο 252 εγγραφών για να βρει το επόμενο σφάλμα, τότε σε αυτήν την περίπτωση είναι καλύτερο να μετατοπιστεί το κόστος διόρθωσης στον χρήστη.

Εδώ παρουσιάζεται μια απλοποιημένη προσέγγιση, καθώς από κοινωνική άποψη είναι απαραίτητο να ληφθεί υπόψη όλη η πρόσθετη αξία που δημιουργείται από κάθε ειδικό, δηλαδή το κόστος συμπεριλαμβανομένων των φόρων και των κοινωνικών πληρωμών, αλλά το μοντέλο είναι σαφές. Συνέπεια αυτής της σχέσης είναι η ακόλουθη απαίτηση για τους ειδικούς: ένας ειδικός από τον κλάδο της πληροφορικής πρέπει να έχει μισθό μεγαλύτερο από τον εθνικό μέσο όρο. Εάν ο μισθός του είναι μικρότερος από τον μέσο μισθό των πιθανών χρηστών βάσης δεδομένων, τότε ο ίδιος πρέπει να ελέγξει ολόκληρη τη βάση δεδομένων χέρι με χέρι.

Όταν χρησιμοποιείτε το περιγραφόμενο κριτήριο, διαμορφώνεται η πρώτη απαίτηση για την ποιότητα της βάσης δεδομένων:
I(tr). Το μερίδιο των κρίσιμων σφαλμάτων δεν πρέπει να υπερβαίνει το 1/250,4 = 0,39938%. Λίγο λιγότερο από διύλιση χρυσός στη βιομηχανία. Και από φυσική άποψη δεν υπάρχουν περισσότερες από 1459 εγγραφές με σφάλματα.

Οικονομική υποχώρηση.

Στην πραγματικότητα, κάνοντας έναν τέτοιο αριθμό σφαλμάτων στα αρχεία, η κοινωνία συμφωνεί σε οικονομικές απώλειες στο ποσό των:

1459*3053,542 = 4 ρούβλια.

Το ποσό αυτό καθορίζεται από το γεγονός ότι η κοινωνία δεν διαθέτει τα εργαλεία για να μειώσει αυτό το κόστος. Επομένως, εάν κάποιος έχει μια τεχνολογία που του επιτρέπει να μειώσει τον αριθμό των εγγραφών με σφάλματα σε, για παράδειγμα, 259, τότε αυτό θα επιτρέψει στην κοινωνία να εξοικονομήσει:
1200*3053,542 = 3 ρούβλια.

Αλλά ταυτόχρονα, μπορεί να ζητήσει το ταλέντο και τη δουλειά του, καλά, ας πούμε - 1 εκατομμύριο ρούβλια.
Δηλαδή, το κοινωνικό κόστος μειώνεται κατά:

3 – 664 = 250 ρούβλια.

Στην ουσία, αυτό το αποτέλεσμα είναι η προστιθέμενη αξία από τη χρήση των τεχνολογιών BigDat.

Αλλά εδώ πρέπει να ληφθεί υπόψη ότι πρόκειται για κοινωνικό αποτέλεσμα και ο ιδιοκτήτης της βάσης δεδομένων είναι δημοτικές αρχές, τα έσοδά τους από τη χρήση περιουσίας που καταγράφεται σε αυτήν τη βάση δεδομένων, σε ποσοστό 0,3%, είναι: 2,778 δισεκατομμύρια ρούβλια/ έτος. Και αυτά τα έξοδα (4 ρούβλια) δεν τον ενοχλούν ιδιαίτερα, αφού μεταφέρονται στους ιδιοκτήτες ακινήτων. Και, από αυτή την άποψη, ο προγραμματιστής περισσότερων τεχνολογιών βελτίωσης στο Bigdata θα πρέπει να δείξει την ικανότητα να πείσει τον ιδιοκτήτη αυτής της βάσης δεδομένων, και τέτοια πράγματα απαιτούν σημαντικό ταλέντο.

Σε αυτό το παράδειγμα, ο αλγόριθμος αξιολόγησης σφαλμάτων επιλέχθηκε με βάση το μοντέλο Schumann [2] επαλήθευσης λογισμικού κατά τη διάρκεια της δοκιμής αξιοπιστίας. Λόγω της επικράτησης του στο Διαδίκτυο και της δυνατότητας απόκτησης των απαραίτητων στατιστικών δεικτών. Η μεθοδολογία λαμβάνεται από τον Monakhov Yu.M. «Λειτουργική σταθερότητα συστημάτων πληροφοριών», βλέπε κάτω από το σπόιλερ στο Σχ. 7-9.

Ρύζι. 7 – 9 Μεθοδολογία του μοντέλου SchumannΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό

Το δεύτερο μέρος αυτού του υλικού παρουσιάζει ένα παράδειγμα καθαρισμού δεδομένων, στο οποίο λαμβάνονται τα αποτελέσματα της χρήσης του μοντέλου Schumann.
Επιτρέψτε μου να παρουσιάσω τα αποτελέσματα που προέκυψαν:
Εκτιμώμενος αριθμός σφαλμάτων N = 3167 n.
Παράμετρος C, λάμδα και συνάρτηση αξιοπιστίας:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι παιχνίδι με ή χωρίς τελείωμα; Μέρος 1. Θεωρητικό
Εικ. 17

Ουσιαστικά, το λάμδα είναι ένας πραγματικός δείκτης της έντασης στην οποία εντοπίζονται σφάλματα σε κάθε στάδιο. Αν κοιτάξετε το δεύτερο μέρος, η εκτίμηση για αυτόν τον δείκτη ήταν 42,4 σφάλματα ανά ώρα, κάτι που είναι αρκετά συγκρίσιμο με τον δείκτη Schumann. Παραπάνω, καθορίστηκε ότι ο ρυθμός με τον οποίο ένας προγραμματιστής βρίσκει σφάλματα δεν πρέπει να είναι μικρότερος από 1 σφάλμα ανά 250,4 εγγραφές, κατά τον έλεγχο 1 εγγραφής ανά λεπτό. Εξ ου και η κρίσιμη τιμή του λάμδα για το μοντέλο Schumann:

60 / 250,4 = 0,239617.

Δηλαδή, η ανάγκη διεξαγωγής διαδικασιών ανίχνευσης σφαλμάτων πρέπει να πραγματοποιηθεί έως ότου το λάμδα, από το υπάρχον 38,964, μειωθεί στο 0,239617.

Ή έως ότου ο δείκτης N (δυνητικός αριθμός σφαλμάτων) μείον n (διορθωμένος αριθμός σφαλμάτων) μειωθεί κάτω από το αποδεκτό μας όριο - 1459 τμχ.

Λογοτεχνία

  1. Monakhov, Yu. M. Λειτουργική σταθερότητα πληροφοριακών συστημάτων. Σε 3 ώρες Μέρος 1. Αξιοπιστία λογισμικού: σχολικό βιβλίο. επίδομα / Yu. M. Monakhov; Βλαντίμ. κατάσταση παν. – Vladimir: Izvo Vladim. κατάσταση Πανεπιστήμιο, 2011. – 60 σελ. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, «Πιθανολογικά μοντέλα για την πρόβλεψη αξιοπιστίας λογισμικού».
  3. Βασικές αρχές αποθήκευσης δεδομένων για επαγγελματίες πληροφορικής / Paulraj Ponniah.—2η έκδ.

Μέρος δεύτερο. Θεωρητικός

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο