Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

В μέρος πρώτο περιγράφηκε ότι αυτή η δημοσίευση έγινε με βάση ένα σύνολο δεδομένων με αποτελέσματα κτηματογράφησης αποτίμησης ακίνητης περιουσίας στην Αυτόνομη Περιφέρεια Khanty-Mansi.

Το πρακτικό μέρος παρουσιάζεται με τη μορφή βημάτων. Όλος ο καθαρισμός έγινε στο Excel, καθώς το πιο συνηθισμένο εργαλείο και οι περιγραφόμενες λειτουργίες μπορούν να επαναληφθούν από τους περισσότερους ειδικούς που γνωρίζουν το Excel. Και αρκετά κατάλληλο για εργασία χέρι με χέρι.

Το μηδενικό στάδιο θα είναι η εργασία εκκίνησης και αποθήκευσης του αρχείου, καθώς έχει μέγεθος 100 MB, τότε με τον αριθμό αυτών των λειτουργιών να είναι δεκάδες και εκατοντάδες, χρειάζονται σημαντικό χρόνο.
Το άνοιγμα, κατά μέσο όρο, είναι 30 δευτερόλεπτα.
Εξοικονόμηση – 22 δευτερόλεπτα.

Το πρώτο στάδιο ξεκινά με τον προσδιορισμό των στατιστικών δεικτών του συνόλου δεδομένων.

Πίνακας 1. Στατιστικοί δείκτες του συνόλου δεδομένων
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Τεχνολογία 2.1.

Δημιουργούμε ένα βοηθητικό πεδίο, το έχω κάτω από τον αριθμό - AY. Για κάθε καταχώριση, σχηματίζουμε τον τύπο "=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)"

Συνολικός χρόνος που δαπανήθηκε στο στάδιο 2.1 (για τον τύπο Schumann) t21 = 1 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 2.1 (για τον τύπο Schumann) n21 = 0 τεμ.

Το δεύτερο στάδιο.
Έλεγχος των στοιχείων του συνόλου δεδομένων.
2.2. Όλες οι τιμές στις εγγραφές σχηματίζονται χρησιμοποιώντας τυπικά σύμβολα. Επομένως, ας παρακολουθήσουμε τα στατιστικά στοιχεία ανά σύμβολα.

Πίνακας 2. Στατιστικοί δείκτες χαρακτήρων στο σύνολο δεδομένων με προκαταρκτική ανάλυση των αποτελεσμάτων.Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Τεχνολογία 2.2.1.

Δημιουργούμε ένα βοηθητικό πεδίο - "alpha1". Για κάθε εγγραφή, σχηματίζουμε τον τύπο "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Δημιουργούμε ένα σταθερό κύτταρο Ωμέγα-1. Θα εισάγουμε εναλλακτικά κωδικούς χαρακτήρων σύμφωνα με τα Windows-1251 από 32 έως 255 σε αυτό το κελί.
Δημιουργούμε ένα βοηθητικό πεδίο - "alpha2". Με τον τύπο "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Δημιουργούμε ένα βοηθητικό πεδίο - "alpha3". Με τον τύπο "=IF(ISNUMBER("alpha2",N),1)"
Δημιουργήστε ένα σταθερό κελί "Ωμέγα-2", με τον τύπο "=SUM("alpha3"N1: "alpha3"N365498)"

Πίνακας 3. Αποτελέσματα προκαταρκτικής ανάλυσης αποτελεσμάτωνΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Πίνακας 4. Σφάλματα που καταγράφηκαν σε αυτό το στάδιοΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Συνολικός χρόνος που δαπανήθηκε στο στάδιο 2.2.1 (για τον τύπο Schumann) t221 = 8 ώρα.
Αριθμός διορθωμένων σφαλμάτων στο στάδιο 2.2.1 (για τον τύπο Schumann) n221 = 0 τεμ.

Βήμα 3.
Το τρίτο βήμα είναι η καταγραφή της κατάστασης του συνόλου δεδομένων. Εκχωρώντας σε κάθε εγγραφή έναν μοναδικό αριθμό (ID) και σε κάθε πεδίο. Αυτό είναι απαραίτητο για να συγκρίνετε το σύνολο δεδομένων που μετατράπηκε με το αρχικό. Αυτό είναι επίσης απαραίτητο για την πλήρη αξιοποίηση των δυνατοτήτων ομαδοποίησης και φιλτραρίσματος. Εδώ πάλι στραφούμε στον πίνακα 2.2.2 και επιλέγουμε ένα σύμβολο που δεν χρησιμοποιείται στο σύνολο δεδομένων. Παίρνουμε αυτό που φαίνεται στο σχήμα 10.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Εικ. 10. Εκχώρηση αναγνωριστικών.

Συνολικός χρόνος που δαπανήθηκε στο στάδιο 3 (για τον τύπο Schumann) t3 = 0,75 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 3 (για τον τύπο Schumann) n3 = 0 τεμ.

Δεδομένου ότι ο τύπος Schumann απαιτεί να ολοκληρωθεί το στάδιο με διόρθωση σφαλμάτων. Ας επιστρέψουμε στο στάδιο 2.

Βήμα 2.2.2.
Σε αυτό το βήμα θα διορθώσουμε επίσης διπλά και τριπλά κενά.
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Εικ. 11. Αριθμός διπλών χώρων.

Διόρθωση των σφαλμάτων που εντοπίστηκαν στον πίνακα 2.2.4.

Πίνακας 5. Στάδιο διόρθωσης σφαλμάτωνΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Ένα παράδειγμα του γιατί μια πτυχή όπως η χρήση των γραμμάτων "e" ή "e" είναι σημαντική παρουσιάζεται στο Σχήμα 12.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Εικ. 12. Ασυμφωνία στο γράμμα «ε».

Συνολικός χρόνος που δαπανήθηκε στο βήμα 2.2.2 t222 = 4 ώρες.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

Το τέταρτο στάδιο.
Ο έλεγχος για πλεονασμό πεδίου ταιριάζει καλά σε αυτό το στάδιο. Από τα 44 πεδία, τα 6 πεδία:
7 - Σκοπός της δομής
16 — Αριθμός υπόγειων ορόφων
17 - Γονικό αντικείμενο
21 - Δημοτικό Συμβούλιο
38 — Παράμετροι δομής (περιγραφή)
40 – Πολιτιστική κληρονομιά

Δεν έχουν συμμετοχές. Είναι περιττοί δηλαδή.
Το πεδίο «22 – Πόλη» έχει μία μόνο καταχώρηση, Εικόνα 13.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Εικ. 13. Η μόνη καταχώριση είναι Z_348653 στο πεδίο "Πόλη".

Το πεδίο «34 - Όνομα κτιρίου» περιέχει καταχωρήσεις που σαφώς δεν ανταποκρίνονται στον σκοπό του πεδίου, Εικόνα 14.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Εικ. 14. Παράδειγμα μη συμμορφούμενης καταχώρισης.

Εξαιρούμε αυτά τα πεδία από το σύνολο δεδομένων. Και καταγράφουμε την αλλαγή σε 214 εγγραφές.

Συνολικός χρόνος που δαπανήθηκε στο στάδιο 4 (για τον τύπο Schumann) t4 = 2,5 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 4 (για τον τύπο Schumann) n4 = 222 τεμ.

Πίνακας 6. Ανάλυση δεικτών συνόλων δεδομένων μετά το 4ο στάδιο

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Γενικά, αναλύοντας τις αλλαγές στους δείκτες (Πίνακας 6) μπορούμε να πούμε ότι:
1) Ο λόγος του μέσου αριθμού συμβόλων προς τον μοχλό τυπικής απόκλισης είναι κοντά στο 3, δηλαδή υπάρχουν σημάδια κανονικής κατανομής (κανόνας έξι σίγμα).
2) Μια σημαντική απόκλιση του ελάχιστου και του μέγιστου μοχλού από τον μέσο μοχλό υποδηλώνει ότι η μελέτη των ουρών είναι μια πολλά υποσχόμενη κατεύθυνση κατά την αναζήτηση σφαλμάτων.

Ας εξετάσουμε τα αποτελέσματα της εύρεσης σφαλμάτων χρησιμοποιώντας τη μεθοδολογία του Schumann.

Στάδια αδράνειας

2.1. Συνολικός χρόνος που δαπανήθηκε στο στάδιο 2.1 (για τον τύπο Schumann) t21 = 1 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 2.1 (για τον τύπο Schumann) n21 = 0 τεμ.

3. Συνολικός χρόνος που δαπανήθηκε στο στάδιο 3 (για τον τύπο Schumann) t3 = 0,75 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 3 (για τον τύπο Schumann) n3 = 0 τεμ.

Αποτελεσματικά στάδια
2.2. Συνολικός χρόνος που δαπανήθηκε στο στάδιο 2.2.1 (για τον τύπο Schumann) t221 = 8 ώρα.
Αριθμός διορθωμένων σφαλμάτων στο στάδιο 2.2.1 (για τον τύπο Schumann) n221 = 0 τεμ.
Συνολικός χρόνος που δαπανήθηκε στο βήμα 2.2.2 t222 = 4 ώρες.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

Συνολικός χρόνος που δαπανήθηκε στο βήμα 2.2 t22 = 8 + 4 = 12 ώρες.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

4. Συνολικός χρόνος που δαπανήθηκε στο στάδιο 4 (για τον τύπο Schumann) t4 = 2,5 ώρα.
Αριθμός σφαλμάτων που βρέθηκαν στο στάδιο 4 (για τον τύπο Schumann) n4 = 222 τεμ.

Δεδομένου ότι υπάρχουν μηδενικά στάδια που πρέπει να συμπεριληφθούν στο πρώτο στάδιο του μοντέλου Schumann, και από την άλλη πλευρά, τα στάδια 2.2 και 4 είναι εγγενώς ανεξάρτητα, τότε δεδομένου ότι το μοντέλο Schumann υποθέτει ότι αυξάνοντας τη διάρκεια του ελέγχου, η πιθανότητα της ανίχνευσης ενός σφάλματος μειώνεται, δηλαδή, η ροή μειώνει τις αστοχίες, τότε εξετάζοντας αυτή τη ροή θα προσδιορίσουμε ποιο στάδιο να βάλουμε πρώτο, σύμφωνα με τον κανόνα, όπου η πυκνότητα αστοχίας είναι πιο συχνή, θα βάλουμε πρώτο αυτό το στάδιο.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 15

Από τον τύπο στο Σχήμα 15 προκύπτει ότι είναι προτιμότερο να τοποθετηθεί το τέταρτο στάδιο πριν από το στάδιο 2.2 στους υπολογισμούς.

Χρησιμοποιώντας τον τύπο του Schumann, προσδιορίζουμε τον εκτιμώμενο αρχικό αριθμό σφαλμάτων:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 16

Από τα αποτελέσματα στο Σχήμα 16 φαίνεται ότι ο προβλεπόμενος αριθμός σφαλμάτων είναι N2 = 3167, που είναι περισσότερο από το ελάχιστο κριτήριο των 1459.

Ως αποτέλεσμα της διόρθωσης, διορθώσαμε 805 σφάλματα και ο προβλεπόμενος αριθμός είναι 3167 – 805 = 2362, που εξακολουθεί να είναι περισσότερο από το ελάχιστο όριο που δεχθήκαμε.

Ορίζουμε την παράμετρο C, το λάμδα και τη συνάρτηση αξιοπιστίας:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 17

Ουσιαστικά, το λάμδα είναι ένας πραγματικός δείκτης της έντασης με την οποία εντοπίζονται σφάλματα σε κάθε στάδιο. Αν κοιτάξετε παραπάνω, η προηγούμενη εκτίμηση αυτού του δείκτη ήταν 42,4 σφάλματα ανά ώρα, κάτι που είναι αρκετά συγκρίσιμο με τον δείκτη Schumann. Περνώντας στο πρώτο μέρος αυτού του υλικού, καθορίστηκε ότι ο ρυθμός με τον οποίο ένας προγραμματιστής βρίσκει σφάλματα δεν πρέπει να είναι μικρότερος από 1 σφάλμα ανά 250,4 εγγραφές, κατά τον έλεγχο 1 εγγραφής ανά λεπτό. Εξ ου και η κρίσιμη τιμή του λάμδα για το μοντέλο Schumann:
60 / 250,4 = 0,239617.

Δηλαδή, η ανάγκη διεξαγωγής διαδικασιών ανίχνευσης σφαλμάτων πρέπει να πραγματοποιηθεί έως ότου το λάμδα, από το υπάρχον 38,964, μειωθεί στο 0,239617.

Ή έως ότου ο δείκτης N (δυνητικός αριθμός σφαλμάτων) μείον n (διορθωμένος αριθμός σφαλμάτων) μειωθεί κάτω από το όριο που δεχθήκαμε (στο πρώτο μέρος) - 1459 τμχ.

Μέρος 1. Θεωρητικό.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο