Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

В Μέρος Πρώτο Περιγράφηκε ότι η παρούσα δημοσίευση έγινε με βάση ένα σύνολο δεδομένων των αποτελεσμάτων της κτηματολογικής αποτίμησης ακινήτων στην Αυτόνομη Περιφέρεια Χάντι-Μανσίσκ.

Το πρακτικό μέρος παρουσιάζεται με τη μορφή βημάτων. Όλος ο καθαρισμός πραγματοποιήθηκε στο Excel, καθώς είναι το πιο συνηθισμένο εργαλείο και οι περιγραφόμενες λειτουργίες μπορούν να επαναληφθούν από τους περισσότερους ειδικούς που γνωρίζουν το Excel. Και είναι αρκετά κατάλληλο για μάχη σώμα με σώμα.

Θα αφιερώσω την εργασία στην εκκίνηση και την αποθήκευση του αρχείου ως μηδενικό στάδιο, δεδομένου ότι έχει μέγεθος 100 MB, και με τον αριθμό αυτών των λειτουργιών σε δεκάδες και εκατοντάδες, χρειάζονται σημαντικό χρόνο.
Ο χρόνος ανοίγματος, κατά μέσο όρο, είναι 30 δευτερόλεπτα.
Εξοικονόμηση - 22 δευτ.

Το πρώτο στάδιο ξεκινά με τον ορισμό των στατιστικών δεικτών του συνόλου δεδομένων.

Πίνακας 1. Στατιστικοί δείκτες του συνόλου δεδομένων
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Τεχνολογία 2.1.

Δημιουργούμε ένα βοηθητικό πεδίο, το έχω κάτω από τον αριθμό - AY. Για κάθε καταχώρηση, σχηματίζουμε τον τύπο “=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)”

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.1 (για τον τύπο Schumann) t21 = 1 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 2.1 (για τον τύπο Schumann) n21 = 0 τεμ.

Το δεύτερο στάδιο.
Έλεγχος των στοιχείων του συνόλου δεδομένων.
2.2. Όλες οι τιμές στις εγγραφές σχηματίζονται από τυπικά σύμβολα. Επομένως, ας παρακολουθήσουμε τα στατιστικά στοιχεία με σύμβολα.

Πίνακας 2. Στατιστικοί δείκτες συμβόλων στο σύνολο δεδομένων με προκαταρκτική ανάλυση των αποτελεσμάτων.Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Τεχνολογία 2.2.1.

Δημιουργούμε ένα βοηθητικό πεδίο – «άλφα1». Για κάθε καταχώρηση, σχηματίζουμε τον τύπο “=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)”
Δημιουργούμε ένα σταθερό κύτταρο Ωμέγα-1. Σε αυτό το κελί θα εισάγουμε τους κωδικούς χαρακτήρων έναν προς έναν σύμφωνα με τα Windows-1251 από 32 έως 255.
Δημιουργούμε ένα βοηθητικό πεδίο – «άλφα2». Με τον τύπο "=FIND(CHAR(Ωμέγα;1); "άλφα1";N)".
Δημιουργούμε ένα βοηθητικό πεδίο – «άλφα3». Με τον τύπο "=IF(ISNUMBER("alpha2";N);1;0)"
Δημιουργήστε ένα σταθερό κελί "Ωμέγα-2" με τον τύπο "=SUM("άλφα3"N1:"άλφα3"N365498)"

Πίνακας 3. Αποτελέσματα της προκαταρκτικής ανάλυσης των αποτελεσμάτωνΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Πίνακας 4. Σφάλματα που καταγράφηκαν σε αυτό το στάδιοΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.2.1 (για τον τύπο Schumann) t221 = 8 ώρα.
Ο αριθμός των σφαλμάτων που διορθώθηκαν στο στάδιο 2.2.1 (για τον τύπο Schumann) n221 = 0 τεμ.

Βήμα 3.
Το τρίτο βήμα είναι η καταγραφή της κατάστασης του συνόλου δεδομένων. Αντιστοιχίζοντας σε κάθε εγγραφή έναν μοναδικό αριθμό (ID) και σε κάθε πεδίο. Αυτό είναι απαραίτητο για να συγκριθεί το μετασχηματισμένο σύνολο δεδομένων με το αρχικό. Αυτό είναι επίσης απαραίτητο για την πλήρη αξιοποίηση των δυνατοτήτων ομαδοποίησης και φιλτραρίσματος. Εδώ στρεφόμαστε ξανά στον πίνακα 2.2.2 και επιλέγουμε ένα σύμβολο που δεν χρησιμοποιείται στο σύνολο δεδομένων. Παίρνουμε αυτό που φαίνεται στο Σχήμα 10.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχήμα 10. Αντιστοίχιση αναγνωριστικών.

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 3 (για τον τύπο Schumann) t3 = 0,75 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 3 (για τον τύπο Schumann) n3 = 0 τεμ.

Επειδή ο τύπος του Σούμαν απαιτεί την ολοκλήρωση του σταδίου με διόρθωση σφαλμάτων. Ας επιστρέψουμε στο στάδιο 2.

Βήμα 2.2.2.
Σε αυτό το στάδιο θα διορθώσουμε επίσης διπλά και τριπλά κενά.
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχήμα 11. Αριθμός διπλών κενών.

Διόρθωση σφαλμάτων που εντοπίστηκαν στον πίνακα 2.2.4.

Πίνακας 5. Στάδιο διόρθωσης σφαλμάτωνΚαθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Ένα παράδειγμα του γιατί μια τέτοια πτυχή όπως η χρήση των γραμμάτων «e» ή «yo» είναι σημαντική φαίνεται στο Σχήμα 12.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχήμα 12. Ασυνέπεια στο γράμμα "ё".

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.2.2 t222 = 4 ώρες.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

Το τέταρτο στάδιο.
Ο έλεγχος για πλεονασμό πεδίων ταιριάζει απόλυτα σε αυτό το στάδιο. Από τα 44 πεδία, τα 6 είναι:
7 — Σκοπός της δομής
16 - Αριθμός υπόγειων ορόφων
17 — Γονικό αντικείμενο
21 — Δημοτικό Συμβούλιο
38 — Παράμετροι της δομής (περιγραφή)
40 - Πολιτιστική Κληρονομιά

Δεν έχουν κανένα αρχείο. Δηλαδή, είναι περιττοί.
Το πεδίο «22 - Πόλη» έχει μία μόνο καταχώρηση, Σχήμα 13.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχήμα 13. Η μόνη καταχώρηση είναι η Z_348653 στο πεδίο Πόλη.

Το πεδίο «34 – Όνομα κτιρίου» περιέχει καταχωρίσεις που σαφώς δεν αντιστοιχούν στον σκοπό του πεδίου, Σχήμα 14.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχήμα 14. Παράδειγμα μη συμμορφούμενης καταχώρησης.

Εξαιρούμε αυτά τα πεδία από το σύνολο δεδομένων. Και καταγράφουμε μια αλλαγή σε 214 εγγραφές.

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 4 (για τον τύπο Schumann) t4 = 2,5 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 4 (για τον τύπο Schumann) n4 = 222 τεμ.

Πίνακας 6. Ανάλυση δεικτών συνόλου δεδομένων μετά το 4ο στάδιο

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό

Γενικά, αναλύοντας τις αλλαγές στους δείκτες (πίνακας 6), μπορούμε να πούμε ότι:
1) Η αναλογία των μοχλών του μέσου αριθμού συμβόλων προς τον μοχλό της τυπικής απόκλισης είναι κοντά στο 3, δηλαδή, υπάρχουν ενδείξεις κανονικής κατανομής (κανόνας έξι σίγμα).
2) Η σημαντική απόκλιση των ελάχιστων και μέγιστων μοχλών από τον μέσο μοχλό υποδηλώνει ότι η μελέτη των ουρών είναι μια πολλά υποσχόμενη κατεύθυνση στην αναζήτηση σφαλμάτων.

Θα εξετάσουμε τα αποτελέσματα της εύρεσης σφαλμάτων χρησιμοποιώντας τη μεθοδολογία Schumann.

Στάδια αδράνειας

2.1. Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.1 (για τον τύπο Schumann) t21 = 1 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 2.1 (για τον τύπο Schumann) n21 = 0 τεμ.

3. Συνολικός χρόνος που αφιερώθηκε στο στάδιο 3 (για τον τύπο Schumann) t3 = 0,75 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 3 (για τον τύπο Schumann) n3 = 0 τεμ.

Στάδια αποτελεσμάτων
2.2. Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.2.1 (για τον τύπο Schumann) t221 = 8 ώρα.
Ο αριθμός των σφαλμάτων που διορθώθηκαν στο στάδιο 2.2.1 (για τον τύπο Schumann) n221 = 0 τεμ.
Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.2.2 t222 = 4 ώρες.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

Συνολικός χρόνος που αφιερώθηκε στο στάδιο 2.2 t22 = 8 + 4 = 12 ώρες.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 2.2.2 (για τον τύπο Schumann) n222 = 583 τεμ.

4. Συνολικός χρόνος που αφιερώθηκε στο στάδιο 4 (για τον τύπο Schumann) t4 = 2,5 ώρα.
Ο αριθμός των σφαλμάτων που βρέθηκαν στο στάδιο 4 (για τον τύπο Schumann) n4 = 222 τεμ.

Δεδομένου ότι υπάρχουν μηδενικά στάδια που πρέπει να συμπεριληφθούν στο πρώτο στάδιο του μοντέλου Schumann, και από την άλλη πλευρά, τα στάδια 2.2 και 4 είναι ουσιαστικά ανεξάρτητα, τότε λαμβάνοντας υπόψη ότι το μοντέλο Schumann υποθέτει ότι με την αύξηση της διάρκειας της δοκιμής, η πιθανότητα ανίχνευσης ενός σφάλματος μειώνεται, δηλαδή, η ροή των βλαβών μειώνεται, τότε μελετώντας αυτή τη ροή θα προσδιορίσουμε ποιο από τα στάδια θα θέσουμε πρώτο, σύμφωνα με τον κανόνα, όπου η πυκνότητα βλαβών είναι συχνότερη, αυτό το στάδιο τίθεται πρώτο.

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 15

Από τον τύπο στο Σχήμα 15 προκύπτει ότι είναι προτιμότερο να τοποθετηθεί το τέταρτο στάδιο πριν από το στάδιο 2.2 στους υπολογισμούς.

Χρησιμοποιώντας τον τύπο Schumann, προσδιορίζουμε τον εκτιμώμενο αρχικό αριθμό σφαλμάτων:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 16

Από τα αποτελέσματα στο Σχήμα 16, φαίνεται ότι ο προβλεπόμενος αριθμός σφαλμάτων N2 = 3167, ο οποίος είναι μεγαλύτερος από το ελάχιστο κριτήριο των 1459.

Ως αποτέλεσμα της διόρθωσης, διορθώσαμε 805 σφάλματα και ο προβλεπόμενος αριθμός είναι 3167 - 805 = 2362, ο οποίος εξακολουθεί να είναι μεγαλύτερος από το ελάχιστο όριο που υιοθετήσαμε.

Ορίζουμε την παράμετρο C, το λάμδα και τη συνάρτηση αξιοπιστίας:

Καθαρισμός δεδομένων όπως Rock, Paper, Scissors. Είναι ένα παιχνίδι με ή χωρίς τελείωμα; Μέρος 2. Πρακτικό
Σχ. 17

Ουσιαστικά, το λάμδα είναι ένας πραγματικός δείκτης της έντασης με την οποία ανιχνεύονται σφάλματα σε κάθε στάδιο. Αν κοιτάξετε παραπάνω, η προηγούμενη εκτίμηση αυτού του δείκτη ήταν 42,4 σφάλματα ανά ώρα, κάτι που είναι αρκετά συγκρίσιμο με τον δείκτη Schumann. Αναφερόμενοι στο πρώτο μέρος αυτού του υλικού, προσδιορίστηκε ότι η ένταση εύρεσης σφαλμάτων από τον προγραμματιστή δεν πρέπει να είναι μικρότερη από 1 σφάλμα ανά 250,4 εγγραφές, κατά τον έλεγχο 1 εγγραφής ανά λεπτό. Εξ ου και η κρίσιμη τιμή του λάμδα για το μοντέλο Schumann:
60 / 250,4 = 0,239617.

Δηλαδή, η ανάγκη διεξαγωγής διαδικασιών ανίχνευσης σφαλμάτων πρέπει να πραγματοποιηθεί έως ότου το λάμδα, από το υπάρχον 38,964, μειωθεί στο 0,239617.

Ή μέχρι ο δείκτης N (ο πιθανός αριθμός σφαλμάτων) μείον n (ο διορθωμένος αριθμός σφαλμάτων) να μειωθεί κάτω από το όριο που υιοθετήσαμε (στο πρώτο μέρος) – 1459 τεμ.

Μέρος 1. Θεωρητικό.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο