Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

В prima parte s-a descris că această publicație a fost realizată pe baza unui set de date cu rezultatele evaluării cadastrale a bunurilor imobiliare din districtul autonom Khanty-Mansi.

Partea practică este prezentată sub formă de pași. Toată curățarea s-a făcut în Excel, deoarece cel mai comun instrument și operațiunile descrise pot fi repetate de majoritatea specialiștilor care cunosc Excel. Și destul de potrivit pentru lucrul corp la mână.

Etapa zero va fi munca de lansare și salvare a fișierului, deoarece are o dimensiune de 100 MB, apoi cu numărul acestor operațiuni fiind de zeci și sute, acestea necesită un timp semnificativ.
Deschiderea, în medie, este de 30 de secunde.
Salvare – 22 sec.

Prima etapă începe cu determinarea indicatorilor statistici ai setului de date.

Tabelul 1. Indicatori statistici ai setului de date
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

Tehnologie 2.1.

Creăm un câmp auxiliar, îl am sub numărul - AY. Pentru fiecare intrare, formăm formula „=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

Timpul total petrecut în etapa 2.1 (pentru formula Schumann) t21 = 1 oră.
Numărul de erori găsite la etapa 2.1 (pentru formula Schumann) n21 = 0 buc.

Doua etapă.
Verificarea componentelor setului de date.
2.2. Toate valorile din înregistrări sunt formate folosind simboluri standard. Prin urmare, să urmărim statisticile prin simboluri.

Tabelul 2. Indicatori statistici ai caracterelor din setul de date cu analiza preliminară a rezultatelor.Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

Tehnologie 2.2.1.

Creăm un câmp auxiliar - „alpha1”. Pentru fiecare înregistrare, formăm formula „=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
Creăm o celulă Omega-1 fixă. Vom introduce alternativ coduri de caractere conform Windows-1251 de la 32 la 255 în această celulă.
Creăm un câmp auxiliar - „alpha2”. Cu formula „=FIND(SYMBOL(Omega,1); „alpha1”,N)”.
Creăm un câmp auxiliar - „alpha3”. Cu formula „=IF(ISNUMBER(“alpha2”,N),1)”
Creați o celulă fixă ​​„Omega-2”, cu formula „=SUM(„alpha3”N1: „alpha3”N365498)”

Tabelul 3. Rezultatele analizei preliminare a rezultatelorCurățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

Tabelul 4. Erori înregistrate în această etapăCurățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

Timpul total petrecut în etapa 2.2.1 (pentru formula Schumann) t221 = 8 oră.
Număr de erori corectate la etapa 2.2.1 (pentru formula Schumann) n221 = 0 buc.

Pasul 3.
Al treilea pas este înregistrarea stării setului de date. Prin atribuirea fiecărei înregistrări a unui număr unic (ID) și a fiecărui câmp. Acest lucru este necesar pentru a compara setul de date convertit cu cel original. Acest lucru este, de asemenea, necesar pentru a profita din plin de capacitățile de grupare și filtrare. Aici ne întoarcem din nou la tabelul 2.2.2 și selectăm un simbol care nu este utilizat în setul de date. Obținem ceea ce este prezentat în Figura 10.

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 10. Atribuirea identificatorilor.

Timpul total petrecut în etapa 3 (pentru formula Schumann) t3 = 0,75 oră.
Numărul de erori găsite la etapa 3 (pentru formula Schumann) n3 = 0 buc.

Întrucât formula Schumann cere ca etapa să fie finalizată prin corectarea erorilor. Să revenim la etapa 2.

Pasul 2.2.2.
În acest pas vom corecta și spațiile duble și triple.
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 11. Numărul de spații duble.

Corectarea erorilor identificate în tabelul 2.2.4.

Tabelul 5. Etapa de corectare a erorilorCurățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

Un exemplu de ce este semnificativ un astfel de aspect precum utilizarea literelor „e” sau „e” este prezentat în Figura 12.

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 12. Discrepanță în litera „e”.

Timpul total petrecut în pasul 2.2.2 t222 = 4 ore.
Numărul de erori găsite la etapa 2.2.2 (pentru formula Schumann) n222 = 583 buc.

Etapa a patra.
Verificarea redundanței câmpului se încadrează bine în această etapă. Din cele 44 de câmpuri, 6 câmpuri:
7 - Scopul structurii
16 — Numărul de etaje subterane
17 - Obiect părinte
21 - Consiliul Satului
38 — Parametri de structură (descriere)
40 – Patrimoniul cultural

Nu au nicio intrare. Adică sunt redundante.
Câmpul „22 – Oraș” are o singură intrare, Figura 13.

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 13. Singura intrare este Z_348653 în câmpul „Oraș”.

Câmpul „34 - Nume clădire” conține intrări care în mod clar nu corespund scopului câmpului, Figura 14.

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 14. Un exemplu de intrare neconformă.

Excludem aceste câmpuri din setul de date. Și înregistrăm schimbarea în 214 înregistrări.

Timpul total petrecut în etapa 4 (pentru formula Schumann) t4 = 2,5 oră.
Numărul de erori găsite la etapa 4 (pentru formula Schumann) n4 = 222 buc.

Tabelul 6. Analiza indicatorilor setului de date după etapa a 4-a

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic

În general, analizând modificările indicatorilor (Tabelul 6) putem spune că:
1) Raportul dintre numărul mediu de simboluri și pârghia de abatere standard este aproape de 3, adică există semne ale unei distribuții normale (regula șase sigma).
2) O abatere semnificativă a pârghiilor minime și maxime de la pârghia medie sugerează că studiul cozilor este o direcție promițătoare atunci când se caută erori.

Să examinăm rezultatele găsirii erorilor folosind metodologia lui Schumann.

Etape inactiv

2.1. Timpul total petrecut în etapa 2.1 (pentru formula Schumann) t21 = 1 oră.
Numărul de erori găsite la etapa 2.1 (pentru formula Schumann) n21 = 0 buc.

3. Timpul total petrecut în etapa 3 (pentru formula Schumann) t3 = 0,75 oră.
Numărul de erori găsite la etapa 3 (pentru formula Schumann) n3 = 0 buc.

Etape eficiente
2.2. Timpul total petrecut în etapa 2.2.1 (pentru formula Schumann) t221 = 8 oră.
Număr de erori corectate la etapa 2.2.1 (pentru formula Schumann) n221 = 0 buc.
Timpul total petrecut în pasul 2.2.2 t222 = 4 ore.
Numărul de erori găsite la etapa 2.2.2 (pentru formula Schumann) n222 = 583 buc.

Timpul total petrecut în pasul 2.2 t22 = 8 + 4 = 12 ore.
Numărul de erori găsite la etapa 2.2.2 (pentru formula Schumann) n222 = 583 buc.

4. Timpul total petrecut în etapa 4 (pentru formula Schumann) t4 = 2,5 oră.
Numărul de erori găsite la etapa 4 (pentru formula Schumann) n4 = 222 buc.

Deoarece există zero etape care trebuie incluse în prima etapă a modelului Schumann, iar pe de altă parte, etapele 2.2 și 4 sunt în mod inerent independente, atunci având în vedere că modelul Schumann presupune că prin creșterea duratei verificării, probabilitatea de detectare a unei erori scade, adică debitul scade defecțiunile, apoi prin examinarea acestui flux vom determina ce etapă să punem primul, conform regulii, unde densitatea de defecțiuni este mai frecventă, vom pune acea treaptă pe primul loc.

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 15.

Din formula din figura 15 rezultă că este de preferat să plasăm a patra etapă înaintea etapei 2.2 în calcule.

Folosind formula lui Schumann, determinăm numărul inițial estimat de erori:

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 16.

Din rezultatele din Figura 16 se poate observa că numărul prezis de erori este N2 = 3167, care este mai mult decât criteriul minim de 1459.

Ca urmare a corectării, am corectat 805 erori, iar numărul prezis este 3167 – 805 = 2362, care este încă mai mult decât pragul minim pe care l-am acceptat.

Definim parametrul C, lambda și funcția de fiabilitate:

Curățați datele ca un joc de piatră, hârtie, foarfece. Este un joc cu sau fără final? Partea 2. Practic
Fig. 17.

În esență, lambda este un indicator real al intensității cu care erorile sunt detectate în fiecare etapă. Dacă te uiți mai sus, estimarea anterioară a acestui indicator a fost de 42,4 erori pe oră, ceea ce este destul de comparabil cu indicatorul Schumann. Revenind la prima parte a acestui material, sa stabilit că rata la care un dezvoltator găsește erori nu trebuie să fie mai mică de 1 eroare la 250,4 înregistrări, atunci când verifică 1 înregistrare pe minut. De aici valoarea critică a lambda pentru modelul Schumann:
60 / 250,4 = 0,239617.

Adică, necesitatea efectuării procedurilor de detectare a erorilor trebuie efectuată până când lambda, de la 38,964 existent, scade la 0,239617.

Sau până când indicatorul N (numărul potențial de erori) minus n (numărul corectat de erori) scade sub pragul pe care l-am acceptat (în prima parte) - 1459 buc.

Partea 1. Teoretică.

Sursa: www.habr.com

Adauga un comentariu