Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

В deel een er werd beschreven dat deze publicatie is gemaakt op basis van een dataset van kadastrale waarderingsresultaten van onroerend goed in de Khanty-Mansi Autonome Okrug.

Het praktijkgedeelte wordt in de vorm van stappen gepresenteerd. Alle opschoningen werden gedaan in Excel, aangezien de meest voorkomende tool en de beschreven handelingen kunnen worden herhaald door de meeste specialisten die Excel kennen. En zeer geschikt voor hand-tot-handwerk.

De nulfase zal het werk zijn van het starten en opslaan van het bestand, aangezien het 100 MB groot is, en omdat het aantal van deze bewerkingen tientallen en honderden bedraagt, nemen ze veel tijd in beslag.
Het openen duurt gemiddeld 30 seconden.
Opslaan – 22 sec.

De eerste fase begint met het bepalen van de statistische indicatoren van de dataset.

Tabel 1. Statistische indicatoren van de dataset
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Technologie 2.1.

We maken een hulpveld, ik heb het onder het nummer - AY. Voor elke invoer vormen we de formule “=LENGTE(F365502)+LENGTE(G365502)+…+LENGTE(AW365502)”

Totale tijd besteed aan fase 2.1 (voor Schumann-formule) t21 = 1 uur.
Aantal fouten gevonden in fase 2.1 (voor Schumann-formule) n21 = 0 stuks.

De tweede fase.
Het controleren van de componenten van de dataset.
2.2. Alle waarden in records worden gevormd met behulp van standaardsymbolen. Laten we daarom de statistieken volgen via symbolen.

Tabel 2. Statistische indicatoren van karakters in de dataset met voorlopige analyse van de resultaten.Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Technologie 2.2.1.

We creëren een hulpveld - "alpha1". Voor elk record vormen we de formule “=CONCATENATE(Blad1!B9;...Blad1!AQ9)”
We creëren een vaste Omega-1-cel. We zullen afwisselend tekencodes invoeren volgens Windows-1251 van 32 tot 255 in deze cel.
We creëren een hulpveld - "alpha2". Met de formule “=FIND(SYMBOOL(Omega,1); “alpha1”,N)”.
We creëren een hulpveld - "alpha3". Met de formule “=IF(ISNUMBER(“alpha2”,N),1)”
Maak een vaste cel “Omega-2”, met de formule “=SUM(“alpha3”N1: “alpha3”N365498)”

Tabel 3. Resultaten van voorlopige analyse van resultatenRuim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Tabel 4. Fouten geregistreerd in dit stadiumRuim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Totale tijd besteed aan fase 2.2.1 (voor Schumann-formule) t221 = 8 uur.
Aantal gecorrigeerde fouten in fase 2.2.1 (voor Schumann-formule) n221 = 0 st.

Stap 3.
De derde stap is het vastleggen van de status van de dataset. Door elk record een uniek nummer (ID) en elk veld toe te kennen. Dit is nodig om de geconverteerde dataset te vergelijken met de originele. Dit is ook nodig om optimaal te kunnen profiteren van de groeperings- en filtermogelijkheden. Ook hier gaan we naar tabel 2.2.2 en selecteren een symbool dat niet in de dataset wordt gebruikt. We krijgen wat wordt weergegeven in figuur 10.

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Afb. 10. Identificatiegegevens toewijzen.

Totale tijd besteed aan fase 3 (voor Schumann-formule) t3 = 0,75 uur.
Aantal fouten gevonden in fase 3 (voor Schumann-formule) n3 = 0 stuks.

Omdat de Schumann-formule vereist dat de fase wordt voltooid door fouten te corrigeren. Laten we terugkeren naar fase 2.

Stap 2.2.2.
In deze stap corrigeren we ook dubbele en driedubbele spaties.
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Afb. 11. Aantal dubbele spaties.

Correctie van fouten geïdentificeerd in tabel 2.2.4.

Tabel 5. FoutcorrectiefaseRuim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Een voorbeeld van waarom een ​​dergelijk aspect als het gebruik van de letters “e” of “e” significant is, wordt weergegeven in Figuur 12.

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Afb. 12. Discrepantie in de letter "e".

Totale tijd doorgebracht in stap 2.2.2 t222 = 4 uur.
Aantal fouten gevonden in fase 2.2.2 (voor Schumann-formule) n222 = 583 stuks.

Vierde etappe.
Het controleren op veldredundantie past goed in deze fase. Van de 44 velden, 6 velden:
7 - Doel van de structuur
16 — Aantal ondergrondse verdiepingen
17 - Bovenliggend object
21 - Dorpsraad
38 — Structuurparameters (beschrijving)
40 – Cultureel erfgoed

Ze hebben geen vermeldingen. Dat wil zeggen: ze zijn overbodig.
Veld “22 – Stad” heeft één enkele invoer, Figuur 13.

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Afb. 13. De enige invoer is Z_348653 in het veld “Plaats”.

Veld “34 - Naam gebouw” bevat gegevens die duidelijk niet overeenkomen met het doel van het veld, Figuur 14.

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Afb. 14. Een voorbeeld van een niet-conforme vermelding.

We sluiten deze velden uit van de dataset. En we registreren de verandering in 214 records.

Totale tijd besteed aan fase 4 (voor Schumann-formule) t4 = 2,5 uur.
Aantal fouten gevonden in fase 4 (voor Schumann-formule) n4 = 222 stuks.

Tabel 6. Analyse van datasetindicatoren na de 4e fase

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch

Over het algemeen kunnen we bij het analyseren van veranderingen in indicatoren (Tabel 6) het volgende zeggen:
1) De verhouding tussen het gemiddelde aantal symbolen en de standaardafwijkingshendel ligt dicht bij 3, dat wil zeggen dat er tekenen zijn van een normale verdeling (zes sigma-regel).
2) Een significante afwijking van de minimale en maximale hefbomen van de gemiddelde hefboom suggereert dat de studie van staarten een veelbelovende richting is bij het zoeken naar fouten.

Laten we de resultaten bekijken van het vinden van fouten met behulp van de methodologie van Schumann.

Inactieve fasen

2.1. Totale tijd besteed aan fase 2.1 (voor Schumann-formule) t21 = 1 uur.
Aantal fouten gevonden in fase 2.1 (voor Schumann-formule) n21 = 0 stuks.

3. Totale tijd besteed aan fase 3 (voor Schumann-formule) t3 = 0,75 uur.
Aantal fouten gevonden in fase 3 (voor Schumann-formule) n3 = 0 stuks.

Effectieve fasen
2.2. Totale tijd besteed aan fase 2.2.1 (voor Schumann-formule) t221 = 8 uur.
Aantal gecorrigeerde fouten in fase 2.2.1 (voor Schumann-formule) n221 = 0 st.
Totale tijd doorgebracht in stap 2.2.2 t222 = 4 uur.
Aantal fouten gevonden in fase 2.2.2 (voor Schumann-formule) n222 = 583 stuks.

Totale tijd besteed in stap 2.2 t22 = 8 + 4 = 12 uur.
Aantal fouten gevonden in fase 2.2.2 (voor Schumann-formule) n222 = 583 stuks.

4. Totale tijd besteed aan fase 4 (voor Schumann-formule) t4 = 2,5 uur.
Aantal fouten gevonden in fase 4 (voor Schumann-formule) n4 = 222 stuks.

Aangezien er nul fasen zijn die moeten worden opgenomen in de eerste fase van het Schumann-model, en aan de andere kant, fasen 2.2 en 4 inherent onafhankelijk zijn, gaat het Schumann-model ervan uit dat door het vergroten van de duur van de controle de waarschijnlijkheid van het detecteren van een fout afneemt, dat wil zeggen, de stroom vermindert het aantal mislukkingen, en door deze stroom te onderzoeken, zullen we bepalen welke fase we als eerste moeten plaatsen, volgens de regel: waar de foutdichtheid vaker voorkomt, zullen we die fase als eerste plaatsen.

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Figuur 15.

Uit de formule in figuur 15 volgt dat het in de berekeningen de voorkeur verdient om de vierde fase vóór fase 2.2 te plaatsen.

Met behulp van de formule van Schumann bepalen we het geschatte initiële aantal fouten:

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Figuur 16.

Uit de resultaten in Figuur 16 blijkt dat het voorspelde aantal fouten N2 = 3167 is, wat meer is dan het minimumcriterium van 1459.

Als gevolg van de correctie hebben we 805-fouten gecorrigeerd en het voorspelde aantal is 3167 – 805 = 2362, wat nog steeds meer is dan de minimumdrempel die we hebben geaccepteerd.

We definiëren parameter C, lambda en betrouwbaarheidsfunctie:

Ruim gegevens op zoals een spelletje Steen, Papier, Schaar. Is dit een spel met of zonder einde? Deel 2. Praktisch
Figuur 17.

In wezen is lambda een feitelijke indicator van de intensiteit waarmee fouten in elke fase worden gedetecteerd. Als je hierboven kijkt, bedroeg de vorige schatting van deze indicator 42,4 fouten per uur, wat redelijk vergelijkbaar is met de Schumann-indicator. Wat het eerste deel van dit materiaal betreft, werd vastgesteld dat de snelheid waarmee een ontwikkelaar fouten ontdekt niet lager mag zijn dan 1 fout per 250,4 records, bij het controleren van 1 record per minuut. Vandaar de kritische waarde van lambda voor het Schumann-model:
60 / 250,4 = 0,239617.

Dat wil zeggen dat de noodzaak om foutdetectieprocedures uit te voeren moet worden uitgevoerd totdat lambda, van de bestaande 38,964, afneemt naar 0,239617.

Of totdat de indicator N (potentieel aantal fouten) minus n (gecorrigeerd aantal fouten) daalt tot onder de drempel die we hebben geaccepteerd (in het eerste deel) - 1459 stuks.

Deel 1. Theoretisch.

Bron: www.habr.com

Voeg een reactie