Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

1. Ausgangsdaten

Die Datenbereinigung ist eine der Herausforderungen bei Datenanalyseaufgaben. Dieses Material spiegelte die Entwicklungen und Lösungen wider, die sich aus der Lösung eines praktischen Problems der Datenbankanalyse bei der Katasterwertbildung ergaben. Quellen hier „BERICHT Nr. 01/OKS-2019 über die Ergebnisse der staatlichen Katasterbewertung aller Arten von Immobilien (außer Grundstücken) auf dem Gebiet des Autonomen Kreises Chanty-Mansijsk – Jugra“.

Berücksichtigt wurde die Datei „Vergleichsmodell total.ods“ im „Anhang B. Ergebnisse der Ermittlung des KS 5. Informationen zur Methode zur Ermittlung des Katasterwerts 5.1 Vergleichender Ansatz“.

Tabelle 1. Statistische Indikatoren des Datensatzes in der Datei „Vergleichsmodell total.ods“
Gesamtzahl der Felder, Stk. — 44
Gesamtzahl der Datensätze, Stk. — 365 490
Gesamtzahl der Zeichen, Stk. — 101 714 693
Durchschnittliche Anzahl von Zeichen in einem Datensatz, Stk. — 278,297
Standardabweichung der Zeichen in einem Datensatz, Stck. — 15,510
Mindestanzahl der Zeichen in einem Eintrag, Stk. — 198
Maximale Anzahl Zeichen in einem Eintrag, Stk. — 363

2. Einführungsteil. Grundlegende Standards

Bei der Analyse der spezifizierten Datenbank wurde die Aufgabe gebildet, die Anforderungen an den Reinigungsgrad zu spezifizieren, da die spezifizierte Datenbank, wie jedem klar ist, rechtliche und wirtschaftliche Konsequenzen für die Nutzer mit sich bringt. Bei der Arbeit stellte sich heraus, dass es keine spezifischen Anforderungen an den Grad der Bereinigung von Big Data gab. Bei der Analyse der Rechtsnormen in diesem Bereich bin ich zu dem Schluss gekommen, dass sie alle aus Möglichkeiten entstehen. Das heißt, eine bestimmte Aufgabe ist aufgetaucht, Informationsquellen für die Aufgabe werden zusammengestellt, dann wird ein Datensatz gebildet und auf Basis des erstellten Datensatzes werden Werkzeuge zur Lösung des Problems bereitgestellt. Die daraus resultierenden Lösungen sind Orientierungspunkte bei der Auswahl von Alternativen. Ich habe dies in Abbildung 1 dargestellt.

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

Da es bei der Festlegung etwaiger Standards besser ist, auf bewährte Technologien zurückzugreifen, habe ich mich für die Anforderungen von entschieden „MHRA GxP-Datenintegritätsdefinitionen und Leitlinien für die Industrie“, weil ich dieses Dokument für das umfassendste zu diesem Thema hielt. In diesem Dokument heißt es insbesondere: „Es ist zu beachten, dass die Anforderungen an die Datenintegrität gleichermaßen für manuelle (Papier-) und elektronische Daten gelten.“ (Übersetzung: „...Anforderungen an die Datenintegrität gelten gleichermaßen für manuelle (Papier-) und elektronische Daten“). Diese Formulierung ist ganz konkret mit dem Begriff des „schriftlichen Beweismittels“ in den Bestimmungen des Artikels 71 der Zivilprozessordnung verbunden, Art. Art. 70 CAS, Art. 75 APC, „schriftlich“ Art. 84 Zivilprozessordnung.

Abbildung 2 zeigt ein Diagramm der Herangehensweise an Informationsarten in der Rechtswissenschaft.

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Reis. 2. Quelle hier.

Abbildung 3 zeigt den Mechanismus von Abbildung 1 für die Aufgaben der oben genannten „Anleitung“. Durch einen Vergleich lässt sich leicht erkennen, dass die Ansätze zur Erfüllung der Anforderungen an die Informationsintegrität in modernen Standards für Informationssysteme im Vergleich zum rechtlichen Informationsbegriff deutlich eingeschränkt sind.

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Ris.3

Im angegebenen Dokument (Guidance) wird der Zusammenhang zum technischen Teil, Möglichkeiten zur Verarbeitung und Speicherung von Daten, durch ein Zitat aus Kapitel 18.2 gut bestätigt. Relationale Datenbank: „Diese Dateistruktur ist von Natur aus sicherer, da die Daten in einem großen Dateiformat gespeichert werden, das die Beziehung zwischen Daten und Metadaten bewahrt.“

Tatsächlich gibt es bei diesem Ansatz – ausgehend von den vorhandenen technischen Möglichkeiten – nichts Ungewöhnliches und an sich ist dies ein natürlicher Prozess, da die Erweiterung von Konzepten aus der am meisten untersuchten Aktivität stammt – dem Datenbankdesign. Andererseits treten aber auch gesetzliche Regelungen auf, die keine Abschläge auf die technische Leistungsfähigkeit bestehender Systeme vorsehen, zum Beispiel: DSGVO – Allgemeine Datenschutzverordnung.

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Reis. 4. Trichter der technischen Fähigkeiten (Quelle).

Unter diesen Aspekten wird deutlich, dass der Originaldatensatz (Abb. 1) erstens gespeichert werden muss und zweitens die Grundlage für die Extraktion zusätzlicher Informationen daraus sein muss. Nun, als Beispiel: Kameras, die Verkehrsregeln aufzeichnen, sind allgegenwärtig, Informationsverarbeitungssysteme eliminieren Verstöße, aber auch andere Informationen können anderen Verbrauchern angeboten werden, beispielsweise als Marketingüberwachung der Struktur des Kundenstroms zu einem Einkaufszentrum. Und hier liegt ein zusätzlicher Mehrwert beim Einsatz von BigDat. Es ist durchaus möglich, dass die jetzt gesammelten Datensätze irgendwann in der Zukunft einen Wert haben, der einem Mechanismus entspricht, der dem Wert seltener Ausgaben von 1700 zum heutigen Zeitpunkt ähnelt. Schließlich sind temporäre Datensätze einzigartig und werden in Zukunft wahrscheinlich nicht wiederholt.

3. Einführungsteil. Evaluationskriterien

Im Rahmen der Bearbeitung wurde die folgende Fehlerklassifizierung entwickelt.

1. Fehlerklasse (basierend auf GOST R 8.736-2011): a) systematische Fehler; b) zufällige Fehler; c) ein Fehler.

2. Durch Multiplizität: a) Monoverzerrung; b) Mehrfachverzerrung.

3. Entsprechend der Kritikalität der Folgen: a) kritisch; b) nicht kritisch.

4. Nach Vorkommensquelle:

A) Technische Fehler, die während des Betriebs des Geräts auftreten. Ein ziemlich relevanter Fehler für IoT-Systeme, Systeme mit erheblichem Einfluss auf die Qualität der Kommunikation, Ausrüstung (Hardware).

B) Bedienerfehler – Fehler in einem breiten Spektrum von Tippfehlern des Bedieners bei der Eingabe bis hin zu Fehlern in den technischen Spezifikationen für das Datenbankdesign.

C) Benutzerfehler – hier handelt es sich um Benutzerfehler im gesamten Bereich von „Ich habe vergessen, das Layout zu ändern“ bis hin zur Verwechslung von Metern mit Fuß.

5. In eine separate Klasse unterteilt:

a) die „Aufgabe des Trennzeichens“, also das Leerzeichen und „:“ (in unserem Fall), als es dupliziert wurde;
b) zusammengeschriebene Wörter;
c) kein Leerzeichen nach Dienstzeichen
d) symmetrisch mehrere Symbole: (), „“, „…“.

Zusammen mit der in Abbildung 5 dargestellten Systematisierung von Datenbankfehlern wird ein recht effektives Koordinatensystem für die Suche nach Fehlern und die Entwicklung eines Datenbereinigungsalgorithmus für dieses Beispiel gebildet.

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Reis. 5. Typische Fehler entsprechend den Struktureinheiten der Datenbank (Quelle: Oreshkov V.I., Paklin N.B. „Schlüsselkonzepte der Datenkonsolidierung“).

Genauigkeit, Domänenintegrität, Datentyp, Konsistenz, Redundanz, Vollständigkeit, Duplizierung, Konformität mit Geschäftsregeln, strukturelle Bestimmtheit, Datenanomalie, Klarheit, Aktualität, Einhaltung von Datenintegritätsregeln. (Seite 334. Data Warehousing-Grundlagen für IT-Experten / Paulraj Ponniah. – 2. Aufl.)

Dargestellt sind der englische Wortlaut und die russische maschinelle Übersetzung in Klammern.

Genauigkeit. Der im System für ein Datenelement gespeicherte Wert ist der richtige Wert für das jeweilige Vorkommen des Datenelements. Wenn Sie einen Kundennamen und eine Adresse in einem Datensatz gespeichert haben, ist die Adresse die richtige Adresse für den Kunden mit diesem Namen. Wenn Sie im Datensatz für die Bestellnummer 1000 die bestellte Menge als 12345678 Einheiten finden, dann ist diese Menge die genaue Menge für diese Bestellung.
[Genauigkeit. Der im System für ein Datenelement gespeicherte Wert ist der korrekte Wert für das jeweilige Vorkommen des Datenelements. Wenn Sie den Namen und die Adresse eines Kunden in einem Datensatz gespeichert haben, ist die Adresse die richtige Adresse für den Kunden mit diesem Namen. Wenn Sie im Datensatz für die Bestellnummer 1000 die bestellte Menge als 12345678 Einheiten finden, dann ist diese Menge die genaue Menge für diese Bestellung.]

Domänenintegrität. Der Datenwert eines Attributs liegt im Bereich zulässiger, definierter Werte. Das gängige Beispiel sind die zulässigen Werte „männlich“ und „weiblich“ für das Geschlechtsdatenelement.
[Domänenintegrität. Der Attributdatenwert liegt im Bereich gültiger, definierter Werte. Ein allgemeines Beispiel sind die gültigen Werte „männlich“ und „weiblich“ für ein Geschlechtsdatenelement.]

Datentyp. Der Wert für ein Datenattribut wird tatsächlich als der für dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Geschäftsnamenfelds als „Text“ definiert ist, enthalten alle Instanzen dieses Felds den Geschäftsnamen im Textformat und nicht in numerischen Codes.
[Datentyp. Der Wert eines Datenattributs wird tatsächlich als der für dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Geschäftsnamenfelds als „Text“ definiert ist, enthalten alle Instanzen dieses Felds den Geschäftsnamen, der im Textformat und nicht in numerischen Codes angezeigt wird.]

Konsistenz. Form und Inhalt eines Datenfeldes sind in mehreren Quellsystemen gleich. Wenn der Produktcode für Produkt ABC in einem System 1234 lautet, dann lautet der Code für dieses Produkt in jedem Quellsystem 1234.
[Konsistenz. Form und Inhalt des Datenfeldes sind in verschiedenen Quellsystemen gleich. Wenn der Produktcode für Produkt ABC auf einem System 1234 lautet, lautet der Code für dieses Produkt auf jedem Quellsystem 1234.]

Redundanz. Dieselben Daten dürfen nicht an mehr als einer Stelle in einem System gespeichert werden. Wird ein Datenelement aus Effizienzgründen absichtlich an mehr als einer Stelle in einem System gespeichert, muss die Redundanz eindeutig identifiziert und überprüft werden.
[Redundanz. Dieselben Daten sollten nicht an mehr als einer Stelle im System gespeichert werden. Wenn ein Datenelement aus Effizienzgründen absichtlich an mehreren Stellen in einem System gespeichert wird, muss die Redundanz klar definiert und überprüft werden.]

Vollständigkeit. Es gibt keine fehlenden Werte für ein bestimmtes Attribut im System. Beispielsweise muss in einer Kundendatei für jeden Kunden ein gültiger Wert für das Feld „Bundesland“ vorhanden sein. In der Datei für Bestelldetails muss jeder Detaildatensatz zu einer Bestellung vollständig ausgefüllt sein.
[Vollständigkeit. Für dieses Attribut fehlen im System keine Werte. Beispielsweise muss die Mandantendatei für jeden Mandanten einen gültigen Wert für das Feld „Status“ haben. In der Bestelldetaildatei muss jeder Bestelldetaildatensatz vollständig ausgefüllt sein.]

Vervielfältigung. Die Duplizierung von Datensätzen in einem System wird vollständig behoben. Wenn bekannt ist, dass die Produktdatei doppelte Datensätze enthält, werden alle doppelten Datensätze für jedes Produkt identifiziert und ein Querverweis erstellt.
[Duplikat. Die Duplizierung von Datensätzen im System wurde vollständig eliminiert. Wenn bekannt ist, dass eine Produktdatei doppelte Einträge enthält, werden alle doppelten Einträge für jedes Produkt identifiziert und ein Querverweis erstellt.]

Einhaltung der Geschäftsregeln. Die Werte jedes Datenelements entsprechen den vorgeschriebenen Geschäftsregeln. In einem Auktionssystem darf der Zuschlags- oder Verkaufspreis nicht niedriger sein als der Mindestpreis. In einem Bankkreditsystem muss der Kreditsaldo immer positiv oder Null sein.
[Einhaltung der Geschäftsregeln. Die Werte jedes Datenelements entsprechen den festgelegten Geschäftsregeln. In einem Auktionssystem darf der Zuschlags- oder Verkaufspreis nicht niedriger sein als der Mindestpreis. In einem Bankkreditsystem muss der Kreditsaldo immer positiv oder Null sein.]

Strukturelle Bestimmtheit. Überall dort, wo ein Datenelement auf natürliche Weise in einzelne Komponenten strukturiert werden kann, muss das Element diese wohldefinierte Struktur enthalten. Beispielsweise unterteilt sich der Name einer Person natürlich in Vorname, zweiter Anfangsbuchstabe und Nachname. Werte für Namen von Personen müssen als Vorname, zweiter Anfangsbuchstabe und Nachname gespeichert werden. Dieses Merkmal der Datenqualität vereinfacht die Durchsetzung von Standards und reduziert fehlende Werte.
[Strukturelle Sicherheit. Wenn ein Datenelement auf natürliche Weise in einzelne Komponenten strukturiert werden kann, muss das Element diese wohldefinierte Struktur enthalten. Beispielsweise wird der Name einer Person natürlich in Vorname, zweiter Anfangsbuchstabe und Nachname unterteilt. Werte für einzelne Namen sollten als Vorname, zweiter Vorname und Nachname gespeichert werden. Dieses Datenqualitätsmerkmal vereinfacht die Anwendung von Standards und reduziert fehlende Werte.]

Datenanomalie. Ein Feld darf nur für den Zweck verwendet werden, für den es definiert ist. Wenn das Feld Adresse-3 für eine mögliche dritte Adresszeile für lange Adressen definiert ist, darf dieses Feld nur für die Erfassung der dritten Adresszeile verwendet werden. Es darf nicht zur Eingabe einer Telefon- oder Faxnummer des Kunden verwendet werden.
[Datenanomalie. Ein Feld darf nur für den Zweck verwendet werden, für den es definiert ist. Wenn das Feld Adresse-3 für eine mögliche dritte Adresszeile für lange Adressen definiert ist, darf dieses Feld nur zur Aufzeichnung der dritten Adresszeile verwendet werden. Es sollte nicht zur Eingabe einer Telefon- oder Faxnummer eines Kunden verwendet werden.]

Klarheit. Ein Datenelement kann alle anderen Merkmale von Qualitätsdaten aufweisen, aber wenn die Benutzer ihre Bedeutung nicht klar verstehen, ist das Datenelement für die Benutzer wertlos. Richtige Namenskonventionen tragen dazu bei, dass die Datenelemente für die Benutzer gut verständlich sind.
[Klarheit. Ein Datenelement kann alle anderen Merkmale guter Daten aufweisen, aber wenn Benutzer ihre Bedeutung nicht klar verstehen, ist das Datenelement für Benutzer wertlos. Korrekte Namenskonventionen tragen dazu bei, dass Datenelemente für Benutzer gut verständlich sind.]

Rechtzeitig. Über die Aktualität der Daten entscheiden die Nutzer. Wenn die Benutzer davon ausgehen, dass Kundendimensionsdaten nicht älter als einen Tag sind, müssen die Änderungen an Kundendaten in den Quellsystemen täglich in das Data Warehouse übernommen werden.
[Rechtzeitig. Benutzer bestimmen die Aktualität der Daten. Wenn Benutzer erwarten, dass Kundendimensionsdaten nicht älter als einen Tag sind, sollten Änderungen an Kundendaten in den Quellsystemen täglich auf das Data Warehouse angewendet werden.]

Nützlichkeit. Jedes Datenelement im Data Warehouse muss einige Anforderungen der Benutzersammlung erfüllen. Ein Datenelement mag genau und von hoher Qualität sein, aber wenn es für die Benutzer keinen Wert hat, ist es völlig unnötig, dass sich dieses Datenelement im Data Warehouse befindet.
[Dienstprogramm. Jedes Datenelement im Datenspeicher muss einige Anforderungen der Benutzersammlung erfüllen. Ein Datenelement kann genau und von hoher Qualität sein, aber wenn es den Benutzern keinen Mehrwert bietet, ist es nicht notwendig, dass sich dieses Datenelement im Data Warehouse befindet.]

Einhaltung der Datenintegritätsregeln. Die in den relationalen Datenbanken der Quellsysteme gespeicherten Daten müssen den Regeln der Entitätsintegrität und der referenziellen Integrität entsprechen. Jede Tabelle, die Null als Primärschlüssel zulässt, weist keine Entitätsintegrität auf. Die referenzielle Integrität erzwingt den korrekten Aufbau der Eltern-Kind-Beziehungen. In einer Kunden-zu-Bestellungsbeziehung stellt die referenzielle Integrität sicher, dass für jede Bestellung in der Datenbank ein Kunde vorhanden ist.
[Einhaltung der Datenintegritätsregeln. In relationalen Datenbanken von Quellsystemen gespeicherte Daten müssen den Regeln der Entitätsintegrität und der referenziellen Integrität entsprechen. Jede Tabelle, die Null als Primärschlüssel zulässt, weist keine Entitätsintegrität auf. Die referenzielle Integrität zwingt dazu, die Beziehung zwischen Eltern und Kindern korrekt herzustellen. In einer Kunden-Bestellungsbeziehung stellt die referenzielle Integrität sicher, dass für jede Bestellung in der Datenbank ein Kunde vorhanden ist.]

4. Qualität der Datenbereinigung

Die Qualität der Datenbereinigung ist bei Big Data ein eher problematisches Thema. Die Beantwortung der Frage, welcher Grad der Datenbereinigung zur Erledigung der Aufgabe erforderlich ist, ist für jeden Datenanalysten von grundlegender Bedeutung. Bei den meisten aktuellen Problemen bestimmt jeder Analyst dies selbst und es ist unwahrscheinlich, dass irgendjemand von außen in der Lage ist, diesen Aspekt in seiner Lösung zu bewerten. Für die hier gestellte Aufgabe war diese Frage jedoch äußerst wichtig, da die Zuverlässigkeit rechtlicher Daten eher bei Eins liegen sollte.

Berücksichtigung von Softwaretesttechnologien zur Bestimmung der Betriebszuverlässigkeit. Heute gibt es mehr als diese Modelle 200. Viele der Modelle nutzen ein Anspruchsbearbeitungsmodell:

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Fig. 6

Denken Sie wie folgt: „Wenn der gefundene Fehler ein Ereignis ist, das dem Fehlerereignis in diesem Modell ähnelt, wie findet man dann ein Analogon des Parameters t?“ Und ich habe das folgende Modell zusammengestellt: Stellen wir uns vor, dass die Zeit, die ein Tester benötigt, um einen Datensatz zu überprüfen, 1 Minute beträgt (für die betreffende Datenbank). Um alle Fehler zu finden, benötigt er dann 365 Minuten, was ungefähr 494 und 3 Jahren entspricht Monate Arbeitszeit. Nach unserem Verständnis ist dies ein sehr großer Arbeitsaufwand und die Kosten für die Überprüfung der Datenbank werden für den Ersteller dieser Datenbank unerschwinglich sein. In dieser Überlegung taucht das ökonomische Kostenkonzept auf und nach der Analyse bin ich zu dem Schluss gekommen, dass es sich dabei um ein recht wirksames Instrument handelt. Basierend auf dem Gesetz der Ökonomie: „Das Produktionsvolumen (in Einheiten), bei dem ein Unternehmen den maximalen Gewinn erzielt, liegt an dem Punkt, an dem die Grenzkosten für die Produktion einer neuen Produktionseinheit mit dem Preis verglichen werden, den dieses Unternehmen erzielen kann.“ für eine neue Einheit.“ Basierend auf der Annahme, dass das Auffinden jedes weiteren Fehlers immer mehr Überprüfungen der Aufzeichnungen erfordert, ist dies ein Kostenfaktor. Das heißt, das beim Testen von Modellen angenommene Postulat erhält eine physikalische Bedeutung in folgendem Muster: Wenn zum Auffinden des i-ten Fehlers n Datensätze überprüft werden mussten, ist es zum Auffinden des nächsten (i+3) Fehlers erforderlich um m Datensätze und gleichzeitig n zu überprüfen

  1. Wenn sich die Anzahl der überprüften Datensätze stabilisiert, bevor ein neuer Fehler gefunden wird;
  2. Wenn die Anzahl der überprüften Datensätze vor dem Auffinden des nächsten Fehlers zunimmt.

Um den kritischen Wert zu ermitteln, habe ich mich dem Konzept der wirtschaftlichen Machbarkeit zugewandt, das sich in diesem Fall unter Verwendung des Konzepts der sozialen Kosten wie folgt formulieren lässt: „Die Kosten für die Korrektur des Fehlers sollten von dem Wirtschaftsakteur getragen werden, der dies tun kann.“ es zu den niedrigsten Kosten.“ Wir haben einen Agenten – einen Tester, der 1 Minute damit verbringt, einen Datensatz zu überprüfen. Wenn Sie 6000 Rubel pro Tag verdienen, sind das in Geld ausgedrückt 12,2 Rubel. (ungefähr heute). Es bleibt die zweite Seite des Gleichgewichts im Wirtschaftsrecht zu bestimmen. Ich habe so argumentiert. Liegt ein Fehler vor, ist ein Aufwand für die Behebung durch den Betroffenen, also den Grundstückseigentümer, erforderlich. Nehmen wir an, dies erfordert einen Aktionstag (Antrag einreichen, korrigiertes Dokument erhalten). Dann entsprechen seine Kosten aus sozialer Sicht dem durchschnittlichen Gehalt pro Tag. Durchschnittliches aufgelaufenes Gehalt im Autonomen Kreis der Chanten und Mansen „Ergebnisse der sozioökonomischen Entwicklung des Autonomen Kreises Chanty-Mansijsk – Jugra für Januar-September 2019“ 73285 Rubel. oder 3053,542 Rubel/Tag. Dementsprechend erhalten wir einen kritischen Wert gleich:
3053,542: 12,2 = 250,4 Einheiten Datensätze.

Das bedeutet aus gesellschaftlicher Sicht: Wenn ein Tester 251 Datensätze überprüft und einen Fehler findet, ist das gleichbedeutend damit, dass der Benutzer diesen Fehler selbst behebt. Wenn der Tester also so viel Zeit damit verbracht hat, 252 Datensätze zu überprüfen, um den nächsten Fehler zu finden, ist es in diesem Fall besser, die Korrekturkosten auf den Benutzer abzuwälzen.

Hier wird ein vereinfachter Ansatz vorgestellt, da aus gesellschaftlicher Sicht der gesamte von jedem Spezialisten generierte Mehrwert, also die Kosten einschließlich Steuern und Sozialleistungen, berücksichtigt werden muss, das Modell ist jedoch klar. Eine Konsequenz aus diesem Zusammenhang ist die folgende Anforderung an Fachkräfte: Ein Fachmann aus der IT-Branche muss über ein Gehalt verfügen, das über dem Bundesdurchschnitt liegt. Liegt sein Gehalt unter dem Durchschnittsgehalt potenzieller Datenbanknutzer, muss er selbst die gesamte Datenbank persönlich prüfen.

Unter Verwendung des beschriebenen Kriteriums wird die erste Anforderung an die Qualität der Datenbank gebildet:
Ich(tr). Der Anteil kritischer Fehler sollte 1/250,4 = 0,39938 % nicht überschreiten. Etwas weniger als verfeinern Gold in der Industrie. Und rein physikalisch gibt es nicht mehr als 1459 Datensätze mit Fehlern.

Wirtschaftlicher Rückzug.

Tatsächlich nimmt die Gesellschaft durch eine solche Anzahl von Fehlern in den Aufzeichnungen wirtschaftliche Verluste in Höhe von Folgendem in Kauf:

1459*3053,542 = 4 Rubel.

Dieser Betrag wird durch die Tatsache bestimmt, dass die Gesellschaft nicht über die Instrumente verfügt, diese Kosten zu senken. Daraus folgt: Wenn jemand über eine Technologie verfügt, mit der er die Anzahl fehlerhafter Datensätze auf beispielsweise 259 reduzieren kann, kann die Gesellschaft dadurch Folgendes einsparen:
1200*3053,542 = 3 Rubel.

Aber gleichzeitig kann er um sein Talent und seine Arbeit bitten, sagen wir mal – 1 Million Rubel.
Das heißt, die Sozialkosten werden reduziert durch:

3 – 664 = 250 Rubel.

Im Wesentlichen handelt es sich bei diesem Effekt um den Mehrwert durch den Einsatz von BigDat-Technologien.

Hierbei ist jedoch zu berücksichtigen, dass es sich um einen sozialen Effekt handelt und der Eigentümer der Datenbank die Kommunalverwaltung ist. Ihre Einnahmen aus der Nutzung der in dieser Datenbank erfassten Immobilien betragen mit einem Satz von 0,3 %: 2,778 Milliarden Rubel/ Jahr. Und diese Kosten (4 Rubel) stören ihn nicht sonderlich, da sie auf die Grundstückseigentümer umgelegt werden. Und in dieser Hinsicht muss der Entwickler weiter verfeinernder Technologien in Bigdata die Fähigkeit zeigen, den Eigentümer dieser Datenbank zu überzeugen, und solche Dinge erfordern erhebliches Talent.

In diesem Beispiel wurde der Fehlerbewertungsalgorithmus basierend auf dem Schumann-Modell [2] der Softwareverifizierung während Zuverlässigkeitstests ausgewählt. Aufgrund seiner Verbreitung im Internet und der Möglichkeit, die erforderlichen statistischen Indikatoren zu erhalten. Die Methodik stammt von Monakhov Yu.M. „Funktionsstabilität von Informationssystemen“, siehe unter dem Spoiler in Abb. 7-9.

Reis. 7 – 9 Methodik des Schumann-ModellsBereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

Im zweiten Teil dieses Materials wird ein Beispiel für die Datenbereinigung vorgestellt, bei dem die Ergebnisse der Verwendung des Schumann-Modells erzielt werden.
Lassen Sie mich die erzielten Ergebnisse vorstellen:
Geschätzte Anzahl Fehler N = 3167 n.
Parameter C, Lambda und Zuverlässigkeitsfunktion:

Bereinigen Sie Daten wie bei einem Stein-Papier-Schere-Spiel. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch
Ris.17

Im Wesentlichen ist Lambda ein tatsächlicher Indikator für die Intensität, mit der Fehler in jeder Phase erkannt werden. Schaut man sich den zweiten Teil an, lag die Schätzung für diesen Indikator bei 42,4 Fehlern pro Stunde, was durchaus mit dem Schumann-Indikator vergleichbar ist. Oben wurde festgelegt, dass die Rate, mit der ein Entwickler Fehler findet, nicht weniger als 1 Fehler pro 250,4 Datensätze betragen sollte, wenn 1 Datensatz pro Minute überprüft wird. Daher der kritische Wert von Lambda für das Schumann-Modell:

60 / 250,4 = 0,239617.

Das heißt, die Notwendigkeit, Fehlererkennungsverfahren durchzuführen, muss durchgeführt werden, bis Lambda von den vorhandenen 38,964 auf 0,239617 absinkt.

Oder bis der Indikator N (potenzielle Fehleranzahl) minus n (korrigierte Fehleranzahl) unter unseren akzeptierten Schwellenwert sinkt – 1459 Stück.

Literatur

  1. Monakhov, Yu. M. Funktionsstabilität von Informationssystemen. In 3 Stunden. Teil 1. Softwarezuverlässigkeit: Lehrbuch. Zulage / Yu. M. Monakhov; Vladim. Zustand univ. – Wladimir: Izvo Vladim. Zustand Universität, 2011. – 60 S. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, „Probabilistische Modelle zur Vorhersage der Softwarezuverlässigkeit.“
  3. Data-Warehousing-Grundlagen für IT-Experten / Paulraj Ponniah. – 2. Auflage.

Zweiter Teil. Theoretisch

Source: habr.com

Kommentar hinzufügen