Datenqualität im Lager

Die Qualität der Daten im Lager ist eine wichtige Voraussetzung für die Gewinnung wertvoller Informationen. Schlechte Qualität führt auf lange Sicht zu einer negativen Kettenreaktion.
Erstens geht das Vertrauen in die bereitgestellten Informationen verloren. Business-Intelligence-Anwendungen werden immer seltener genutzt, das Potenzial der Anwendungen bleibt ungenutzt.
Dadurch werden weitere Investitionen in das Analyseprojekt in Frage gestellt.

Verantwortung für die Datenqualität

Der Aspekt der Verbesserung der Datenqualität ist in BI-Projekten von großer Bedeutung. Es ist jedoch nicht nur das Privileg technischer Spezialisten.
Die Datenqualität wird auch von Aspekten beeinflusst wie

Unternehmenskultur

  • Sind die Arbeiter selbst daran interessiert, gute Qualität zu produzieren?
  • Wenn nicht, warum nicht? Möglicherweise liegt ein Interessenkonflikt vor.
  • Vielleicht gibt es Unternehmensregeln, die festlegen, wer für die Qualität verantwortlich ist?

Prozesse

  • Welche Daten entstehen am Ende dieser Ketten?
  • Möglicherweise sind die Betriebssysteme so konfiguriert, dass Sie „drehen“ müssen, um diese oder jene Situation in der Realität widerzuspiegeln.
  • Führen Betriebssysteme die Datenüberprüfung und den Datenabgleich selbst durch?

Jeder in der Organisation ist für die Qualität der Daten in Berichtssystemen verantwortlich.

Definition und Bedeutung

Qualität ist die nachgewiesene Erfüllung der Kundenerwartungen.

Aber Datenqualität enthält keine Definition. Es spiegelt immer den Nutzungskontext wider. Das Data Warehouse und das BI-System dienen anderen Zwecken als das Betriebssystem, von dem die Daten stammen.

Beispielsweise kann das Kundenattribut auf einem Betriebssystem ein optionales Feld sein. Im Repository kann dieses Attribut als Dimension verwendet werden und muss ausgefüllt werden. Was wiederum die Notwendigkeit mit sich bringt, Standardwerte einzugeben.

Die Anforderungen an die Datenspeicherung ändern sich ständig und sind meist höher als die für Betriebssysteme. Es kann aber auch umgekehrt sein, wenn keine Notwendigkeit besteht, detaillierte Informationen des Betriebssystems im Speicher zu speichern.

Um Datenqualität messbar zu machen, müssen ihre Standards beschrieben werden. Personen, die Informationen und Zahlen für ihre Arbeit nutzen, müssen in den Beschreibungsprozess einbezogen werden. Das Ergebnis dieser Einbeziehung kann eine Regel sein, anhand derer man auf einen Blick in der Tabelle erkennen kann, ob ein Fehler vorliegt oder nicht. Diese Regel muss zur späteren Überprüfung als Skript/Code formatiert werden.

Verbesserung der Datenqualität

Es ist unmöglich, alle hypothetischen Fehler beim Laden der Daten in das Lager zu bereinigen und zu korrigieren. Eine gute Datenqualität kann nur durch eine enge Zusammenarbeit aller Beteiligten erreicht werden. Wer Daten in Betriebssysteme eingibt, muss lernen, welche Aktionen zu Fehlern führen.

Datenqualität ist ein Prozess. Leider verfügen viele Unternehmen nicht über eine Strategie zur kontinuierlichen Verbesserung. Viele beschränken sich auf die bloße Speicherung von Daten und nutzen nicht das volle Potenzial analytischer Systeme. Typischerweise werden bei der Entwicklung von Data Warehouses 70–80 % des Budgets für die Implementierung der Datenintegration ausgegeben. Der Überwachungs- und Verbesserungsprozess bleibt, wenn überhaupt, unvollständig.

Werkzeuge

Der Einsatz von Softwaretools kann bei der Automatisierung der Verbesserung und Überwachung der Datenqualität hilfreich sein. Sie können beispielsweise die technische Überprüfung von Speicherstrukturen vollständig automatisieren: Feldformat, Vorhandensein von Standardwerten, Einhaltung von Tabellenfeldnamen.

Es kann schwieriger sein, den Inhalt zu überprüfen. Wenn sich die Speicheranforderungen ändern, kann sich auch die Interpretation der Daten ändern. Das Tool selbst kann zu einem riesigen Projekt werden, das Unterstützung erfordert.

Rat

Relationale Datenbanken, in denen Geschäfte typischerweise entworfen werden, verfügen über die bemerkenswerte Fähigkeit, Ansichten zu erstellen. Sie können zur schnellen Überprüfung von Daten verwendet werden, wenn Sie die Besonderheiten des Inhalts kennen. Jeder Fall, bei dem ein Fehler oder ein Problem in den Daten festgestellt wird, kann in Form einer Datenbankabfrage erfasst werden.

Auf diese Weise entsteht eine Wissensbasis über den Inhalt. Natürlich müssen solche Anfragen schnell sein. Die Pflege von Ansichten erfordert in der Regel weniger Zeit als tabellenbasierte Tools. Die Ansicht ist immer bereit, das Ergebnis des Tests anzuzeigen.
Bei wichtigen Meldungen kann die Ansicht eine Spalte mit dem Empfänger enthalten. Es ist sinnvoll, dieselben BI-Tools zu verwenden, um über den Stand der Datenqualität im Lager zu berichten.

Beispiel

Die Abfrage wurde für die Oracle-Datenbank geschrieben. In diesem Beispiel liefern die Tests einen numerischen Wert zurück, der beliebig interpretiert werden kann. Mit den Werten T_MIN und T_MAX kann die Alarmstufe angepasst werden. Das REPORT-Feld wurde einst als Nachricht in einem kommerziellen ETL-Produkt verwendet, das nicht wusste, wie man E-Mails richtig versendet, daher ist Rpad eine „Krücke“.

Bei einer großen Tabelle können Sie beispielsweise AND ROWNUM <= 10 hinzufügen, also Liegen 10 Fehler vor, reicht dies aus, um einen Alarm auszulösen.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Die Veröffentlichung verwendet Materialien aus dem Buch
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Source: habr.com

Kommentar hinzufügen