1 Einleitung

Daten gewinnen im Rahmen der Digitalisierung zunehmend an Bedeutung als Ressource. In einer Informationsgesellschaft sind sie wesentlich als Differenzierungsmerkmale und Instrument, um zusätzliche Wertschöpfung in klassischen gesättigten Märkten generieren zu können. Daten gelten als Öl des 21. Jahrhunderts. Ein Mehrwert aus Daten ergibt sich aus Big Data, der schnellen Sammlung großer Daten aus unterschiedlichen Datenquellen und der folgenden Auswertung mittels Analysemethoden des Data-Mining [1].

Um Projekte im Bereich der Datenanalytik umsetzen zu können, ist es nötig, einen Business Case zu definieren. Dieser Business Case ist neben den Anforderungen des Unternehmens auch von den Möglichkeiten abhängig, die im Unternehmen bezüglich der Ressource Daten vorliegen. Neben der Datenqualität, die einen direkten Einfluss auf die Ergebnisse eines solchen Projektes haben, hat auch das Datenmanagement mit dem Einfluss auf die folgende Umsetzung von abgeleiteten automaischen Analyseprozessen Auswirkungen auf Datenanalytikprojekte. Abb. 1 zeigt das Ergebnis einer Umfrage, die speziell diese beiden Einflussfaktoren (ersten beiden Punkte) als vorwiegende Herausforderung zur Umsetzung von Datenanalytikprojekten hervorstreicht.

Abb. 1
figure 1

Hindernisse bei Datenanalytikprojekten [2]

Es ist daher nötig, die wesentlichen Faktoren zu bewerten, die den Erfolg von Datenanalytikprojekten beeinflussen. Aus diesem Grund wurde ein Reifegradmodell entwickelt, das die Datenlandschaft vor dem Start eines Projektes umfassend und dabei schnell bewerten kann [3]. Mit den Ausprägungen in den Reifegraden kann eine Aussage über die Erfolgsaussichten eines Projektes getroffen werden und Handlungsempfehlungen abgeleitet werden, um das Unternehmen auf einen Reifegrad zu entwickeln, damit zukünftig Datenanalytikprojekte erfolgreich umgesetzt werden können. Dieses Modell wurde bei einem Unternehmen der holzverarbeiteten Industrie angewandt, und von dem Ergebnis wurde ein Business Case abgeleitet.

2 Datenqualitätsbestimmung

Qualität ist laut ISO „Gesamtheit von Eigenschaften und Merkmalen eines Produktes oder einer Dienstleistung, die sich auf deren Eignung zur Erfüllung festgelegter oder vorausgesetzter Erfordernisse bezieht“ [4].

Um die Qualität von Daten zu bestimmen, steht man vor der Problemstellung der Festlegung von Kriterien, anhand derer die Eignung und die Erfüllung der Erfordernisse gemessen werden kann. Man spricht dabei von fit for use. Jene Daten, die für die Verarbeitung nötig sind, müssen eine hohe Qualität haben. Wang und Strong haben ein Rahmenwerk geschaffen, welches als Grundlage für eine Großzahl von Datenqualitätsinitiativen gilt. Tab. 1 zeigt das vorgeschlagene Framework. Es wurden 15 Datenqualitätsdimensionen definiert, die in vier Datenqualitätskategorien unterteilt sind [5].

TABELLE 1 Datenqualitätsframework [5]

Die Erfahrung aus Projekten zeigte, dass die Datenqualitätsdimensionen für die industrielle produktionsrelevante Anwendung zu abstrakt sind. Ziel ist es, diese Dimensionen in einem einfachen Bewertungsmodell abzubilden. Es wurde daher ein Reifegradmodell entwickelt, welches die wesentlichen Punkte von Industrie 4.0 aus dem Blickwinkel der Daten abbildet. Da Industrie 4.0 als Begriff sehr weitreichend gefasst ist, wurde der Fokus auf die horizontale und vertikale Integration gelegt.

Die horizontale Integration beschreibt die Vernetzung von Unternehmen oder Produktionsstufen. Ein idealisiertes Beispiel ist die Vernetzung von Kunden, Produzenten und Lieferanten entlang der Wertschöpfungskette. Die vertikale Integration beschreibt die Vernetzung entlang der Automatisierungspyramide und der Datenverarbeitungssysteme (Abb. 2). Die Herausforderung ist die problemlose Kommunikation von Daten über Systemschnittstellen hinaus [6, 7]. Ein Reifegradmodell bietet die Möglichkeit zur Differenzierung in Reifegradkategorien und über Reifegradlevels.

Abb. 2
figure 2

Horizontale und vertikale Integration

Es wurden sechs Reifegradkategorien definiert, die die 15 Datenqualitätsdimensionen abbilden sollen. Die ersten beiden Reifegradkategorien bilden die Infrastruktur zur Datenerfassung und die Organisation der Datenspeicherung und -weitergabe ab. Sie haben Einfluss auf die Reifegradausprägung in den anderen Reifegradkategorien. Sie haben auch Einfluss auf die Möglichkeit für die spätere Implementierung eines jeden datenanalytischen Vorgehens. Die letzten drei Kategorien haben eine wesentliche Auswirkung auf die möglichen einsetzbaren Algorithmen für die folgenden Analysen. Sie bestimmen indirekt die Erfolgswahrscheinlichkeit eines Business Case. Die dritte Kategorie beeinflusst wesentlich den Aufbereitungsaufwand sowie die Erfolgswahrscheinlichkeit direkt. Liegen nämlich nicht offen zugängliche proprietäre Formate vor, so kann daran ein Projekt scheitern [8, 9].

Tab. 2 zeigt das Reifegradmodell, wobei die unterste Zeile die Zuordnung der Datenqualitätsdimensionen zu den Reifegradkategorien entsprechend der Zahlen aus Tab. 1 vornimmt. Die Datenqualitätsdimension „Wertschöpfung“ ergibt sich durch einen hohen Reifegrad in allen Kategorien und einem folglich umsetzbaren Projekt. Der höchste Reifegrad 5 zeichnet sich durch die ganzheitliche Realisierung der horizontalen und vertikalen Integration aus. Im niedrigsten Reifegrad 1 wurden in der jeweiligen Kategorie nicht die grundlegendsten Konzepte der Digitalisierung umgesetzt. Für die Reifegradbestimmung wurden für jede Kategorie Fragen definiert, die die Reifegradstufenausprägung erfassen sollen.

TABELLE 2 Reifegradmodell

3 Anwendung des Reifegradmodells

Der Aufwand von Datenanalytik-Projekten verteilt sich ungleichmäßig auf die sechs Phasen des CRISP-DM-Prozessmodells (Abb. 3). Die Datenaufbereitung und -transformation veranschlagen dabei einen Großteil der entstehenden Kosten, wobei der Nutzen erst in der Evaluationsphase fassbar wird. Die Erfolgsaussichten bleiben daher lange Zeit unklar, folglich erhöht sich der Druck, schnelle Ergebnisse zu realisieren. Die Qualität der vorhandenen Daten ist dabei der bestimmende Faktor, sie lässt sich jedoch flächendeckend nur äußerst behäbig verbessern. Die Anwendung der beschriebenen Bestimmung der Datenqualität kann die angesprochenen Probleme aufdecken und teilweise beheben. Im vorliegenden Beispiel werden die Vorgehensweise vorgestellt und das Ergebnis der Anwendung in einem Unternehmen präsentiert. Mit der Determination ergeben sich außerdem verschiedene Möglichkeiten zur Modellierung, auf die abschließend eingegangen wird.

Abb. 3
figure 3

CRISP-DM

3.1 Vorgehensweise

Für die Ermittlung der vorherrschenden Datenqualität wurde ein Fragebogen erstellt, der in standardisierten Interviews mit den verantwortlichen Personen für die jeweiligen Datenquellen abgefragt wurde. Der Fragebogen beinhaltet 21 Fragen, wobei zu jeder Frage die Antwortmöglichkeiten bereits ausformuliert vorlagen. Die zu untersuchenden Datenquellen wurden außerdem vorab an die Interviewer übermittelt, um die Relevanz der Frage sowie die Richtigkeit der Antwort sicherzustellen. Nach Abschluss der Befragungen erfolgte die Bewertung anhand der gegebenen Antworten durch die Interviewer.

3.2 Ergebnis

Abb. 4 stellt das Ergebnis der beschriebenen Vorgehensweise dar. Die Werte in den jeweiligen Kategorien beziehen sich auf den Durchschnitt der drei relevanten Datenquellen.

Abb. 4
figure 4

Ergebnis der Reifegradbestimmung

Das Ergebnis zeigt deutlich, dass die Reife in dem untersuchten Unternehmen bereits fortgeschritten ist. Eine detaillierte Analyse ermöglicht außerdem, Sofortmaßnahmen einzuleiten, um die den Reifegrad mindernden Faktoren zu beseitigen. So konnten Maßnahmen initiiert werden, die den Reifegrad in Kategorie 1 (Erfassung) und Kategorie 6 (zeitliche Konsistenz) erhöhen und damit bestimmte Hindernisse für die weitere Vorgehensweise reduzieren. Es konnte mit dem durchschnittlichen Ergebnis von 4,1 die Sinnhaftigkeit der Weiterführung eines Datenanalytikprojektes bestätigt werden. Gleichermaßen wurde das Risiko durch die umfassende Betrachtung deutlich reduziert.

3.3 Business Case

Neben der verbesserten Transparenz hat die vorgestellte Methodik noch den zusätzlichen Nutzen, den Anwendungsfall zu konkretisieren. In dem beschriebenen Fall erlaubt die hohe zeitliche Konsistenz eine Verknüpfung der Datenbanken miteinander zu einem sogenannten Data Lake. Der Vorteil der Zusammenführung in einer Datenbank wird vor allem in der Ursachenanalyse ersichtlich, bei der der entscheidende Sprung von Korrelation zu Kausalität nur durch einen konsistenten, einheitlichen Zeitstempel realisierbar ist. Für die Schwachstellenanalyse ergeben sich damit neue Möglichkeiten, da der Informationsaustausch der unterschiedlichen Systeme bis dato nur vereinzelt realisiert worden konnte. Durch den hohen Reifegrad besteht die Möglichkeit die Assoziationsanalyse mit einer Sequenzmusteranalyse zu kombinieren und damit eine datengestützte Schwachstellanalyse umzusetzen [6, 10].

4 Zusammenfassung und Ausblick

Der Einfluss der Datenqualität auf die Erfolgswahrscheinlichkeit von Datenanalytik-Projekten ist vielfach belegt. Das Scheitern erfolgt jedoch meist in einer späten Phase des Projektes und hat damit schon erheblich Ressourcen beansprucht [11, 12].

Um diesen Problemen entgegenzuwirken, wurde ein Reifegradmodell entwickelt, das die Datenlandschaft vor dem Start eines Projektes ganzheitlich und dennoch schnell bewerten kann [3].

Die gewonnene Transparenz unterstützt außerdem die CRISP-DM-Projektphasen „Daten verstehen“ und „Modellierung“ erheblich. Das vorliegende Modell besteht aus sechs Reifegradkategorien, die vier Datenqualitätskategorien und deren 15 Datenqualitätsdimensionen abbilden sollen. Eine vollständige horizontale und vertikale Integration der Systeme und damit auch der Daten kennzeichnet den höchsten Reifegrad.

In dem dargestellten Anwendungsbeispiel wurde mittels Fragebogen und Interviews bei gleichzeitiger Untersuchung der vorhandenen Daten der Reifegrad in den sechs Kategorien für jede der drei Datenquellen bestimmt. Ein durchschnittlicher Wert von 4,1 spricht für eine hohe Erfolgswahrscheinlichkeit eines Datenanalytikprojektes. Zusätzlich konnte die Erkenntnis gewonnen werden, dass die Zusammenführung der Datenbanken in einen Data Lake möglich ist und damit weitreichende, neue Informationen den unterschiedlichen Abteilungen zur Verfügung stehen können. Für die Instandhaltung bedeutet der Zugriff auf Prozess- und Produktionsinformationen einen großen Schritt in Richtung der smart maintenance zu tätigen. Vor allem die erweiterte Schwachstellenanalyse kann sich durch diese Entwicklung zum zentralen Element im Führungssystem der Instandhaltung etablieren [6].