1 Big Data und Datenunsicherheit

Seit einigen Jahren gewinnt der Begriff „Big Data“ zunehmend an Bedeutung. Unternehmen streben danach, die Chancen zu nutzen, die sie sich von einer immer größer werdenden Menge an verfügbaren Informationen versprechen. Gemäß Fasel und Meier (2016) handelt es sich bei „Big Data“ um Daten, die sich durch fünf V’s auszeichnen: Volume, Varietey, Velocity, Value, Veracity. Kennzeichnend ist zum einen der hohe Datenbestand, der im Tera- bis Zetabereich liegt (Volume). Darüber hinaus ist die Vielfältigkeit (Varietey) der Daten charakteristisch, denn die Daten können abgesehen von den „klassischen“ betriebswirtschaftlichen (Bestell‑)Daten auch aus Texten, Grafiken und ähnlichen Multimediadaten bestehen. Unter Velocity verstehen die Autoren „Geschwindigkeit“. Das heißt, dass die anfallenden Datenströme unmittelbar analysiert und interpretiert werden sollen. Ziel der Nutzung von Big Data ist die Steigerung des Unternehmenswerts (Value). Chang et al. (2014) zeigen in welchen allgemeinen Bereichen Big Data eingesetzt werden kann (Abb. 1).

Abb. 1
figure 1

Anwendungsmöglichkeiten von Big Data. (In Anlehnung an Chang et al. 2014)

Allerdings stellt Big Data Unternehmen auch vor große Herausforderungen. Damit sind zum einen die schiere Masse und die Geschwindigkeit gemeint, in der die Daten anfallen. Darüber hinaus stellt aber auch das fünfte V (Veracity) eine Herausforderung dar. Meier und Kaufmann (2016) führen an, dass Daten oft ungenau und unsicher sind und dass die einzelnen Datenquellen unterschiedliche Datenqualitäten aufweisen.

Grundsätzlich können Unternehmen Daten aus unterschiedlichen Quellen gewinnen. Beispielsweise werden in Multi-Channel-Unternehmen Kauf- bzw. Umsatzdaten von Kunden automatisiert über Datenbanken oder Scanner-Kassen erhoben. Solange es keine Unterbrechung bei der Aufzeichnung gibt, gelten diese Daten als zuverlässig. Ein Übersichtsartikel zu Responsemodellen im Direktmarketing zeigt, dass die deutliche Mehrheit an Modellen auf Transaktionsdaten basiert, die zur Prognose des zukünftigen Kaufverhaltens von Konsumenten erfolgreich eingesetzt werden (vgl. Schröder und Hruschka 2012). Anders sieht es jedoch bei Daten aus, die unter aktiver Kundenbeteiligung gewonnen werden. Im Rahmen einer Kundenbefragung sind Daten beispielsweise oft unsicher, da sie auf subjektiven Einschätzungen beruhen (vgl. Kellner 2016) und die Möglichkeit besteht, dass Kunden nicht alle Fragen beantworten oder Fragen wissentlich oder unwissentlich falsch beantworten. Fragen, die nicht beantwortet werden, führen zu fehlenden Werten im Datensatz. Schätzungen auf Basis von unvollständigen Datensätzen können unter bestimmten Umständen zu Verzerrungen in den Ergebnissen führen (Little und Rubin 2002).

Die Zusammenführung von Daten aus unterschiedlichen Quellen kann zu einer zusätzlichen Datenunsicherheit führen. Falls sich die Daten in einigen Eigenschaften widersprechen, wissen Nutzer nicht, auf welche Quelle sie sich verlassen können (Agrawal et al. 2010). Auch Daten, die aus Crowdsourcing gewonnen werden, sind häufig unsicher (Li et al. 2013).

Ziel dieses Beitrags ist es zu untersuchen, inwieweit unsichere Daten mit Hilfe von datenanalytischen Verfahren zur Lösung eines betriebswirtschaftlichen Problems, wie der Standortanalyse, geeignet sind. Dazu wird im zweiten Abschnitt das OpenStreetMap (OSM) Projekt als Beispiel für unsichere Daten vorgestellt. Der dritte Abschnitt stellt ausgewählte datenanalytische Verfahren vor, die im vierten Abschnitt zur Analyse des Fallbeispiels eingesetzt werden. Der Beitrag schließt in Abschn. 5 mit einem Fazit.

2 Das OSM Projekt

Bei OSM handelt es sich um ein Crowdsourcing Projekt, das 2004 ins Leben gerufen worden ist. Ziel ist die Entwicklung eines weltweiten Geoinformationssystems (GIS) und einer weltweiten Geodatenbank zur Bereitstellung unterschiedlichster Informationen. Dazu zählen beispielsweise Transportwege (Straßen, Eisenbahnlinien etc.) und Flüsse. Weiterhin werden Einkaufstätten, Denkmäler, Wälder etc. verzeichnet. Um dies zu bewerkstelligen, ist eine Vielzahl von Nutzern nötig. Im Oktober 2015 lag die Anzahl an registrierten Nutzern bei etwa 2,3 Mio. (openstreetmap.de).

2.1 Nutzen und Einsatz von Geodaten zur Beantwortung betriebswirtschaftlicher Fragestellungen

Die gesammelten Geodaten können aus OSM in zwei Varianten abgerufen werden (Kisilevich et al. 2013): Punkte und Linien. Bei ersteren handelt es sich um Koordinaten, die mit Hilfe von Längen- und Breitengraden erfasst werden. Linien sind durch die Verbindung von Punkten definiert und können zur Darstellung von Flächen (Polygone) verwendet werden. Die geographischen Informationen sind jeweils mit einer Liste von Attributen versehen, die weitere Informationen zu den Daten bereithalten.

Mit Hilfe von GIS-Software lassen sich die Daten aus dem OSM Projekt weiter verarbeiten. Hess et al. (2004) zeigen eine Vielzahl von Möglichkeiten auf, wie GIS-Systeme bei betriebswirtschaftlichen Entscheidungsprozessen unterstützend eingesetzt werden können. Der Bereich der Distribution und Standortentscheidungen war einer der ersten, in dem GIS-Systeme eingesetzt wurden. Dies wird auch in dem Übersichtsartikel von Pick et al. (2017) deutlich, die eine Mehrzahl von Anwendungen u. a. im Bereich des Transports identifizieren. Im Rahmen von Marketingentscheidungen können die Daten u. a. zur Prognose von Preisen genutzt werden. Kisilevich et al. (2013) sagen zum Beispiel mit Daten zur Hotelausstattung und Lage Preise für Hotelzimmer voraus.

2.2 Problem: Datenunsicherheit

OSM ist ein Crowdsourcing Projekt, das auf unterschiedlichen Datenquellen basiert. Informationen können von jedem registriertem Nutzer hinzugefügt werden. Das kann Auswirkungen auf die Vollständigkeit und die Qualität der eingetragenen Daten haben. Als einer der ersten hat Haklay (2010) die Datenvollständigkeit von OSM für England untersucht. In Anlehnung daran haben Zielstra und Zipf (2010) die Informationen von OSM mit TeleAtlas für das deutsche Gebiet verglichen und herausgefunden, dass – vergleichbar mit der Untersuchung von Haklay (2010) – die Vollständigkeit von der Besiedlungsdichte des Gebiets abhängt. In urbanen Gebieten sind die Daten durchaus als vollständig anzusehen. In entlegenen Gebieten nimmt die Vollständigkeit ab. Die prozentuale Abweichung (OSM – TeleAtlas) des gesamten Straßennetzes in km2 lag im Dezember 2009 bei 7 %. Auch hinsichtlich der Verkehrswege gibt es Unterschiede. Das Kraftfahrzeugstraßennetz ist bei TeleAtlas umfassender, Rad- und Fußwege sind hingegen bei OSM umfangreicher erfasst (Roick et al. 2011).

Ein weiteres Problem hinsichtlich der Datenqualität von OSM ist die Tatsache, dass Nutzer, die über die ganze Welt verstreut sind, Daten beisteuern. Es kann nicht garantiert werden, dass jeder Nutzer die gleiche Sorgfalt walten lässt. Laut Neis et al. (2012) besteht zudem die Gefahr von Vandalismus, der sich zum Beispiel dadurch äußert, dass Nutzer bestimmte Objekte löschen oder deren Bedeutung verändern.

3 Einsatz von Data Mining Methoden zur Begegnung der Datenunsicherheit

3.1 Data Mining

Data Mining ist eine Subdisziplin, die sowohl in der Statistik als auch in der Informatik anzutreffen ist (Stockinger und Stadelmann 2014). Heuberger-Götsch (2016) versteht unter Data Mining eine Sammlung analytischer Techniken, die dazu dienen, Daten und Informationen aufzuspüren und zu kombinieren. Ziel ist es, neue Informationen zu generieren, die zur Lösung unterschiedlicher Probleme beitragen. In der betriebswirtschaftlichen Forschung und Praxis wird Data Mining beispielsweise im Banken- und Versicherungssektor eingesetzt. Ziel ist unter anderem die frühzeitige Erkennung von Kreditausfällen. Ein weiterer Einsatzbereich des Data Mining ist das Marketing und damit verbunden das Customer Relationship Management (CRM). Auch hier werden analytische Techniken eingesetzt um festzustellen, welche Kunden besonders profitabel sind und welche Kunden am ehesten von diversen Marketingaktionen profitieren können.

Data Mining kann somit in das Informations‑, Daten- und Wissensmanagement eingegliedert werden. Es umfasst eine Vielzahl an Techniken, Methoden und Algorithmen, die zur Datenanalyse herangezogen werden. Die Datenanalyse lässt sich in fünf Phasen unterteilen und startet mit der Auswahl von zu untersuchenden Datenmengen (Phase 1). In der zweiten Phase, der Datenvorverarbeitung, werden die Daten von Fehlern bereinigt. Zudem werden fehlende Daten korrigiert. Daran anschließend werden die Daten transformiert (Phase 3). Phase 4 ist das eigentliche Data Mining. Auf Basis des vorbereiteten Datensatzes werden Modelle entwickelt und geschätzt, um mögliche Muster im Datensatz zu erkennen. In der letzten Phase werden die Ergebnisse interpretiert (Cleve und Lämmel 2014).

3.2 Beispiele für Data Mining Methoden

Im Rahmen des Data Mining werden unterschiedliche Methoden eingesetzt. Dabei muss sich der Anwender aber nicht zwingend auf eine Methode festlegen, sondern kann mehrere miteinander kombinieren und vergleichen. Laut Ngai et al. (2009) werden Künstliche Neuronale Netze (KNN), Entscheidungsbäume, Assoziations- und Regressionsanalysen am häufigsten im CRM eingesetzt. Da KNN, Entscheidungsbäume und Regressionsanalysen u. a. für die Klassifizierung von Beobachtungen geeignet sind, werden diese in diesem Abschnitt näher erläutert. Ein Vergleich der drei Verfahren auf Basis eines betriebswirtschaftlichen Entscheidungsproblems erfolgt in Abschn. 4.

KNN sind biologischen neuronalen Netzen nachempfunden. Sie stellen eine sehr flexible Methode zur Datenanalyse dar. Je nach Ausgestaltung der KNN können sie sowohl für Prognosen binärer oder metrischer Entscheidungsvariablen verwendet werden (z. B. Vorwärtsgerichtete Netze, VGN) als auch zur Clusterung von Datensätzen (Backhaus et al. 2016). Jedes VGN besteht aus mehreren Neuronen, die miteinander in Beziehung stehen. Dabei können drei Schichten unterschieden werden: die Eingabeschicht, eine oder mehrere verborgene Schichten und die Ausgabeschicht.

Abb. 2
figure 2

Grundform eines VGN mit einer verborgenen Schicht. (In Anlehnung an Venables und Ripley 2002)

Abb. 2 zeigt die einfachste Form eines VGN mit einer verborgenen Schicht. Über die Eingabeschicht gehen die zu untersuchenden Daten als Neuronen in das VGN ein. Über die Ausgabeschicht werden Prognosen des VGN erfasst. Zwischen Ein- und Ausgabeschicht gibt es mindestens eine verborgene Schicht. In dieser Schicht findet ein Lernprozess statt, an dessen Ende die Aktivierungsgrade der einzelnen Neuronen ermittelt werden, so dass das VGN die Beziehung zwischen Eingabeneuronen und Ausgabeneuronen möglichst gut abbildet. Die Aktivierung eines Neurons in einer verborgenen Schicht ist in Abb. 3 am Beispiel von drei Prädiktoren bzw. Eingabeneuronen dargestellt (Backhaus et al. 2016). Somit können mit Hilfe der Neuronen Informationen übertragen und weiterverarbeitet werden.

Abb. 3
figure 3

Informationsverarbeitungsprozess eines aktiven Neurons. (In Anlehnung an Backhaus et al. 2016)

Formal lässt sich das VGN in verallgemeinerter Form wie folgt darstellen (Venables und Ripley 2002):

$$\text{Prognosewert}_{k}=\phi _{o}\left(\sum _{h=1}^{H}\beta _{h}\phi _{h}\left(\sum _{i=1}^{I}\alpha _{ih}x_{ki}\right)+\sum _{i=1}^{I}w_{i}x_{ki}\right)$$
(1)

Die unterschiedlichen Prädiktoren \(x_{ki}\) werden innerhalb der verborgenen Schicht h für jede Beobachtung k mit den Gewichten \(\alpha _{ih}\) multipliziert. Die Anzahl H an verborgenen Schichten kann dabei auch größer als 1 sein. Bei \(\sum _{i=1}^{I}w_{i}x_{ki}\) handelt es sich um sogenannte skip layer connections, die Inputeinheiten direkt mit Outputeinheiten verknüpfen. Diese stellen eine zusätzliche mögliche Erweiterung von VGN gegenüber der Grundform in Abb. 2 dar. \(\phi _{o}\) und \(\phi _{h}\) sind die Aktivierungsfunktionen bzgl. der Outputeinheiten und der verborgenen Einheiten. Da das VGN sowohl für metrische als auch binäre abhängige Variablen geeignet ist, kann der Prognosewert sowohl den geschätzten (metrischen) Wert \(\hat{y}_{k}\) umfassen als auch die Wahrscheinlichkeit \(p_{k}\left(y=1\right)\), dass die (binäre) abhängige Variable den Wert 1 annimmt. Ein VGN, das ohne verborgene Einheiten geschätzt wird und bei dem die Aktivierungsfunktion \(\phi _{o}\) logistisch ist, führt zu gleichen Ergebnissen wie eine logistische Regression. Somit zeigt sich, dass auch die VGN sehr flexibel eingesetzt werden können.

Entscheidungsbäume bieten sich ebenfalls für Klassifikationsentscheidungen an. Dieses Verfahren unterteilt den Raum, der durch die zur Verfügung stehenden Prädiktoren beschrieben wird, in Teilmengen. Die Entscheidung über mögliche Teilmengen fällt in sogenannten Knoten. Dabei handelt es sich um die jeweiligen Prädiktoren, die im Hinblick auf die abhängige Variable y in zwei Teilmengen unterteilt werden. Der Startknoten ist die „Wurzel“ des Baums. In Abb. 4 ist der Datensatz im ersten Schritt beispielhaft anhand der Ausprägung von Prädiktor \(x_{k1}\) in zwei Teilmengen unterteilt worden. Daraufhin wurden die Prädiktoren \(x_{k2}\) und \(x_{k3}\) als Knoten identifiziert. Begrenzt wird der Prozess durch abschließende Knoten, die „Blätter“ genannt werden (Ripley 2002). Es sei darauf verwiesen, dass der erste Knoten nicht zwangsläufig durch den ersten Prädiktor charakterisiert sein muss. Zudem kann es vorkommen, dass nicht alle Prädiktoren in die Erstellung des Entscheidungsbaums eingehen.

Abb. 4
figure 4

Beispielhafte Darstellung eines Entscheidungsbaumes

Die logistische Regression (Logit-Modell) schätzt den Einfluss einer oder mehrerer (metrischer oder binärer) Prädiktoren auf eine binäre abhängige Variable. Dabei wird für jede Beobachtung k die Wahrscheinlichkeit ermittelt, zu der die abhängige Variable y den Wert 1 annimmt. Die logistische Regressionsgleichung nimmt folgende Form an:

$$p_{k}\left(y=1\right)=\frac{1}{1+e^{-z_{k}}}\ \text{mit}\ z_{k}=\sum _{i=1}^{I}b_{i}x_{ki}+u_{k}$$
(2)

\(b_{i}\)stellen die Gewichte (oder Logit-Koeffizienten) dar, mit denen die i unterschiedlichen Prädiktoren multipliziert werden, u k sind die Residuen (Backhaus et al. 2016).

4 Fallbeispiel: Data Mining mit unsicheren Daten

Der folgende, für diesen Beitrag erarbeitete Anwendungsfall soll verdeutlichen, ob und wie gut sich betriebswirtschaftliche Problemstellungen mit Hilfe von unvollständigen, unsicheren und ungenauen Daten unter Rückgriff auf fortgeschrittene datenanalytische Verfahren unterstützen lassen. Die beispielhafte betriebswirtschaftliche Problemstellung bezieht sich auf die Suche nach geeigneten Standorten für die Errichtung von Restaurant-Filialen einer Fast Food Kette. Als Beispiel für unsichere Informationen dienen die Daten des OSM Projektes. Als datenanalytische Verfahren kommen die in Abschn. 3.2 behandelten Verfahren VGN, Entscheidungsbäume und die logistische Regression zum Einsatz.

4.1 Ausgangssituation und Problemstellung

Gegenstand der Analyse ist das Filialnetz der Fast Food Kette „McDonalds“ in Bayern. Abb. 5 zeigt das aktuelle Filialnetz, bestehend aus 241 Restaurants (Stand 2017). Zur Orientierung wurden Bundesautobahnen und -straßen eingefügt und die bayerischen Gemeinden gemäß ihrer eurostat Gebietsklassifikation in dicht besiedelte Gemeinden, Gemeinden mittlerer Besiedlungsdichte und gering besiedelt Gemeinden eingeteilt. Unter Einsatz datenanalytischer Verfahren und auf Basis der OSM Daten sollen auf feingranularer Ebene (Mikro-Standortplanung) geeignete Standorte identifiziert werden. Die anhand der datenanalytischen Verfahren klassifizierten Standorte können anschließend mit den tatsächlichen Niederlassungen verglichen werden, um eine Aussage hinsichtlich der Prognosegüte zu treffen.

Abb. 5
figure 5

Filialnetz von McDonalds in Bayern (Stand 2017)

4.2 Datengrundlage

Die Datengrundlage bilden die 241 McDonalds Filialen in Bayern, die auf Adressebene erhoben und anschließend geocodiert worden sind. Alle geographischen Merkmale, die für die Identifizierung geeigneter Filialstandorte verwendet werden, entstammen den Daten des OSM Projekts. Dabei handelt es sich um Daten zur räumlichen Nähe zu geographischen Punkten, die die Einrichtung eines Restaurants vermeintlich begünstigen. Solche Punkte sind etwa Kinos, Supermärkte, Schulen, Bus- und Bahnstationen, sowie die Nähe zu Bundesstraßen- und Autobahnauffahrten.

4.3 Datenaufbereitung und -verarbeitung

Zunächst werden die bayerischen Gemeinden mit einer großen Anzahl an potenziellen Filialstandorten überzogen: ein potenzieller Standort pro Quadratkilometer, was zu insgesamt 69.445 potenziellen Standorten führt. Das heißt, es sollen auf Basis der unsicheren OSM Daten und auf feingranularer 1‑Quadratkilometer-Ebene Filial-Standortentscheidungen nachempfunden werden. Anschließend werden die potenziellen Standorte in die beiden Klassen „geeignet“ und „weniger geeignet“ unterteilt, wobei alle potenziellen Standorte, die sich innerhalb eines Umkreises von 1 km von der nächsten tatsächlichen McDonalds Filiale befinden, „geeignete“ Standorte darstellen und alle anderen Standorte als „weniger geeignet“ klassifiziert werden. An dieser Stelle sei darauf hingewiesen, dass die Eignung eines Standorts grundsätzlich ein „matter of degree“ ist, d. h. es gibt verschiedene Grade der Eignung. Der beschriebene Anwendungsfall zur Identifikation geeigneter Filialstandorte macht allerdings die Zuordnung der potentiellen Standorte zu den Gruppen „geeignet“ und „weniger geeignet“, d. h. eine „scharfe“ Einteilung, notwendig.

Im Anschluss daran, werden die Daten des OSM Projektes herangezogen und für jeden potenziellen Standort bestimmt, wie weit (in Meter) sich dieser von einer Reihe von geographischen Besonderheiten entfernt befindet. Tab. 1 fasst die für die Analyse herangezogenen geographischen Merkmale zusammen. Der Schritt der Datenaufbereitung und -verarbeitung wird mit dem Softwarepaket ArcGIS (arcgis.com) unterstützt.

Tab. 1 Geographische Merkmale für die Standortanalyse

4.4 Anwendung datenanalytischer Methoden zur Standortanalyse und -planung

Das Ergebnis der Datenaufbereitung und -verarbeitung ist eine Liste bestehend aus 69.445 potenziellen Filialstandorten, klassifiziert in die Gruppen „geeignet“ und „weniger geeignet“ mit vielen geographischen Merkmalen. Diese Liste bildet den Input für die drei herangezogenen datenanalytischen Verfahren (VGN, Entscheidungsbaum, logistische Regression). Dabei stellt die Merkmalsausprägung der Standorteignung jeweils die abhängige Variable dar und die Liste der geographischen Merkmale die unabhängigen Variablen.

Zunächst werden die Spalten aller unabhängigen Variablen normalisiert um ein einheitliches Skalenniveau herzustellen. Für diesen Schritt wird die Min-Max-Normalisierung verwendet (pro Attributwert x i : x i norm = (x i  − x i min) / (x i max − x i min)). Anschließend wird der gesamte Datensatz zufällig in zwei Gruppen aufgeteilt: 70 % Trainingsdaten, die zum „Training“ der datenanalytischen Verfahren verwendet werden, und 30 % Testdaten. Letztere werden für die Validierung der Klassifikationsergebnisse eingesetzt.

Für die Schätzung des VGN wird die Netzarchitektur aus Gl. 1 verwendet. Die Netzstruktur, die für den zu analysierenden Datensatz zu den besten Ergebnissen führte, besteht aus einer verdeckten Schicht mit 30 Neuronen. Beide Aktivierungsfunktionen \(\phi _{o}\) und \(\phi _{h}\) sind logistisch. Für die Parametrisierung des Entscheidungsbaumes kommen andere Parameter in Frage, beispielsweise das Maß für die Bestimmung der besten Klassifizierung (im Anwendungsfall ist das der Gini-Index). Alle Berechnungen wurden mit R (r-project.org) durchgeführt.

Das Ergebnis der Anwendung der drei datenanalytischen Verfahren sind 20.789 potenzielle Standorte (Testdaten = 30 % aller Daten), die neben der Information \(y\in \{0;1\}\) ob sich tatsächlich eine McDonalds Filiale dort befindet (y = 1) oder nicht (y = 0), eine Prognose \(\hat{y}\in \{0;1\}\) enthalten. Durch den Vergleich der prognostizierten mit den tatsächlichen Werten können anhand einer Kreuztabelle Aussagen über die Prognosegüte getroffen werden.

4.5 Ergebnisse

Tab. 2 fasst den Vergleich der Klassifikationsergebnisse der datenanalytischen Verfahren mit den echten Werten für die Standortentscheidung zusammen.

Tab. 2 Ergebnis der Standortprognose

Die Ergebnisse verdeutlichen, dass sich die Standortentscheidungen der untersuchten Fast Food Kette mittels zwei der drei verwendeten datenanalytischen Verfahren zu einem sehr hohen Grad (ca. 99 %) nachempfinden lassen. Dies ist umso bemerkenswerter, als dass die Standortklassifikation zum einen auf den teilweise unvollständigen, unsicheren und ungenauen Daten des OSM Projektes beruhen und zum zweiten eine sehr feingranulare Gebietsklassifikation vorgenommen wurde (die Gebietsklassifikation erfolgte auf 1‑Quadratkilometerbasis). Es ist davon auszugehen, dass sich die Prognose bei einer Ausweitung auf 2‑ oder Mehrkilometerbasis noch stark verbessern ließe.

Größere Unterschiede hinsichtlich der Prognosegüte lassen sich feststellen, wenn nur die Klassifikationsergebnisse für Standorte betrachtet würden, an denen sich tatsächlich eine Filiale befindet (y = 1). Hier klassifiziert das VGN zu 64 % korrekt, der Entscheidungsbaum zu 10 % und die Logistische Regression zu 0 %. Dies zeigt, dass es sinnvoll ist, unterschiedliche datenanalytische Verfahren einzusetzen, da die einzelnen Verfahren, je nach Datenlage, unterschiedlich gute Ergebnisse erzeugen.

5 Zusammenfassung und Ausblick

Dieser Beitrag hat anhand eines beispielhaften Anwendungsfalls gezeigt, dass sich betriebswirtschaftliche Problemstellungen, wie beispielsweise Standortentscheidungen, mit Hilfe von unvollständigen, unsicheren und ungenauen Daten unter Rückgriff auf fortgeschrittene datenanalytische Verfahren unterstützen lassen. Es hätten sich vermutlich noch bessere Klassifikationsergebnisse realisieren lassen, wären die unsicheren OSM Daten mit „sicheren“ Daten, wie bspw. denen des Statistischen Bundesamtes, kombiniert worden – dies war allerdings nicht Ziel des Beitrags. Auch konnte im Rahmen des Beitrags gezeigt werden, dass die einzelnen Verfahren, je nach Datenlage, zu unterschiedlich guten Ergebnissen kommen können und dass der parallele Einsatz mehrerer Verfahren deshalb sinnvoll ist.

Da die präsentierten Ergebnisse auf lediglich einem einzelnen Anwendungsfall beruhen, sollte in einem nächsten Schritt eine Validierung der Ergebnisse erfolgen. Dies stellt großes Potenzial für künftige Forschung dar: der Einsatz und Vergleich unterschiedlicher (fortgeschrittener) datenanalytischer Verfahren bei der Bearbeitung unterschiedlicher betriebswirtschaftlicher Problemstellungen auf Grundlage unsicherer Daten. Die Bedeutung solcher Analysen wird für die Praxis zunehmend relevant, da eine zunehmende Informationsverfügbarkeit, einhergehend mit einer zunehmenden Informationsunsicherheit, den Einsatz fortgeschrittener Techniken der Datenanalyse und künstliche Intelligenz erforderlich machen.