Zusammenfassung
Nachdem das Konzept der zeitbezogenen Daten in Kapitel 3 vorgestellt wurde, wird im Folgenden unabhängig von diesen auf das Konzept der Daten im Data Warehouse eingegangen, soweit dies für die Zielsetzung dieser Arbeit relevant ist. Hierzu erfolgt zunächst m Abschnitt 4.1 eine Diskussion der wesentlichen Begriffe im Bereich des Data Warehouse. Im Anschluss daran wird in Abschnitt 4.2 auf die am weitesten verbreitete Möglichkeit der Darstellung von Daten eines Data Warehouse, den multidimensionalen Datenraum, eingegangen. Danach erfolgt in Abschnitt 4.3 eine Erläuterung der Möglichkeiten der Auswertung dieses multidimensionalen Datenraumes. Abschließend werden aufbauend auf den Grundlagen der Datenmodellierung (vgl. Kapitel 2) in Abschnitt 4.4 die Möglichkeiten der Modellierung eines Data Warehouse vorgestellt.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Literatur
Vgl. Inmon (1996a), S. 18 f.; Groffmann (1997), S. 9; Chaudhuri/Dayal (1997), S. 65 sowie Poe et al. (1998), S. 3 ff.
Inmon (1996a), S. 33 (mit einer vom Original abweichenden Formatierung).
Das Konzept des Data Warehouse geht auf ein Forschungsprojekt der IBM aus dem Jahr 1988 über Business Information Systems zurück und wurde zunächst EBIS (IBM Europe, Middle East and Africa business information system) genannt. Vgl. Devlin/Murphy (1988), S. 60 ff. Durchgesetzt hat sich das Data-Warehouse-Konzept allerdings erst mit der Veröffentlichung von Inmon. Vgl. Inmon (1993a).
Vgl. hierzu und zum Folgenden Inmon/Hackathorn (1994), S. 2 ff.; Inmon (1996a), S. 33 ff.; Mucksch et al. (1996), 5.423 ff.; Gluchowski et al. (1997), S. 268 ff.; Groffmann (1997), S. 11; Mertens (2000), S. 44; Mucksch/Behme (1998a), S. 40 ff.; Chamoni/Gluchowski (1999b), S. 14 f. sowie Gabriel et al. (2000), S. 77 f.
Vgl. Groffmann (1997). S. 12 f.
In Anlehnung an Groffmann (1997), S. 13.
Vgl. Mucksch et al. (1996), S. 427.
Vgl. Mucksch/Behme (1998a), S. 55 sowie Tresch/Rys (1997), S. 67.
Vgl. hierzu und zum Folgenden Groffmann (1997), S. 12 f.
In der Literatur gibt es verschiedene Varianten der Data Marts, die hier nicht weiter betrachtet werden. Vgl. Baumann (1998), S. 20; Firestone (1997) sowie Demarest (1994), S. 44 ff.
Vgl. Groffmann (1997), S. 15; Inmon (1996b) sowie Mucksch/Behme (1998a), S. 45 f.
Vgl. Mucksch (1999), S. 177 f.; Holthuis (1999), S. 82 ff.; Mucksch/Behme (1998a), S. 50 f.;
Cabibbo/Torlone (1998), S. 327; Poe et al. (1998), S. 26 f.; Inmon (1996a), S. 45 ff.; Mucksch et al. (1996), S. 429; Bischoff (1994), S. 31 sowie Inmon (1993b), S. 51 ff.
Vgl. Totok (2000), S. 58 ff.; Chamoni/Gluchowski (1999c), S. 263; Chamoni (1997), S. 294 f. sowie Jahnke et al. (1996), S. 321.
Vgl. Codd et al. (1993a), S. 87 ff. sowie Codd et al. (1993b), S. 18 ff.
Kritiker unterstellen Codd, Codd und Salley, dass ihre Regeln an bestimmten Produkten ausgerichtet sind. In ihrer ersten Veröffentlichung werden bereits die Produkte Essbase von Arbor Software, Express von Information Resources, Improv von Lotus Development, System W von Comshare und TimeServer von Pilot Software evaluiert. Vgl. Codd et al. (1993a), S. 89. Weiterhin findet in abgewandelten Veröffentlichungen der ausführlichen Beschreibung ihrer Regeln (vgl. Codd et al. (1993b)) eine Evaluation der Produkte Essbase von Arbor Software (vgl. Codd et al. (1993c)) und TM/1 von Sinper Corporation (vgl. Codd (1994) sowie Codd/Codd (1995), S. 34 ff.) statt.
Einen Überblick über die wichtigsten OLAP-Regeln findet sich u. a. bei Fanner (1994); Buytendijk (1995) sowie Oehler (2000), S. 29 ff.
Vgl. Behme (1997), S. 545.
Vgl. Pendse (2000) sowie Pendse/Creeth (o. J.).
Vgl. Pendse (2000); Pendse/Creeth (o. J.); Chamoni/Gluchowski (1999c), S. 267; Behme (1997), S. 545 sowie Jahnke et al. (1996), S. 321.
Gabriel/Gluchowski (1997), S. 19.
Zur besseren Unterscheidung werden bei den Beispielen die Namen der Dimensionen und der multidimensionalen Datenräume in Kapitälchen geschrieben.
In der Literatur wird der multidimensionale Datenraum (MDR) häufig als „Würfel“ (vgl. Jahnke et al. (1996), S. 322 sowie Chamoni/Gluchowski (1998), S. 402), „Hyperwürfel” (vgl. Gabriel et al. (2000), S. 79; Oehler (2000), S. 54 sowie Chamoni/Gluchowski (1999c), S. 264) oder als „hypercube” (vgl. OLAP Council (1995) sowie Thomsen (1997), S. 44) bezeichnet. Da ein Würfel ein dreidimensionales geometrisches Gebilde beschreibt und für eine realitätsnahe Beschreibung der betriebswirtschaftlichen Zusammenhänge meistens mehr als drei Dimensionen benötigt werden, wird in dieser Arbeit der Begriff des multidimensionalen Datenraumes verwendet.
Die Fakten werden auch als „Faktdaten“ oder „Werte” bezeichnet. Vgl. Holthuis (1999), S. 122.
Kennzahlen sind jene Zahlen, die quantitativ erfassbare Sachverhalte in konzentrierter Form darstellen. Vgl. Reichmann/Lachnit (1976), S. 706.
Vgl. OLAP Council (1995); Oehler (2000), S. 54 f.; Gabriel/Gluchowski (1997), S. 24; Chamoni/Gluchowski (1999c), S. 263 f. sowie Holthuis (1999), S. 121 f.
Vgl. Chamoni/Gluchowski (1999c), S. 264.
Vgl. Chamoni/Gluchowski (1998), S. 403 sowie Totok (2000), S. 57.
Vgl. Groffmann (1997), S. 15 sowie Jahnke et al. (1996), S. 321
Vgl. Groffmann (1992), S. 5 ff. sowie Jahnke et al. (1996), S. 322. Eine weitergehende Darstellung der Problematik der Summierbarkeit von Fakten im OLAP findet sich bei Lenz/Shoshani (1997).
Die in der Literatur diskutierte Problematik der dünnbesetzten Matrizen bezieht sich nicht auf die hier diskutierte Problematik der Interpretation der fehlenden Werte, sondern auf die Probleme der physischen Speicherung der konzeptionellen Multidimensionalität in einem multidimensionalen Datenbanksystem. Dabei geht es darum, die nichtbesetzten Zellen effizient zu handhaben, ohne jedoch dabei die multidimensionale Datenorganisation zu beeinträchtigen. Vgl. Chamoni/Gluchowski (1999c), S. 265 ff.; Buytendijk (1995) sowie Holthuis (1999), S. 189 f.
Hiervon ist der Fall zu unterscheiden, dass ein Produkt in einem Betrieb nicht produziert wird, aber die technische Möglichkeit hierzu besteht. Dann handelt es sich nicht um einen fehlenden Wert, sondern die Produktionsmenge ist numerisch Null („0“).
Vgl. Holthuis (1999), S. 124 ff. sowie Totok (2000), S. 92 ff. In der Literatur werden teilweise hiervon noch die kategorischen Dimensionen abgegrenzt, die eher an den mit den Analysen verbundenen Ziele ausgerichtet sind. Bei diesen Dimensionen werden z. B. Kategorien als Dimensionsebenen abgebildet, die Kunden nach Alters-, Geschlechts-oder Einkommensmerksmalen unterschieden und nicht notwendigerweise verdichtet werden können. Die kategorischen Dimensionen werden in dieser Arbeit nicht behandelt. Vgl. McGuff (1998); Totok (2000), S. 94 sowie Holthuis (1999), S. 127 f.
Nichthierarchische Dimensionen werden auch als „partitionierende Dimensionen“ bezeichnet. Vgl. McGuff (1998) sowie Totok (2000), S. 94.
Vgl. Holthuis (1999), S. 124 f. sowie Totok (2000), S. 94 f. Hier ist es jedoch z. B. möglich, dass nicht die Summation dieser beiden Dimensionselemente vorgenommen wird, sondern anhand einer Verdichtungsfunktion eine nichtadditive Verdichtung, wie z. B. die Berechnung der prozentualen Abweichung aus Ist und Soll bei der Dimension SZENARIO stattfindet. Vgl. Hahne (1998), S. 10 f.
Ein gerichteter Graph besteht aus einer Menge von Knoten K und einer Menge von Kanten E, wobei eine gerichtete Kante durch ein geordnetes Paar von Knoten bestimmt sind. Hierbei gibt die erste Komponente den Anfangsknoten, die zweite den Endknoten an. Vgl. Aigner (1999), S. 89; Perl (1981), S. 16 f. sowie Turau (1996), S. 14.
Ein Kreis ist eine Folge von verschiedenen Knoten k; (i = 1,…, n), wobei (k„ k„1) e E für alle i = 1,…, n-1 und weiterhin (k,,, k1) e E. Vgl. Aigner (1999), S. 92.
In einem gerichteten Baum gibt es hierarchische Zusammenhänge. Ist in einem gerichteten Baum der Knoten k2 von dem Knoten k1 aus durch eine Kante e erreichbar, so ist der Knoten k1 der Vorgänger (bzw. Vater) des Knotens k2 und der Knoten k2 der Nachfolger (bzw. Sohn) des Knoten k1. Vgl. Wirth (1999), S. 219 ff.; Aigner (1999), S. 153; Ottmann/Widmeyer (1996), S. 235; Mühlbacher (1975), S. 98; Perl (1981), S. 18 sowie Turau (1996), S.47. Weiterhin wird eine Beziehung zwischen einem Knoten und seinem Vorgänger bzw. Nachfolger in einem gerichteten Baum als Bündelungsbeziehung bezeichnet. Vgl. Gluchowski (1993), S. 100 ff.
Eine Wurzel ist ein ausgezeichneter Knoten eines Baumes, der keinen Vorgänger hat. Vgl. Aigner (1999), S. 153 sowie Turau (1996), S. 47.
Wurzelbäume werden meist graphisch so dargestellt, dass die Wurzel auf der obersten Ebene liegt und die nachfolgenden Knoten jeweils eine Ebene tiefer. Somit zeigt die Richtung der Kanten nach unten. Oft wird auf die Darstellung der Richtungspfeile verzichtet.
Vgl. Aigner (1999), S. 105 sowie S. 153; Mühlbacher (1975), S. 42; Neumann (1975), S. 39; Perl (1981), S. 80 sowie Turau (1996), S. 47. Eine Möglichkeit der Implementierung von gerichteten Graphen ist die Adjazenzmatrix, welche die Kantenbeziehungen durch eine quadratische boolesche Matrix darstellt. Besteht der Graph aus n Knoten, so wird eine Adjazenzmatrix D = (d1)1= 1,…, 1=1, erstellt, wobei d3 gleich 1 ist, wenn eine gerichtete Kante vom Knoten i zum Knoten j vorhanden ist, ansonsten ist d1 gleich 0. Vgl. Aigner (1999), S. 94 f.; Turau (1996), S. 22; Neumann (1975), S. 44 f.; Perl (1981), S. 25 f. sowie Clark/Holten (1994), S. 39 f.
In dieser Arbeit werden Klassifikationshierarchien durch gerichtete Wurzelbäume dargestellt, die zur Aggregation von Fakten verwendet werden. Im Folgenden wird der gerichtete Wurzelbaum lediglich als Baum bezeichnet und es werden keine Richtungspfeile dargestellt. Es sei an dieser Stelle darauf hingewiesen, dass es sich trotzdem stets, wenn nichts anderes angegeben ist, um gerichtete Wurzelbäume handelt.
In der Literatur werden die Klassifikationshierarchien teilweise auch als Bestandteil der Dimension angesehen. In dieser Arbeit wird jedoch zwischen den Dimensionen, die lediglich aus Dimensionselementen bestehen und den Klassifikationshierarchien unterschieden. Die Dimensionselemente stellen dabei die Blätter der Klassifikationshierarchie dar.
Die Konzeption der Klassifikationshierarchien mit unterschiedlichen Verdichtungsstufen geht im Kern auf Überlegungen von Schmalenbach zurück, der zwischen einer zweckneutralen umfassenden Grundrechnung und einer darauf aufbauenden zweckspezifischen selektiven Auswertungsrechnung unterscheidet. Vgl. Schmalenbach (1963), S. 280.
Vgl. Lehner (1998), S. 31; Holthuis (1999), S. 125 f. sowie Oehler (2000), S. 63.
Vgl. Gabriel/Gluchowski (1997), S. 24.
Vgl. McGuff (1998).
Die Tiefe eines Knotens gibt seinen Abstand von der Wurzel an, d. h. die Tiefe stellt die Anzahl der Kanten auf dem Weg von diesem Knoten zu der Wurzel dar. Vgl. Ottmann/Widmeyer (1996), S. 237.
Die Blätter eines Baumes sind diejenigen Knoten, die keinen Nachfolger haben. Vgl. Aigner (1999), S. 153 sowie Turau (1996), S. 47.
Vgl. McGuff (1998); Holthuis (1999), S. 132 sowie Totok (2000), S. 93.
Vgl. McGuff (1998); Holthuis (1999), S. 131 sowie Totok (2000), S. 93.
Vgl. Totok (2000), S. 87 ff.; Holthuis (1999), S. 123 f.; Totok (1998), S. 165 f.; Tiemeyer (1996), S. 112; Fischer/Rogalski (1995), S. 36 ff. sowie Behme/Schimmelpfeng (1993a), S. 7.
Vgl. Jahnke et al. (1996), S. 322; Behme (1997), S. 545; McGuff (1998) sowie Totok (2000), S. 87 f.
Die Zeitdimension ist eine hierarchische Dimension, bei der die Dimensionselemente eine logische Ordnung haben. Solche Dimensionen werden auch als „sequentielle Dimensionen“ bezeichnet. Vgl. Holthuis (1999), S. 128 sowie Bulos (1996), S. 34.
Dieser Arbeit wird der Gregorianische Kalender, der von Papst Gregor XIII. im Jahre 1582 eingeführt wurde, zugrunde gelegt, der gleichartig zur Menge der natürlichen Zahlen ist. Vgl. Ekrutt (1972), S. 59 ff. Für die Betrachtung von Datenbanken ist diese Einschränkung zulässig, weshalb auf die Problematik von unterschiedlichen Kalendern nicht eingegangen wird. Es muss jedoch berücksichtigt werden, dass das gregorianische Kalendersystem recht komplex und schwer maschinell verarbeitbar ist.
In Anlehnung an Dyreson et al. (1998), S. 12; Holthuis (1999), S. 137 sowie Lee et al. (1998), S. 264.
Vgl. Groffmann (1992), S. 25 sowie Totok (2000), S. 87 f.
Vgl. Holthuis (1999), S. 44 f. sowie Totok (2000), S. 62.
Das Slicing wird auch als „Rotation“ bezeichnet. Vgl. Holthuis (1999), S. 45.
Das Dicing wird auch als „Ranging“ bezeichnet. Vgl. Holthuis (1999), S. 46 sowie Totok (2000), S. 63.
Vgl. Holthuis (1999), S. 45 ff.; Totok (2000), S. 62 f. sowie Chaudhuri/Dayal (1997), S. 66.
In Anlehnung an Buytendijk (1995) sowie Holthuis (1999), S. 47.
Vgl. Gabriel/Gluchowski (1997), S. 26.
Andere Modellierungsansätze, wie z. B. ADAPT („application design for analytical processing“; vgl. Bulos (1996), S. 33 ff. sowie Bulos/Forsman (1998), S. 1 ff.) oder die Objekttypenmethode (vgl. Ortner (1983), S. 59 ff.; Ortner/Söllner (1989), S. 32 ff. sowie Rautenstrauch (1997), S. 7 ff.), werden nicht untersucht.
Das Star-Schema hat einige Weiterentwicklungen erfahren. Eine Übersicht zu dem Star-Schema und seinen Varianten findet sich u. a. bei Raden (1996); Gluchowski (1997), S. 62 ff.; Holthuis (1999), S. 196 ff. sowie Hahne (1999), S. 152 ff. In dieser Arbeit reicht es jedoch aus, nur das Star-Schema zu betrachten, da die wesentlichen Aussagen auch für die Weiterentwicklungen gelten.
Vgl. Nußdorfer (1998a), S. 18 sowie Nußdorfer (1998b), S. 23 f.
Vgl. Poe et al. (1998), S. 192 f.; Gluchowski (1997), S. 62 f.; Gabriel/Gluchowski (1997), S. 28; Kimball et al. (1998), S. 165 ff.; Nußdorfer (1998b), S. 22 f.; Nußdorfer (1998c), S. 16; Holthuis (1999), S. 196 sowie Hahne (1999), S. 152 f.
In Anlehnung an Gluchowski (1997), S. 62 sowie Hahne (1999), S. 153.
Vgl. Gluchowski (1997), S. 63 sowie Holthuis (1999), S. 198.
Vgl. Totok (2000), S. 175 sowie Halme (1999), S. 153.
In Anlehnung an Gluchowski (1997), S. 62 sowie Hahne (1999), S. 153.
Vgl. Gluchowski (1997), S. 63 f. sowie Halme (1999), S. 154.
In Anlehnung an Gluchowski (1997), S. 64 sowie Hahne (1999), S. 155.
In Anlehnung an Hahne (1999), S. 157.
Vgl. Becker/Wiese (1998), S. 18.
Vgl. Totok (2000), S. 123 ff.
Die Verdichtung kann stattdessen auch durch eine Generalisierung dargestellt werden.
Vgl. Hars (1994), S. 73; Gabriel/Gluchowski (1998), S. 497 f. sowie Totok (2000), S. 124.
In Anlehnung an Totok (2000), S. 125.
Vgl. Becker et al. (1994), S. 424 f. sowie Becker/Wiese (1998), S. 18 ff.
Becker/Wiese (1998), S. 19 (leicht modifiziert). Bei der Modellierung der Dimension Zeit erhält die Beziehungsmenge, welche die Entitätsmenge Zeit mit der Entitätsmenge Zeitkennung in Beziehung setzt, keine Bezeichnung.
Vgl. Totok (2000), S. 130.
° Vgl. Rauh (1992), S. 295 sowie Becker et al. (1994), S. 423.
Vgl. Becker et al. (1994), S. 425 sowie Becker/Wiese (1998), S. 20. Bei dem Aggregierungspfeil ist es unerheblich, auf welcher Seite sich die gestrichelte Linie befindet.
Vgl. Becker et al. (1994), S. 424.
Vgl. Becker/Wiese (1998), S. 20.
In Anlehnung an Becker et al. (1994), S. 425.
Aus Gründen der Übersichtlichkeit werden die Klassifikationsschemata für die Dimensionen ZEIT und PRODUKTE nicht berücksichtigt.
Vgl. Becker et al. (1994), S. 424.
Vgl. Totok (2000), S. 131 f.
Vgl. Sapia et al. (1999), S. 109 ff.
Vgl. Sapia et al. (1999), S. 109 f.; Kurz (1999), S. 175 sowie Totok (2000), S. 126.
Vgl. Sapia et al. (1999), S. 110; Kurz (1999), S. 176 sowie Totok (2000), S. 126.
In Anlehnung an Sapia et al. (1999), S. 113.
Rights and permissions
Copyright information
© 2001 Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden, und Deutscher Universitäts-Verlag GmbH, Wiesbaden
About this chapter
Cite this chapter
Stock, S. (2001). Daten im Data Warehouse. In: Modellierung zeitbezogener Daten im Data Warehouse. Deutscher Universitätsverlag. https://doi.org/10.1007/978-3-322-90963-3_4
Download citation
DOI: https://doi.org/10.1007/978-3-322-90963-3_4
Publisher Name: Deutscher Universitätsverlag
Print ISBN: 978-3-8244-7333-5
Online ISBN: 978-3-322-90963-3
eBook Packages: Springer Book Archive