Daten im Data Warehouse

Stock, Steffen

doi:10.1007/978-3-322-90963-3_4

Steffen Stock

115 Accesses
1 Citations

Zusammenfassung

Nachdem das Konzept der zeitbezogenen Daten in Kapitel 3 vorgestellt wurde, wird im Folgenden unabhängig von diesen auf das Konzept der Daten im Data Warehouse eingegangen, soweit dies für die Zielsetzung dieser Arbeit relevant ist. Hierzu erfolgt zunächst m Abschnitt 4.1 eine Diskussion der wesentlichen Begriffe im Bereich des Data Warehouse. Im Anschluss daran wird in Abschnitt 4.2 auf die am weitesten verbreitete Möglichkeit der Darstellung von Daten eines Data Warehouse, den multidimensionalen Datenraum, eingegangen. Danach erfolgt in Abschnitt 4.3 eine Erläuterung der Möglichkeiten der Auswertung dieses multidimensionalen Datenraumes. Abschließend werden aufbauend auf den Grundlagen der Datenmodellierung (vgl. Kapitel 2) in Abschnitt 4.4 die Möglichkeiten der Modellierung eines Data Warehouse vorgestellt.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 44.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

Vgl. Inmon (1996a), S. 18 f.; Groffmann (1997), S. 9; Chaudhuri/Dayal (1997), S. 65 sowie Poe et al. (1998), S. 3 ff.
Google Scholar
Inmon (1996a), S. 33 (mit einer vom Original abweichenden Formatierung).
Google Scholar
Das Konzept des Data Warehouse geht auf ein Forschungsprojekt der IBM aus dem Jahr 1988 über Business Information Systems zurück und wurde zunächst EBIS (IBM Europe, Middle East and Africa business information system) genannt. Vgl. Devlin/Murphy (1988), S. 60 ff. Durchgesetzt hat sich das Data-Warehouse-Konzept allerdings erst mit der Veröffentlichung von Inmon. Vgl. Inmon (1993a).
Google Scholar
Vgl. hierzu und zum Folgenden Inmon/Hackathorn (1994), S. 2 ff.; Inmon (1996a), S. 33 ff.; Mucksch et al. (1996), 5.423 ff.; Gluchowski et al. (1997), S. 268 ff.; Groffmann (1997), S. 11; Mertens (2000), S. 44; Mucksch/Behme (1998a), S. 40 ff.; Chamoni/Gluchowski (1999b), S. 14 f. sowie Gabriel et al. (2000), S. 77 f.
Google Scholar
Vgl. Groffmann (1997). S. 12 f.
Google Scholar
In Anlehnung an Groffmann (1997), S. 13.
Google Scholar
Vgl. Mucksch et al. (1996), S. 427.
Google Scholar
Vgl. Mucksch/Behme (1998a), S. 55 sowie Tresch/Rys (1997), S. 67.
Google Scholar
Vgl. hierzu und zum Folgenden Groffmann (1997), S. 12 f.
Google Scholar
In der Literatur gibt es verschiedene Varianten der Data Marts, die hier nicht weiter betrachtet werden. Vgl. Baumann (1998), S. 20; Firestone (1997) sowie Demarest (1994), S. 44 ff.
Google Scholar
Vgl. Groffmann (1997), S. 15; Inmon (1996b) sowie Mucksch/Behme (1998a), S. 45 f.
Google Scholar
Vgl. Mucksch (1999), S. 177 f.; Holthuis (1999), S. 82 ff.; Mucksch/Behme (1998a), S. 50 f.;
Google Scholar
Cabibbo/Torlone (1998), S. 327; Poe et al. (1998), S. 26 f.; Inmon (1996a), S. 45 ff.; Mucksch et al. (1996), S. 429; Bischoff (1994), S. 31 sowie Inmon (1993b), S. 51 ff.
Google Scholar
Vgl. Totok (2000), S. 58 ff.; Chamoni/Gluchowski (1999c), S. 263; Chamoni (1997), S. 294 f. sowie Jahnke et al. (1996), S. 321.
Google Scholar
Vgl. Codd et al. (1993a), S. 87 ff. sowie Codd et al. (1993b), S. 18 ff.
Google Scholar
Kritiker unterstellen Codd, Codd und Salley, dass ihre Regeln an bestimmten Produkten ausgerichtet sind. In ihrer ersten Veröffentlichung werden bereits die Produkte Essbase von Arbor Software, Express von Information Resources, Improv von Lotus Development, System W von Comshare und TimeServer von Pilot Software evaluiert. Vgl. Codd et al. (1993a), S. 89. Weiterhin findet in abgewandelten Veröffentlichungen der ausführlichen Beschreibung ihrer Regeln (vgl. Codd et al. (1993b)) eine Evaluation der Produkte Essbase von Arbor Software (vgl. Codd et al. (1993c)) und TM/1 von Sinper Corporation (vgl. Codd (1994) sowie Codd/Codd (1995), S. 34 ff.) statt.
Google Scholar
Einen Überblick über die wichtigsten OLAP-Regeln findet sich u. a. bei Fanner (1994); Buytendijk (1995) sowie Oehler (2000), S. 29 ff.
Google Scholar
Vgl. Behme (1997), S. 545.
Google Scholar
Vgl. Pendse (2000) sowie Pendse/Creeth (o. J.).
Google Scholar
Vgl. Pendse (2000); Pendse/Creeth (o. J.); Chamoni/Gluchowski (1999c), S. 267; Behme (1997), S. 545 sowie Jahnke et al. (1996), S. 321.
Google Scholar
Gabriel/Gluchowski (1997), S. 19.
Google Scholar
Zur besseren Unterscheidung werden bei den Beispielen die Namen der Dimensionen und der multidimensionalen Datenräume in Kapitälchen geschrieben.
Google Scholar
In der Literatur wird der multidimensionale Datenraum (MDR) häufig als „Würfel“ (vgl. Jahnke et al. (1996), S. 322 sowie Chamoni/Gluchowski (1998), S. 402), „Hyperwürfel” (vgl. Gabriel et al. (2000), S. 79; Oehler (2000), S. 54 sowie Chamoni/Gluchowski (1999c), S. 264) oder als „hypercube” (vgl. OLAP Council (1995) sowie Thomsen (1997), S. 44) bezeichnet. Da ein Würfel ein dreidimensionales geometrisches Gebilde beschreibt und für eine realitätsnahe Beschreibung der betriebswirtschaftlichen Zusammenhänge meistens mehr als drei Dimensionen benötigt werden, wird in dieser Arbeit der Begriff des multidimensionalen Datenraumes verwendet.
Google Scholar
Die Fakten werden auch als „Faktdaten“ oder „Werte” bezeichnet. Vgl. Holthuis (1999), S. 122.
Google Scholar
Kennzahlen sind jene Zahlen, die quantitativ erfassbare Sachverhalte in konzentrierter Form darstellen. Vgl. Reichmann/Lachnit (1976), S. 706.
Google Scholar
Vgl. OLAP Council (1995); Oehler (2000), S. 54 f.; Gabriel/Gluchowski (1997), S. 24; Chamoni/Gluchowski (1999c), S. 263 f. sowie Holthuis (1999), S. 121 f.
Google Scholar
Vgl. Chamoni/Gluchowski (1999c), S. 264.
Google Scholar
Vgl. Chamoni/Gluchowski (1998), S. 403 sowie Totok (2000), S. 57.
Google Scholar
Vgl. Groffmann (1997), S. 15 sowie Jahnke et al. (1996), S. 321
Google Scholar
Vgl. Groffmann (1992), S. 5 ff. sowie Jahnke et al. (1996), S. 322. Eine weitergehende Darstellung der Problematik der Summierbarkeit von Fakten im OLAP findet sich bei Lenz/Shoshani (1997).
Google Scholar
Die in der Literatur diskutierte Problematik der dünnbesetzten Matrizen bezieht sich nicht auf die hier diskutierte Problematik der Interpretation der fehlenden Werte, sondern auf die Probleme der physischen Speicherung der konzeptionellen Multidimensionalität in einem multidimensionalen Datenbanksystem. Dabei geht es darum, die nichtbesetzten Zellen effizient zu handhaben, ohne jedoch dabei die multidimensionale Datenorganisation zu beeinträchtigen. Vgl. Chamoni/Gluchowski (1999c), S. 265 ff.; Buytendijk (1995) sowie Holthuis (1999), S. 189 f.
Google Scholar
Hiervon ist der Fall zu unterscheiden, dass ein Produkt in einem Betrieb nicht produziert wird, aber die technische Möglichkeit hierzu besteht. Dann handelt es sich nicht um einen fehlenden Wert, sondern die Produktionsmenge ist numerisch Null („0“).
Google Scholar
Vgl. Holthuis (1999), S. 124 ff. sowie Totok (2000), S. 92 ff. In der Literatur werden teilweise hiervon noch die kategorischen Dimensionen abgegrenzt, die eher an den mit den Analysen verbundenen Ziele ausgerichtet sind. Bei diesen Dimensionen werden z. B. Kategorien als Dimensionsebenen abgebildet, die Kunden nach Alters-, Geschlechts-oder Einkommensmerksmalen unterschieden und nicht notwendigerweise verdichtet werden können. Die kategorischen Dimensionen werden in dieser Arbeit nicht behandelt. Vgl. McGuff (1998); Totok (2000), S. 94 sowie Holthuis (1999), S. 127 f.
Google Scholar
Nichthierarchische Dimensionen werden auch als „partitionierende Dimensionen“ bezeichnet. Vgl. McGuff (1998) sowie Totok (2000), S. 94.
Google Scholar
Vgl. Holthuis (1999), S. 124 f. sowie Totok (2000), S. 94 f. Hier ist es jedoch z. B. möglich, dass nicht die Summation dieser beiden Dimensionselemente vorgenommen wird, sondern anhand einer Verdichtungsfunktion eine nichtadditive Verdichtung, wie z. B. die Berechnung der prozentualen Abweichung aus Ist und Soll bei der Dimension SZENARIO stattfindet. Vgl. Hahne (1998), S. 10 f.
Google Scholar
Ein gerichteter Graph besteht aus einer Menge von Knoten K und einer Menge von Kanten E, wobei eine gerichtete Kante durch ein geordnetes Paar von Knoten bestimmt sind. Hierbei gibt die erste Komponente den Anfangsknoten, die zweite den Endknoten an. Vgl. Aigner (1999), S. 89; Perl (1981), S. 16 f. sowie Turau (1996), S. 14.
Google Scholar
Ein Kreis ist eine Folge von verschiedenen Knoten k; (i = 1,…, n), wobei (k„ k„1) e E für alle i = 1,…, n-1 und weiterhin (k,,, k1) e E. Vgl. Aigner (1999), S. 92.
Google Scholar
In einem gerichteten Baum gibt es hierarchische Zusammenhänge. Ist in einem gerichteten Baum der Knoten k2 von dem Knoten k1 aus durch eine Kante e erreichbar, so ist der Knoten k1 der Vorgänger (bzw. Vater) des Knotens k2 und der Knoten k2 der Nachfolger (bzw. Sohn) des Knoten k1. Vgl. Wirth (1999), S. 219 ff.; Aigner (1999), S. 153; Ottmann/Widmeyer (1996), S. 235; Mühlbacher (1975), S. 98; Perl (1981), S. 18 sowie Turau (1996), S.47. Weiterhin wird eine Beziehung zwischen einem Knoten und seinem Vorgänger bzw. Nachfolger in einem gerichteten Baum als Bündelungsbeziehung bezeichnet. Vgl. Gluchowski (1993), S. 100 ff.
Google Scholar
Eine Wurzel ist ein ausgezeichneter Knoten eines Baumes, der keinen Vorgänger hat. Vgl. Aigner (1999), S. 153 sowie Turau (1996), S. 47.
Google Scholar
Wurzelbäume werden meist graphisch so dargestellt, dass die Wurzel auf der obersten Ebene liegt und die nachfolgenden Knoten jeweils eine Ebene tiefer. Somit zeigt die Richtung der Kanten nach unten. Oft wird auf die Darstellung der Richtungspfeile verzichtet.
Google Scholar
Vgl. Aigner (1999), S. 105 sowie S. 153; Mühlbacher (1975), S. 42; Neumann (1975), S. 39; Perl (1981), S. 80 sowie Turau (1996), S. 47. Eine Möglichkeit der Implementierung von gerichteten Graphen ist die Adjazenzmatrix, welche die Kantenbeziehungen durch eine quadratische boolesche Matrix darstellt. Besteht der Graph aus n Knoten, so wird eine Adjazenzmatrix D = (d1)1= 1,…, 1=1, erstellt, wobei d3 gleich 1 ist, wenn eine gerichtete Kante vom Knoten i zum Knoten j vorhanden ist, ansonsten ist d1 gleich 0. Vgl. Aigner (1999), S. 94 f.; Turau (1996), S. 22; Neumann (1975), S. 44 f.; Perl (1981), S. 25 f. sowie Clark/Holten (1994), S. 39 f.
Google Scholar
In dieser Arbeit werden Klassifikationshierarchien durch gerichtete Wurzelbäume dargestellt, die zur Aggregation von Fakten verwendet werden. Im Folgenden wird der gerichtete Wurzelbaum lediglich als Baum bezeichnet und es werden keine Richtungspfeile dargestellt. Es sei an dieser Stelle darauf hingewiesen, dass es sich trotzdem stets, wenn nichts anderes angegeben ist, um gerichtete Wurzelbäume handelt.
Google Scholar
In der Literatur werden die Klassifikationshierarchien teilweise auch als Bestandteil der Dimension angesehen. In dieser Arbeit wird jedoch zwischen den Dimensionen, die lediglich aus Dimensionselementen bestehen und den Klassifikationshierarchien unterschieden. Die Dimensionselemente stellen dabei die Blätter der Klassifikationshierarchie dar.
Google Scholar
Die Konzeption der Klassifikationshierarchien mit unterschiedlichen Verdichtungsstufen geht im Kern auf Überlegungen von Schmalenbach zurück, der zwischen einer zweckneutralen umfassenden Grundrechnung und einer darauf aufbauenden zweckspezifischen selektiven Auswertungsrechnung unterscheidet. Vgl. Schmalenbach (1963), S. 280.
Google Scholar
Vgl. Lehner (1998), S. 31; Holthuis (1999), S. 125 f. sowie Oehler (2000), S. 63.
Google Scholar
Vgl. Gabriel/Gluchowski (1997), S. 24.
Google Scholar
Vgl. McGuff (1998).
Google Scholar
Die Tiefe eines Knotens gibt seinen Abstand von der Wurzel an, d. h. die Tiefe stellt die Anzahl der Kanten auf dem Weg von diesem Knoten zu der Wurzel dar. Vgl. Ottmann/Widmeyer (1996), S. 237.
Google Scholar
Die Blätter eines Baumes sind diejenigen Knoten, die keinen Nachfolger haben. Vgl. Aigner (1999), S. 153 sowie Turau (1996), S. 47.
Google Scholar
Vgl. McGuff (1998); Holthuis (1999), S. 132 sowie Totok (2000), S. 93.
Google Scholar
Vgl. McGuff (1998); Holthuis (1999), S. 131 sowie Totok (2000), S. 93.
Google Scholar
Vgl. Totok (2000), S. 87 ff.; Holthuis (1999), S. 123 f.; Totok (1998), S. 165 f.; Tiemeyer (1996), S. 112; Fischer/Rogalski (1995), S. 36 ff. sowie Behme/Schimmelpfeng (1993a), S. 7.
Google Scholar
Vgl. Jahnke et al. (1996), S. 322; Behme (1997), S. 545; McGuff (1998) sowie Totok (2000), S. 87 f.
Google Scholar
Die Zeitdimension ist eine hierarchische Dimension, bei der die Dimensionselemente eine logische Ordnung haben. Solche Dimensionen werden auch als „sequentielle Dimensionen“ bezeichnet. Vgl. Holthuis (1999), S. 128 sowie Bulos (1996), S. 34.
Google Scholar
Dieser Arbeit wird der Gregorianische Kalender, der von Papst Gregor XIII. im Jahre 1582 eingeführt wurde, zugrunde gelegt, der gleichartig zur Menge der natürlichen Zahlen ist. Vgl. Ekrutt (1972), S. 59 ff. Für die Betrachtung von Datenbanken ist diese Einschränkung zulässig, weshalb auf die Problematik von unterschiedlichen Kalendern nicht eingegangen wird. Es muss jedoch berücksichtigt werden, dass das gregorianische Kalendersystem recht komplex und schwer maschinell verarbeitbar ist.
Google Scholar
In Anlehnung an Dyreson et al. (1998), S. 12; Holthuis (1999), S. 137 sowie Lee et al. (1998), S. 264.
Google Scholar
Vgl. Groffmann (1992), S. 25 sowie Totok (2000), S. 87 f.
Google Scholar
Vgl. Holthuis (1999), S. 44 f. sowie Totok (2000), S. 62.
Google Scholar
Das Slicing wird auch als „Rotation“ bezeichnet. Vgl. Holthuis (1999), S. 45.
Google Scholar
Das Dicing wird auch als „Ranging“ bezeichnet. Vgl. Holthuis (1999), S. 46 sowie Totok (2000), S. 63.
Google Scholar
Vgl. Holthuis (1999), S. 45 ff.; Totok (2000), S. 62 f. sowie Chaudhuri/Dayal (1997), S. 66.
Google Scholar
In Anlehnung an Buytendijk (1995) sowie Holthuis (1999), S. 47.
Google Scholar
Vgl. Gabriel/Gluchowski (1997), S. 26.
Google Scholar
Andere Modellierungsansätze, wie z. B. ADAPT („application design for analytical processing“; vgl. Bulos (1996), S. 33 ff. sowie Bulos/Forsman (1998), S. 1 ff.) oder die Objekttypenmethode (vgl. Ortner (1983), S. 59 ff.; Ortner/Söllner (1989), S. 32 ff. sowie Rautenstrauch (1997), S. 7 ff.), werden nicht untersucht.
Google Scholar
Das Star-Schema hat einige Weiterentwicklungen erfahren. Eine Übersicht zu dem Star-Schema und seinen Varianten findet sich u. a. bei Raden (1996); Gluchowski (1997), S. 62 ff.; Holthuis (1999), S. 196 ff. sowie Hahne (1999), S. 152 ff. In dieser Arbeit reicht es jedoch aus, nur das Star-Schema zu betrachten, da die wesentlichen Aussagen auch für die Weiterentwicklungen gelten.
Google Scholar
Vgl. Nußdorfer (1998a), S. 18 sowie Nußdorfer (1998b), S. 23 f.
Google Scholar
Vgl. Poe et al. (1998), S. 192 f.; Gluchowski (1997), S. 62 f.; Gabriel/Gluchowski (1997), S. 28; Kimball et al. (1998), S. 165 ff.; Nußdorfer (1998b), S. 22 f.; Nußdorfer (1998c), S. 16; Holthuis (1999), S. 196 sowie Hahne (1999), S. 152 f.
Google Scholar
In Anlehnung an Gluchowski (1997), S. 62 sowie Hahne (1999), S. 153.
Google Scholar
Vgl. Gluchowski (1997), S. 63 sowie Holthuis (1999), S. 198.
Google Scholar
Vgl. Totok (2000), S. 175 sowie Halme (1999), S. 153.
Google Scholar
In Anlehnung an Gluchowski (1997), S. 62 sowie Hahne (1999), S. 153.
Google Scholar
Vgl. Gluchowski (1997), S. 63 f. sowie Halme (1999), S. 154.
Google Scholar
In Anlehnung an Gluchowski (1997), S. 64 sowie Hahne (1999), S. 155.
Google Scholar
In Anlehnung an Hahne (1999), S. 157.
Google Scholar
Vgl. Becker/Wiese (1998), S. 18.
Google Scholar
Vgl. Totok (2000), S. 123 ff.
Google Scholar
Die Verdichtung kann stattdessen auch durch eine Generalisierung dargestellt werden.
Google Scholar
Vgl. Hars (1994), S. 73; Gabriel/Gluchowski (1998), S. 497 f. sowie Totok (2000), S. 124.
Google Scholar
In Anlehnung an Totok (2000), S. 125.
Google Scholar
Vgl. Becker et al. (1994), S. 424 f. sowie Becker/Wiese (1998), S. 18 ff.
Google Scholar
Becker/Wiese (1998), S. 19 (leicht modifiziert). Bei der Modellierung der Dimension Zeit erhält die Beziehungsmenge, welche die Entitätsmenge Zeit mit der Entitätsmenge Zeitkennung in Beziehung setzt, keine Bezeichnung.
Google Scholar
Vgl. Totok (2000), S. 130.
Google Scholar
° Vgl. Rauh (1992), S. 295 sowie Becker et al. (1994), S. 423.
Google Scholar
Vgl. Becker et al. (1994), S. 425 sowie Becker/Wiese (1998), S. 20. Bei dem Aggregierungspfeil ist es unerheblich, auf welcher Seite sich die gestrichelte Linie befindet.
Google Scholar
Vgl. Becker et al. (1994), S. 424.
Google Scholar
Vgl. Becker/Wiese (1998), S. 20.
Google Scholar
In Anlehnung an Becker et al. (1994), S. 425.
Google Scholar
Aus Gründen der Übersichtlichkeit werden die Klassifikationsschemata für die Dimensionen ZEIT und PRODUKTE nicht berücksichtigt.
Google Scholar
Vgl. Becker et al. (1994), S. 424.
Google Scholar
Vgl. Totok (2000), S. 131 f.
Google Scholar
Vgl. Sapia et al. (1999), S. 109 ff.
Google Scholar
Vgl. Sapia et al. (1999), S. 109 f.; Kurz (1999), S. 175 sowie Totok (2000), S. 126.
Google Scholar
Vgl. Sapia et al. (1999), S. 110; Kurz (1999), S. 176 sowie Totok (2000), S. 126.
Google Scholar
In Anlehnung an Sapia et al. (1999), S. 113.
Google Scholar

Download references

Authors

Steffen Stock
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Stock, S. (2001). Daten im Data Warehouse. In: Modellierung zeitbezogener Daten im Data Warehouse. Deutscher Universitätsverlag. https://doi.org/10.1007/978-3-322-90963-3_4

Download citation

DOI: https://doi.org/10.1007/978-3-322-90963-3_4
Publisher Name: Deutscher Universitätsverlag
Print ISBN: 978-3-8244-7333-5
Online ISBN: 978-3-322-90963-3
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics