Zusammenfassung
Beim Aufbau von Data Warehouse-Systemen ist vor allem der Konstruktion eines Schemas für die im Data Warehouse enthaltenen multidimensional strukturierten Datenbestände eine enorme Bedeutung beizumessen. Gegenstand dieses Kapitels ist es daher, zum einen die wesentlichen Grundkenntnisse bei der Modellierung von Data Warehouse-Strukturen aufzuzeigen und zum anderen aufbauend auf dieses Grundverständnis Schwächen existierender Modellierungsansätze herauszuarbeiten. Der Schwerpunkt der Ausführungen liegt dabei auf dem konzeptuellen Entwurf von Data Warehouse-Strukturen.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Literatur
In Hammel [Hamm99, S. 5 ff.], sowie in Hammel, SCFnd7T und Wolf [HaSW99, S. 22 ff.] findet sich eine ausführliche Diskussion der Entwicklungshistorie des Modellbegriffs. Dabei wird vor allem der konstruktivistische Modellbegriff für die Wirtschaftsinformatik herausgearbeitet.
Umgangssprachlich wird häufig das Modell-bzw. Bildsystem ebenfalls als Modell bezeichnet.
Ist eine Modellabbildung ohne Verlust in beide Richtungen möglich, d.h. umkehrbar eindeutig bzw. eineindeutig, so liegt Isomorphie vor ([Niem95, S. 59], [Zsch95, S. 258]). Sie ermöglicht einen vollständigen Rückschluß von Modellsystem und Modellabbildung auf das zugehörige Objektsystem. Allerdings führt eine isomorphe Abbildung zu keiner Strukturvereinfachung. Vielmehr liegt eine Strukturgleichheit zwischen Objekt- und Modellsystem vor.
Eine detaillierte Betrachtung der beiden Problemtypen Konstruktionsproblem und Analyseproblem findet sich bei FERSTL [Fers92, S. 44 ff.].
Ein historischer Abriß über die Metapher findet sich in Hammel [Hamm99, S. 34 ff.]. Dort werden weiterhin auch fünf Theorien über die Metapher (die Substitutions-, Vergleichs-, Anomalie-, Emotive und Interaktionstheorie) ausführlich vorgestellt.
Die Forderung nach Struktur- und Verhaltenstreue bei der Modellabbildung wurde bereits anhand der Isomorphie-bzw. Homomorphieeigenschaft in Abschnitt 4.1.1 kurz vorgestellt.
Während bei nominalskalierten Merkmalen die Reihenfolge der Ausprägungen keine Rolle spielt, z.B. männlich und weiblich bei Geschlecht, sollte bei ordinal, intervall-bzw. verhältnisskalierten Merkmalen die implizit vorgegebene Reihenfolge bzw. der Abstand bei der Darstellung berücksichtigt werden.
Da bereits Tabellenkalkulationsprogramme mit ihrer Kalkulationsblattmetapher gewissermaßen einen zweidimensionalen Ausschnitt aus einem mehrdimensionalen Würfel nachbilden, unterstützen diese schon das Grundprinzip der multidimensionalen Betrachtungsweise [JaGK96, S. 322]. „... the concept has been around as long as end-user computing, starting in the 1960’s with products like Expresss and APL. And even the lowly spreadsheet is a multidimensional model, albeit a two-dimensional one.“ [Rade96a]
Shoshani und Rafanelli [ShRa91] sprechen bei einer Zuordnung von Dimensionen auch von einer Fixierung der Kennzahl durch die Dimension. Durch die Verknüpfung von Kennzahlen mit Dimensionen sind diese gewissermaßen „fixed in place“. Da außerdem eine Zeitdimension fast immer vorhanden ist [GaGl98, S. 495], sprechen sie weiterhin auch von „fixed in time”.
Auch wenn nur ein geometrisches Gebilde mit gleicher Kantenlänge im mathematischen Sinne als Würfel bezeichnet wird (ansonsten spricht man von einem Quader), sollen im folgenden die im Data Warehouse-Umfeld für drei-bzw. mehrdimensionale Strukturen verwendeten Begriffe Würfel bzw. Hyperwürfel weiter verwendet werden.
Neben der Höhe und Tiefe wird im multidimensionalen Umfeld häufig auch die Breite eines Baums problematisiert, die die maximale Anzahl der Dimensionselemente auf einer Hierarchiestufe zählt [GaG198, S. 495]. Die Breite ist folglich ein Maß für die Komplexität der Dimension auf Ausprägungsebene.
McGuFF spricht auch von einer alternativen Hierarchie [McGu98].
Die Tiefe eines Knotens wird über die Anzahl der Kanten ausgehend vom jeweiligen Wurzelknoten bestimmt.
Auch die häufig verwendete Definition eines nicht ausgeglichenen Baums ([Oehl00, S. 70], [Holt98b, S. 160 f.]) impliziert als Gegenteil einen ausgeglichenen Baum. Ein ausgeglichener Baum ist jedoch als abgeschwächte Form einer vollständig ausgeglichenen Baumstruktur definiert, bei der sich die Pfadlängen um nicht mehr als Eins unterscheiden [Wirt86, S. 2051
Jede Heterarchie ist gleichzeitig auch eine Quasi-Hierarchie, da der zugrundeliegende Graph gerichtet und azyklisch ist. Jede Quasi-Hierarchie ist jedoch nicht zwangsläufig eine Heterarchie, da die Heterarchie analog zur Baumstruktur nur einen Wurzelknoten besitzt.
Lenzerini und Shoshani verwenden anstelle von Aggregierbarkeit den Begriff Summarizability. Auch die übrigen, im Originaltext verwendeten Begriffe wurden bei der Erläuterung an die in Abschnitt 4.2.1 und Abschnitt 4.2.2 eingeführte Terminologie angepaßt.
Zum Teil wird auch der Operator Drill Within verwendet, die im Gegensatz zu Drill Down bzw. Roll Up in einem einzelnen Schritt die Navigation über mehrere Hierarchiestufen hinweg ermöglicht.
Die Verringerung der Dimensionalität entspricht einer Filterung, bei der bei einer Dimension nur ein einzelnes Datenelement ausgewählt wird.
Im zweidimensionalen Fall beinhaltet dies das Vertauschen von Dimensionen in Zeilen und Spalten ei- ner Matrix bzw. dem Verschieben einer Dimension aus den Spalten in die Zeilen und umgekehrt.
Zu diesen Operatoren zählen u.a. Drill Across, Drill Aside und Drill Anywhere [Kurz99, S. 338].
Lediglich im SSDB-Bereich, der gewisse Ähnlichkeiten mit dem Data Warehousing aufweist, findet sich ein Ansatz in [MeRS92], einen Beweis der Vollständigkeit in Analogie zur relationalen Vollständigkeit [Codd72l zu führen.
Connolly beschreibt die logische Entwurfsebene folgendermaßen: „The process of constructing a model of the information... based on a specific data model, but independent of a particular DBMS and other physical considerations.“ [CoBS98, S. 227]
Die Unterscheidung zwischen Kennzahlen und Dimensionen wird in der Praxis häufig durch eine sog. Variablendimension umgangen, die einzelne Kennzahlen als Dimensionselemente einer Variablendimension interpretiert. „Some OLAP servers treat variables as a special dimension.“ [Pilo98]
Wäre diese Annahme verletzt, müßten die Definitionen der vorliegenden Kennzahlen geändert werden, da dann ein Student nicht nur physisch einmal, sondern einmal pro eingeschriebenem Studienfach gezählt werden müßte. Diese Trennung spiegelt sich auch im Begriffspaar Studenten-vs. Fachstatistik wieder.
Neben den vorzustellenden Modellierungsansätzen für den SSDB-Bereich mit einer semiformalen, graphenbasierten Darstellung, existiert noch eine Vielzahl von Ansätzen, die lediglich eine formale mathematische Spezifikation bieten und daher als Diskussionsgrundlage für Fach- und Führungskräfte nur unzureichend geeignet erscheinen. Zu diesen Ansätzen gehören u.a. Conceptual Statistical Model (CSM) [BaBa88], System for Statistical Databases (SSDB) [Oz0z83], Statistical Relational Model (SRM) [Ghos84] und Statistical Data Model Based on 4 Schema Concept (SDM4S) [SNFH86].
Da der Schwerpunkt von SAM* auf der Modellierung wissenschaftlicher und statistischer Datenbanken und nicht auf der Erweiterung klassischer Datenmodellierungsmethoden für das Data Warehousing liegt, erfolgt seine Einordnung an dieser Stelle.
Eine ausführliche Darstellung der strukturellen Eigenschaften, Integritätsbedingungen und möglichen Operationen auf die verschiedenen Assoziationstypen enthält [Su83, S. 157 ff.].
Während Aggregation Associations zur Modellierung von Beziehungen zwischen existenzabhängigen Concepts verwendet werden können, ermöglichen Interaction Association die Verknüpfung von existenzunabhängigen Concepts.
Eine Relation gemäß relationalem Datenbankmodell kann als ein Spezialfall einer G-Relation betrachtet werden, wenn die folgenden zwei Bedingungen eingehalten werden [Su83, S. 187].
C(1) bis C(n) bezeichnen die einzelnen Kategorieattribute der Menge C aller Kategorieattribute. Die funktionale Abbildung wird durch den Doppelpunkt (:) symbolisiert.
Es existieren jedoch zwei Sonderfälle: Geht nur ein C-Knoten in den S-Knoten ein, handelt es sich um eine eindimensionale Darstellung. Wenn kein Knoten in einen S-Knoten einmündet, liegt lediglich ein konkreter Summenwert vor, dessen Kontext über den Namen des Statistical Objects erläutert wird [ShRa91].
Eine Ausnahme stellt die sog. C-Knoten Partitionierung dar. Hierbei wird ein Kategorieattribut, z.B. Berufsgruppe, in weitere Unterkategorien, wie z.B. Wissenschaftler, Sekretär usw., aufgespalten. Das zugehörige Statistical Object wird als Non-homogeneous Statistical Object bezeichnet [ShRa9l].
Bei Einhaltung der beiden Bedingungen spricht man von sog. Well-Formed Statistical Objects. Die Wohlgeformtheit eines Statistical Objects ist eine notwendige, aber keine hinreichende Bedingung für Summierbarkeit.
Im Artikel von CHEN sind bereits die grundsätzlichen Zusammenhänge zwischen ERM und Relationenmodell bzw. Netzwerkmodell aufgezeigt. Dieses Beziehungsmuster wurden seither von vielen Autoren weiter präzisiert und verfeinert.
Im klassischen ERM sind die Konstrukte Generalisierung und Aggregation noch nicht vorhanden. Diese wurden erst von SMITH und SMITH [SmSm771 eingeführt.
Da die Verhältnisangaben der (1,M,N)-Notation mehrdeutig sind, wurde diese durch die (min,max)-Notation präzisiert. Die (min,max)-Notation ermöglicht die Angabe eines Komplexitätsgrades zwischen einem Entity- und einem Relationship-Typ, der besagt, mit wie vielen Relationships ein entsprechender Entity minimal in Beziehung stehen muß und maximal in Beziehung stehen kann [FeSi01, S. 137 f.].
Alternativ sind die Kennzahlen eines Würfels auch über einen Relationship-Typ abbildbar [BoHS97, S. 21 ff.]. Dies führt i.d.R. zu einer mehrstelligen Beziehung, bei der die Orthogonalität der Dimensionen durch die paarweisen (M:N)-Beziehungen deutlich wird [GaG198, S. 497]. Teilweise werden Kennzahlen auch einem Dimensions-Entity-Typ zugeordnet [Hahn99, S. 145 ff.], was der strikten Trennung zwischen quantitativen und qualitativen Daten widerspricht.
Für eine nähere Spezifikation der Dimensionsstrukturen schlagen darüber hinaus GABRIEL und GLUCHOWSKI eine Erweiterung der ursprünglich von CHEN eingeführten Beschreibungselemente durch die Verwendung von Clustern vor [GaG198, S. 498].
In [AHSZ97, S. 12] werden allerdings die Relationship-Typen nicht mittels Rautensymbolen visualisiert.
Neben dem spezialisierten Entity-Typ Dimension Level kann auch der reguläre Entity-Typ nach Chen in einem ME/R-Diagramm eingesetzt werden [SBHD98, S. 113]. Der mit dem Rechteckssymbol korrespondierende Typ läßt sich hierbei lediglich aus dem Diagrammkontext erschließen.
Ein Zyklus entspricht einer geschlossenen Kantenfolge unter Beachtung einer einheitlichen Kantenrichtung zwischen den Elementen.
Der IRDS (Information Resource Dictionary System)-Standard dient zur einheitlichen Beschreibung von Repository-Systemen und wurde von der ISO (International Organization for Standardization) im Jahre 1990 verabschiedet.
Neben der Spezifikation multidimensionaler Datenstrukturen auf Basis des ME/RM (das sog. Static Data Model View) soll auch ein Dynamic View, der ähnlich wie bei Use Cases der UML typische Analyseaufgaben der Endbenutzer festhält, und eine Data Source View zur Spezifikation der Struktur operativer Systeme und ihrer Transformation in Data Warehouse-Strukturen enthalten sein [SaBH00].
Neben der Gültigkeitszeit (Valid Time) wird häufig die Transaktionszeit (Transaction Time) bei der Betrachtung von temporalen Aspekten berücksichtigt [Snod00, S. 11 ff.].
Anstelle der Begriffe TimePoint, Timelntervall und TimeSet sind meist die Bezeichnungen Instant, Interval und Period gebräuchlich [Snod00, S. 22].
Der Begriff Star Schema sollte in diesem Zusammenhang nicht mit dem auf der logischen Ebene verwendeten analogen Begriff verwechselt werden.
Anstelle der formalen Spezifikation in ([GoMR98b], [GoRi98]) wird im folgenden das DFM lediglich informal vorgestellt.
Konkrete Ausprägungen eines Fact Attributes werden als Fact Instance bezeichnet.
Die Additivität von Kennzahlen ist ein Spezialfall der beliebigen Aggregierbarkeit von Kennzahlen.
Weiterhin schlagen die Autoren einen teilautomatisierten Ansatz zur Erzeugung von Dimensional Fact Modellen aus bereits existierenden Entity-Relationship-Modellen der operativen Quellsysteme vor [GoMR98a, S. 338 ff.].
Mit Hilfe der Funktionssicht beschreibt HOLTHUIS die Verdichtungen zwischen den einzelnen Hierarchiestufen einer Dimension. Ein Beispiel für den Einsatz der Funktionssicht findet sich in HOLTHUIS [Holt98b, S. 179].
Eine ausführliche Darstellung des MML-Klassendiagramms findet sich in ([Harr99a, S. 45 ff.], [HaHe99, S. 61 ff.]). Diese Vererbungshierarchie unterscheidet zwischen den Bereichen Hilfsklassen, multidimensionaler Kontext, Datenelemente und Verbindungen.
Beispielsweise werden Sichtbarkeitsangaben überhaupt nicht genutzt, während Angaben zur Multiplizität lediglich bei optionalen Attributen in der Form [0..1] Verwendung finden.
Associations zwischen mehr als zwei Klassen, die in der UML mit einem Rautensymbol visualisiert werden, sind nicht vorgesehen.
Bei Fehlen von Kardinalitätsangaben wird O..* für die Multiplizität 1 und 1..1 für die Multiplizität 2 unterstellt (vgl. Abbildung 4.33).
Da die Primärschlüsselattribute immer auch als Fremdschlüssel in die Fakttabelle aufgenommen werden und bei Anfragen zur Verknüpfung der jeweiligen Tabellen dienen, ist dies aus Performancegründen jedoch nicht zu empfehlen. Neben einer Zunahme der Größe der Fakttabelle ist beim Hinzufügen bzw. Entfernen einzelner Hierarchiestufen in einer Dimensionstabelle immer auch eine Modifikation der Fakttabelle nötig.
Connelly et al. sprechen in diesem Zusammenhang von intelligenten bzw. nicht intelligenten Fremdschlüsseln [CoBS98, S. 941].
MCGUPF [McGu98] bezeichnet ein Star Schema mit rekursiver Struktur auch als Simple Vertical Model, während für ihn die denormalisierte Strukturierung ein Simple Horizontal Model ist.
Teilweise gibt es auch Varianten, bei denen neben der Speicherung von Verdichtungen in den Dimensionstabellen analog auch bereits die Fakttabelle verdichtete Daten enthält.
Bei Verwendung der denormalisierten Variante und parallelen Hierarchien ist ein numerisches Level-Attribut wenig aussagekräftig, da hierbei noch differenziert werden müßte, welcher Verdichtungsweg innerhalb einer Verdichtungsstufe betrachtet wird [Hahn99, S. 156].
Diese Formel impliziert, daß die Reihenfolge der Attribute im Index von Bedeutung ist und beliebige Attributkombinationen in den Index aufgenommen werden können
Eine ausführliche Darstellung von B-Bäumen und deren Varianten sowie wünschenswerte Eigenschaften der jeweiligen Baumstrukturen findet sich u.a. bei [Voss99, S. 448 ff.] und [CoBS98, S. 991 ff.].
Jürgens und Lenz stellen eine auf neun Kriterien basierende Performance-Studie zum Vergleich von Baum vs. Bitmap Index-Verfahren vor. Das Ergebnis der Studie zeigt, daß die Bitmap Index-Techniken traditionelle baumbasierte Index-Verfahren in naher Zukunft bei Data Warehouse-Anfragen übertreffen werden [JuLe99].
I.d.R. speichert ein Join Index die Beziehung zwischen einem Fremdschlüssel und dessen korrespondierendem Primärschlüssel [ChDa97, S. 522 f.l. Da in einem Star Schema die Primärschlüsselattribute der Dimensionstabellen als Fremdschlüssel an die Fakttabelle weitergegeben werden, ist der Join Index für den Einsatz bei derartigen Schemata prädestiniert.
Die in Abschnitt 4.6.1.1 vorgestellten Bitmap Indexe können auch als Join Indexe eingesetzt werden ([Va1d87], [ONGr951).
Neben diesen beiden elementaren Fragmentierungsstrategien existiert eine hybride Form, die jedoch im Data Warehouse-Umfeld keinerlei Bedeutung besitzt [Rahm94, S. 67 f.l.
Die Frage, wieviele bzw. welche Sichten zu materialisieren sind, wurde von einer Vielzahl von Autoren im Datenbankumfeld genauer untersucht. Beispielsweise wird in [SDNR96] ein mathematisches Modell vorgeschlagen, um den Speicherplatzbedarf für Aggregate zu berechnen. [HaRU96] schlagen Algorithmen für die Auswahl von Views in Abhängigkeit von Speicherplatzbedarf und der Antwortzeit vor. [Gupt97b] erläutert die Auswahl von Views unter Optimierung der Antwortzeit.
Die verschiedenen Aggregationsmöglichkeiten können mit der sog. Lattice-Notation anschaulich visualisiert werden. Zu einer Beschriebung dieser Notation siehe [HaRU96].
Rights and permissions
Copyright information
© 2001 Springer Fachmedien Wiesbaden
About this chapter
Cite this chapter
Böhnlein, M. (2001). Modellierung von Data Warehouse-Strukturen. In: Konstruktion semantischer Data-Warehouse-Schemata. DUV Wirtschaftsinformatik. Deutscher Universitätsverlag, Wiesbaden. https://doi.org/10.1007/978-3-663-08649-9_4
Download citation
DOI: https://doi.org/10.1007/978-3-663-08649-9_4
Publisher Name: Deutscher Universitätsverlag, Wiesbaden
Print ISBN: 978-3-8244-2148-0
Online ISBN: 978-3-663-08649-9
eBook Packages: Springer Book Archive