Modellierung von Data Warehouse-Strukturen

Böhnlein, Michael

doi:10.1007/978-3-663-08649-9_4

Michael Böhnlein

Part of the book series: DUV Wirtschaftsinformatik ((FBWI))

127 Accesses

Zusammenfassung

Beim Aufbau von Data Warehouse-Systemen ist vor allem der Konstruktion eines Schemas für die im Data Warehouse enthaltenen multidimensional strukturierten Datenbestände eine enorme Bedeutung beizumessen. Gegenstand dieses Kapitels ist es daher, zum einen die wesentlichen Grundkenntnisse bei der Modellierung von Data Warehouse-Strukturen aufzuzeigen und zum anderen aufbauend auf dieses Grundverständnis Schwächen existierender Modellierungsansätze herauszuarbeiten. Der Schwerpunkt der Ausführungen liegt dabei auf dem konzeptuellen Entwurf von Data Warehouse-Strukturen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 44.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

In Hammel [Hamm99, S. 5 ff.], sowie in Hammel, SCFnd7T und Wolf [HaSW99, S. 22 ff.] findet sich eine ausführliche Diskussion der Entwicklungshistorie des Modellbegriffs. Dabei wird vor allem der konstruktivistische Modellbegriff für die Wirtschaftsinformatik herausgearbeitet.
Google Scholar
Umgangssprachlich wird häufig das Modell-bzw. Bildsystem ebenfalls als Modell bezeichnet.
Google Scholar
Ist eine Modellabbildung ohne Verlust in beide Richtungen möglich, d.h. umkehrbar eindeutig bzw. eineindeutig, so liegt Isomorphie vor ([Niem95, S. 59], [Zsch95, S. 258]). Sie ermöglicht einen vollständigen Rückschluß von Modellsystem und Modellabbildung auf das zugehörige Objektsystem. Allerdings führt eine isomorphe Abbildung zu keiner Strukturvereinfachung. Vielmehr liegt eine Strukturgleichheit zwischen Objekt- und Modellsystem vor.
Google Scholar
Eine detaillierte Betrachtung der beiden Problemtypen Konstruktionsproblem und Analyseproblem findet sich bei FERSTL [Fers92, S. 44 ff.].
Google Scholar
Ein historischer Abriß über die Metapher findet sich in Hammel [Hamm99, S. 34 ff.]. Dort werden weiterhin auch fünf Theorien über die Metapher (die Substitutions-, Vergleichs-, Anomalie-, Emotive und Interaktionstheorie) ausführlich vorgestellt.
Google Scholar
Die Forderung nach Struktur- und Verhaltenstreue bei der Modellabbildung wurde bereits anhand der Isomorphie-bzw. Homomorphieeigenschaft in Abschnitt 4.1.1 kurz vorgestellt.
Google Scholar
Während bei nominalskalierten Merkmalen die Reihenfolge der Ausprägungen keine Rolle spielt, z.B. männlich und weiblich bei Geschlecht, sollte bei ordinal, intervall-bzw. verhältnisskalierten Merkmalen die implizit vorgegebene Reihenfolge bzw. der Abstand bei der Darstellung berücksichtigt werden.
Google Scholar
Da bereits Tabellenkalkulationsprogramme mit ihrer Kalkulationsblattmetapher gewissermaßen einen zweidimensionalen Ausschnitt aus einem mehrdimensionalen Würfel nachbilden, unterstützen diese schon das Grundprinzip der multidimensionalen Betrachtungsweise [JaGK96, S. 322]. „... the concept has been around as long as end-user computing, starting in the 1960’s with products like Expresss and APL. And even the lowly spreadsheet is a multidimensional model, albeit a two-dimensional one.“ [Rade96a]
Google Scholar
Shoshani und Rafanelli [ShRa91] sprechen bei einer Zuordnung von Dimensionen auch von einer Fixierung der Kennzahl durch die Dimension. Durch die Verknüpfung von Kennzahlen mit Dimensionen sind diese gewissermaßen „fixed in place“. Da außerdem eine Zeitdimension fast immer vorhanden ist [GaGl98, S. 495], sprechen sie weiterhin auch von „fixed in time”.
Google Scholar
Auch wenn nur ein geometrisches Gebilde mit gleicher Kantenlänge im mathematischen Sinne als Würfel bezeichnet wird (ansonsten spricht man von einem Quader), sollen im folgenden die im Data Warehouse-Umfeld für drei-bzw. mehrdimensionale Strukturen verwendeten Begriffe Würfel bzw. Hyperwürfel weiter verwendet werden.
Google Scholar
Neben der Höhe und Tiefe wird im multidimensionalen Umfeld häufig auch die Breite eines Baums problematisiert, die die maximale Anzahl der Dimensionselemente auf einer Hierarchiestufe zählt [GaG198, S. 495]. Die Breite ist folglich ein Maß für die Komplexität der Dimension auf Ausprägungsebene.
Google Scholar
McGuFF spricht auch von einer alternativen Hierarchie [McGu98].
Google Scholar
Die Tiefe eines Knotens wird über die Anzahl der Kanten ausgehend vom jeweiligen Wurzelknoten bestimmt.
Google Scholar
Auch die häufig verwendete Definition eines nicht ausgeglichenen Baums ([Oehl00, S. 70], [Holt98b, S. 160 f.]) impliziert als Gegenteil einen ausgeglichenen Baum. Ein ausgeglichener Baum ist jedoch als abgeschwächte Form einer vollständig ausgeglichenen Baumstruktur definiert, bei der sich die Pfadlängen um nicht mehr als Eins unterscheiden [Wirt86, S. 2051
Google Scholar
Jede Heterarchie ist gleichzeitig auch eine Quasi-Hierarchie, da der zugrundeliegende Graph gerichtet und azyklisch ist. Jede Quasi-Hierarchie ist jedoch nicht zwangsläufig eine Heterarchie, da die Heterarchie analog zur Baumstruktur nur einen Wurzelknoten besitzt.
Google Scholar
Lenzerini und Shoshani verwenden anstelle von Aggregierbarkeit den Begriff Summarizability. Auch die übrigen, im Originaltext verwendeten Begriffe wurden bei der Erläuterung an die in Abschnitt 4.2.1 und Abschnitt 4.2.2 eingeführte Terminologie angepaßt.
Google Scholar
Zum Teil wird auch der Operator Drill Within verwendet, die im Gegensatz zu Drill Down bzw. Roll Up in einem einzelnen Schritt die Navigation über mehrere Hierarchiestufen hinweg ermöglicht.
Google Scholar
Die Verringerung der Dimensionalität entspricht einer Filterung, bei der bei einer Dimension nur ein einzelnes Datenelement ausgewählt wird.
Google Scholar
Im zweidimensionalen Fall beinhaltet dies das Vertauschen von Dimensionen in Zeilen und Spalten ei- ner Matrix bzw. dem Verschieben einer Dimension aus den Spalten in die Zeilen und umgekehrt.
Google Scholar
Zu diesen Operatoren zählen u.a. Drill Across, Drill Aside und Drill Anywhere [Kurz99, S. 338].
Google Scholar
Lediglich im SSDB-Bereich, der gewisse Ähnlichkeiten mit dem Data Warehousing aufweist, findet sich ein Ansatz in [MeRS92], einen Beweis der Vollständigkeit in Analogie zur relationalen Vollständigkeit [Codd72l zu führen.
Google Scholar
Connolly beschreibt die logische Entwurfsebene folgendermaßen: „The process of constructing a model of the information... based on a specific data model, but independent of a particular DBMS and other physical considerations.“ [CoBS98, S. 227]
Google Scholar
Die Unterscheidung zwischen Kennzahlen und Dimensionen wird in der Praxis häufig durch eine sog. Variablendimension umgangen, die einzelne Kennzahlen als Dimensionselemente einer Variablendimension interpretiert. „Some OLAP servers treat variables as a special dimension.“ [Pilo98]
Google Scholar
Wäre diese Annahme verletzt, müßten die Definitionen der vorliegenden Kennzahlen geändert werden, da dann ein Student nicht nur physisch einmal, sondern einmal pro eingeschriebenem Studienfach gezählt werden müßte. Diese Trennung spiegelt sich auch im Begriffspaar Studenten-vs. Fachstatistik wieder.
Google Scholar
Neben den vorzustellenden Modellierungsansätzen für den SSDB-Bereich mit einer semiformalen, graphenbasierten Darstellung, existiert noch eine Vielzahl von Ansätzen, die lediglich eine formale mathematische Spezifikation bieten und daher als Diskussionsgrundlage für Fach- und Führungskräfte nur unzureichend geeignet erscheinen. Zu diesen Ansätzen gehören u.a. Conceptual Statistical Model (CSM) [BaBa88], System for Statistical Databases (SSDB) [Oz0z83], Statistical Relational Model (SRM) [Ghos84] und Statistical Data Model Based on 4 Schema Concept (SDM4S) [SNFH86].
Google Scholar
Da der Schwerpunkt von SAM* auf der Modellierung wissenschaftlicher und statistischer Datenbanken und nicht auf der Erweiterung klassischer Datenmodellierungsmethoden für das Data Warehousing liegt, erfolgt seine Einordnung an dieser Stelle.
Google Scholar
Eine ausführliche Darstellung der strukturellen Eigenschaften, Integritätsbedingungen und möglichen Operationen auf die verschiedenen Assoziationstypen enthält [Su83, S. 157 ff.].
Google Scholar
Während Aggregation Associations zur Modellierung von Beziehungen zwischen existenzabhängigen Concepts verwendet werden können, ermöglichen Interaction Association die Verknüpfung von existenzunabhängigen Concepts.
Google Scholar
Eine Relation gemäß relationalem Datenbankmodell kann als ein Spezialfall einer G-Relation betrachtet werden, wenn die folgenden zwei Bedingungen eingehalten werden [Su83, S. 187].
Google Scholar
C(1) bis C(n) bezeichnen die einzelnen Kategorieattribute der Menge C aller Kategorieattribute. Die funktionale Abbildung wird durch den Doppelpunkt (:) symbolisiert.
Google Scholar
Es existieren jedoch zwei Sonderfälle: Geht nur ein C-Knoten in den S-Knoten ein, handelt es sich um eine eindimensionale Darstellung. Wenn kein Knoten in einen S-Knoten einmündet, liegt lediglich ein konkreter Summenwert vor, dessen Kontext über den Namen des Statistical Objects erläutert wird [ShRa91].
Google Scholar
Eine Ausnahme stellt die sog. C-Knoten Partitionierung dar. Hierbei wird ein Kategorieattribut, z.B. Berufsgruppe, in weitere Unterkategorien, wie z.B. Wissenschaftler, Sekretär usw., aufgespalten. Das zugehörige Statistical Object wird als Non-homogeneous Statistical Object bezeichnet [ShRa9l].
Google Scholar
Bei Einhaltung der beiden Bedingungen spricht man von sog. Well-Formed Statistical Objects. Die Wohlgeformtheit eines Statistical Objects ist eine notwendige, aber keine hinreichende Bedingung für Summierbarkeit.
Google Scholar
Im Artikel von CHEN sind bereits die grundsätzlichen Zusammenhänge zwischen ERM und Relationenmodell bzw. Netzwerkmodell aufgezeigt. Dieses Beziehungsmuster wurden seither von vielen Autoren weiter präzisiert und verfeinert.
Google Scholar
Im klassischen ERM sind die Konstrukte Generalisierung und Aggregation noch nicht vorhanden. Diese wurden erst von SMITH und SMITH [SmSm771 eingeführt.
Google Scholar
Da die Verhältnisangaben der (1,M,N)-Notation mehrdeutig sind, wurde diese durch die (min,max)-Notation präzisiert. Die (min,max)-Notation ermöglicht die Angabe eines Komplexitätsgrades zwischen einem Entity- und einem Relationship-Typ, der besagt, mit wie vielen Relationships ein entsprechender Entity minimal in Beziehung stehen muß und maximal in Beziehung stehen kann [FeSi01, S. 137 f.].
Google Scholar
Alternativ sind die Kennzahlen eines Würfels auch über einen Relationship-Typ abbildbar [BoHS97, S. 21 ff.]. Dies führt i.d.R. zu einer mehrstelligen Beziehung, bei der die Orthogonalität der Dimensionen durch die paarweisen (M:N)-Beziehungen deutlich wird [GaG198, S. 497]. Teilweise werden Kennzahlen auch einem Dimensions-Entity-Typ zugeordnet [Hahn99, S. 145 ff.], was der strikten Trennung zwischen quantitativen und qualitativen Daten widerspricht.
Google Scholar
Für eine nähere Spezifikation der Dimensionsstrukturen schlagen darüber hinaus GABRIEL und GLUCHOWSKI eine Erweiterung der ursprünglich von CHEN eingeführten Beschreibungselemente durch die Verwendung von Clustern vor [GaG198, S. 498].
Google Scholar
In [AHSZ97, S. 12] werden allerdings die Relationship-Typen nicht mittels Rautensymbolen visualisiert.
Google Scholar
Neben dem spezialisierten Entity-Typ Dimension Level kann auch der reguläre Entity-Typ nach Chen in einem ME/R-Diagramm eingesetzt werden [SBHD98, S. 113]. Der mit dem Rechteckssymbol korrespondierende Typ läßt sich hierbei lediglich aus dem Diagrammkontext erschließen.
Google Scholar
Ein Zyklus entspricht einer geschlossenen Kantenfolge unter Beachtung einer einheitlichen Kantenrichtung zwischen den Elementen.
Google Scholar
Der IRDS (Information Resource Dictionary System)-Standard dient zur einheitlichen Beschreibung von Repository-Systemen und wurde von der ISO (International Organization for Standardization) im Jahre 1990 verabschiedet.
Google Scholar
Neben der Spezifikation multidimensionaler Datenstrukturen auf Basis des ME/RM (das sog. Static Data Model View) soll auch ein Dynamic View, der ähnlich wie bei Use Cases der UML typische Analyseaufgaben der Endbenutzer festhält, und eine Data Source View zur Spezifikation der Struktur operativer Systeme und ihrer Transformation in Data Warehouse-Strukturen enthalten sein [SaBH00].
Google Scholar
Neben der Gültigkeitszeit (Valid Time) wird häufig die Transaktionszeit (Transaction Time) bei der Betrachtung von temporalen Aspekten berücksichtigt [Snod00, S. 11 ff.].
Google Scholar
Anstelle der Begriffe TimePoint, Timelntervall und TimeSet sind meist die Bezeichnungen Instant, Interval und Period gebräuchlich [Snod00, S. 22].
Google Scholar
Der Begriff Star Schema sollte in diesem Zusammenhang nicht mit dem auf der logischen Ebene verwendeten analogen Begriff verwechselt werden.
Google Scholar
Anstelle der formalen Spezifikation in ([GoMR98b], [GoRi98]) wird im folgenden das DFM lediglich informal vorgestellt.
Google Scholar
Konkrete Ausprägungen eines Fact Attributes werden als Fact Instance bezeichnet.
Google Scholar
Die Additivität von Kennzahlen ist ein Spezialfall der beliebigen Aggregierbarkeit von Kennzahlen.
Google Scholar
Weiterhin schlagen die Autoren einen teilautomatisierten Ansatz zur Erzeugung von Dimensional Fact Modellen aus bereits existierenden Entity-Relationship-Modellen der operativen Quellsysteme vor [GoMR98a, S. 338 ff.].
Google Scholar
Mit Hilfe der Funktionssicht beschreibt HOLTHUIS die Verdichtungen zwischen den einzelnen Hierarchiestufen einer Dimension. Ein Beispiel für den Einsatz der Funktionssicht findet sich in HOLTHUIS [Holt98b, S. 179].
Google Scholar
Eine ausführliche Darstellung des MML-Klassendiagramms findet sich in ([Harr99a, S. 45 ff.], [HaHe99, S. 61 ff.]). Diese Vererbungshierarchie unterscheidet zwischen den Bereichen Hilfsklassen, multidimensionaler Kontext, Datenelemente und Verbindungen.
Google Scholar
Beispielsweise werden Sichtbarkeitsangaben überhaupt nicht genutzt, während Angaben zur Multiplizität lediglich bei optionalen Attributen in der Form [0..1] Verwendung finden.
Google Scholar
Associations zwischen mehr als zwei Klassen, die in der UML mit einem Rautensymbol visualisiert werden, sind nicht vorgesehen.
Google Scholar
Bei Fehlen von Kardinalitätsangaben wird O..* für die Multiplizität 1 und 1..1 für die Multiplizität 2 unterstellt (vgl. Abbildung 4.33).
Google Scholar
Da die Primärschlüsselattribute immer auch als Fremdschlüssel in die Fakttabelle aufgenommen werden und bei Anfragen zur Verknüpfung der jeweiligen Tabellen dienen, ist dies aus Performancegründen jedoch nicht zu empfehlen. Neben einer Zunahme der Größe der Fakttabelle ist beim Hinzufügen bzw. Entfernen einzelner Hierarchiestufen in einer Dimensionstabelle immer auch eine Modifikation der Fakttabelle nötig.
Google Scholar
Connelly et al. sprechen in diesem Zusammenhang von intelligenten bzw. nicht intelligenten Fremdschlüsseln [CoBS98, S. 941].
Google Scholar
MCGUPF [McGu98] bezeichnet ein Star Schema mit rekursiver Struktur auch als Simple Vertical Model, während für ihn die denormalisierte Strukturierung ein Simple Horizontal Model ist.
Google Scholar
Teilweise gibt es auch Varianten, bei denen neben der Speicherung von Verdichtungen in den Dimensionstabellen analog auch bereits die Fakttabelle verdichtete Daten enthält.
Google Scholar
Bei Verwendung der denormalisierten Variante und parallelen Hierarchien ist ein numerisches Level-Attribut wenig aussagekräftig, da hierbei noch differenziert werden müßte, welcher Verdichtungsweg innerhalb einer Verdichtungsstufe betrachtet wird [Hahn99, S. 156].
Google Scholar
Diese Formel impliziert, daß die Reihenfolge der Attribute im Index von Bedeutung ist und beliebige Attributkombinationen in den Index aufgenommen werden können
Google Scholar
Eine ausführliche Darstellung von B-Bäumen und deren Varianten sowie wünschenswerte Eigenschaften der jeweiligen Baumstrukturen findet sich u.a. bei [Voss99, S. 448 ff.] und [CoBS98, S. 991 ff.].
Google Scholar
Jürgens und Lenz stellen eine auf neun Kriterien basierende Performance-Studie zum Vergleich von Baum vs. Bitmap Index-Verfahren vor. Das Ergebnis der Studie zeigt, daß die Bitmap Index-Techniken traditionelle baumbasierte Index-Verfahren in naher Zukunft bei Data Warehouse-Anfragen übertreffen werden [JuLe99].
Google Scholar
I.d.R. speichert ein Join Index die Beziehung zwischen einem Fremdschlüssel und dessen korrespondierendem Primärschlüssel [ChDa97, S. 522 f.l. Da in einem Star Schema die Primärschlüsselattribute der Dimensionstabellen als Fremdschlüssel an die Fakttabelle weitergegeben werden, ist der Join Index für den Einsatz bei derartigen Schemata prädestiniert.
Google Scholar
Die in Abschnitt 4.6.1.1 vorgestellten Bitmap Indexe können auch als Join Indexe eingesetzt werden ([Va1d87], [ONGr951).
Google Scholar
Neben diesen beiden elementaren Fragmentierungsstrategien existiert eine hybride Form, die jedoch im Data Warehouse-Umfeld keinerlei Bedeutung besitzt [Rahm94, S. 67 f.l.
Google Scholar
Die Frage, wieviele bzw. welche Sichten zu materialisieren sind, wurde von einer Vielzahl von Autoren im Datenbankumfeld genauer untersucht. Beispielsweise wird in [SDNR96] ein mathematisches Modell vorgeschlagen, um den Speicherplatzbedarf für Aggregate zu berechnen. [HaRU96] schlagen Algorithmen für die Auswahl von Views in Abhängigkeit von Speicherplatzbedarf und der Antwortzeit vor. [Gupt97b] erläutert die Auswahl von Views unter Optimierung der Antwortzeit.
Google Scholar
Die verschiedenen Aggregationsmöglichkeiten können mit der sog. Lattice-Notation anschaulich visualisiert werden. Zu einer Beschriebung dieser Notation siehe [HaRU96].
Google Scholar

Download references

Authors

Michael Böhnlein
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Böhnlein, M. (2001). Modellierung von Data Warehouse-Strukturen. In: Konstruktion semantischer Data-Warehouse-Schemata. DUV Wirtschaftsinformatik. Deutscher Universitätsverlag, Wiesbaden. https://doi.org/10.1007/978-3-663-08649-9_4

Download citation

DOI: https://doi.org/10.1007/978-3-663-08649-9_4
Publisher Name: Deutscher Universitätsverlag, Wiesbaden
Print ISBN: 978-3-8244-2148-0
Online ISBN: 978-3-663-08649-9
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics