Skip to main content

Part of the book series: DUV Wirtschaftsinformatik ((FBWI))

  • 127 Accesses

Zusammenfassung

Beim Aufbau von Data Warehouse-Systemen ist vor allem der Konstruktion eines Schemas für die im Data Warehouse enthaltenen multidimensional strukturierten Datenbestände eine enorme Bedeutung beizumessen. Gegenstand dieses Kapitels ist es daher, zum einen die wesentlichen Grundkenntnisse bei der Modellierung von Data Warehouse-Strukturen aufzuzeigen und zum anderen aufbauend auf dieses Grundverständnis Schwächen existierender Modellierungsansätze herauszuarbeiten. Der Schwerpunkt der Ausführungen liegt dabei auf dem konzeptuellen Entwurf von Data Warehouse-Strukturen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 59.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. In Hammel [Hamm99, S. 5 ff.], sowie in Hammel, SCFnd7T und Wolf [HaSW99, S. 22 ff.] findet sich eine ausführliche Diskussion der Entwicklungshistorie des Modellbegriffs. Dabei wird vor allem der konstruktivistische Modellbegriff für die Wirtschaftsinformatik herausgearbeitet.

    Google Scholar 

  2. Umgangssprachlich wird häufig das Modell-bzw. Bildsystem ebenfalls als Modell bezeichnet.

    Google Scholar 

  3. Ist eine Modellabbildung ohne Verlust in beide Richtungen möglich, d.h. umkehrbar eindeutig bzw. eineindeutig, so liegt Isomorphie vor ([Niem95, S. 59], [Zsch95, S. 258]). Sie ermöglicht einen vollständigen Rückschluß von Modellsystem und Modellabbildung auf das zugehörige Objektsystem. Allerdings führt eine isomorphe Abbildung zu keiner Strukturvereinfachung. Vielmehr liegt eine Strukturgleichheit zwischen Objekt- und Modellsystem vor.

    Google Scholar 

  4. Eine detaillierte Betrachtung der beiden Problemtypen Konstruktionsproblem und Analyseproblem findet sich bei FERSTL [Fers92, S. 44 ff.].

    Google Scholar 

  5. Ein historischer Abriß über die Metapher findet sich in Hammel [Hamm99, S. 34 ff.]. Dort werden weiterhin auch fünf Theorien über die Metapher (die Substitutions-, Vergleichs-, Anomalie-, Emotive und Interaktionstheorie) ausführlich vorgestellt.

    Google Scholar 

  6. Die Forderung nach Struktur- und Verhaltenstreue bei der Modellabbildung wurde bereits anhand der Isomorphie-bzw. Homomorphieeigenschaft in Abschnitt 4.1.1 kurz vorgestellt.

    Google Scholar 

  7. Während bei nominalskalierten Merkmalen die Reihenfolge der Ausprägungen keine Rolle spielt, z.B. männlich und weiblich bei Geschlecht, sollte bei ordinal, intervall-bzw. verhältnisskalierten Merkmalen die implizit vorgegebene Reihenfolge bzw. der Abstand bei der Darstellung berücksichtigt werden.

    Google Scholar 

  8. Da bereits Tabellenkalkulationsprogramme mit ihrer Kalkulationsblattmetapher gewissermaßen einen zweidimensionalen Ausschnitt aus einem mehrdimensionalen Würfel nachbilden, unterstützen diese schon das Grundprinzip der multidimensionalen Betrachtungsweise [JaGK96, S. 322]. „... the concept has been around as long as end-user computing, starting in the 1960’s with products like Expresss and APL. And even the lowly spreadsheet is a multidimensional model, albeit a two-dimensional one.“ [Rade96a]

    Google Scholar 

  9. Shoshani und Rafanelli [ShRa91] sprechen bei einer Zuordnung von Dimensionen auch von einer Fixierung der Kennzahl durch die Dimension. Durch die Verknüpfung von Kennzahlen mit Dimensionen sind diese gewissermaßen „fixed in place“. Da außerdem eine Zeitdimension fast immer vorhanden ist [GaGl98, S. 495], sprechen sie weiterhin auch von „fixed in time”.

    Google Scholar 

  10. Auch wenn nur ein geometrisches Gebilde mit gleicher Kantenlänge im mathematischen Sinne als Würfel bezeichnet wird (ansonsten spricht man von einem Quader), sollen im folgenden die im Data Warehouse-Umfeld für drei-bzw. mehrdimensionale Strukturen verwendeten Begriffe Würfel bzw. Hyperwürfel weiter verwendet werden.

    Google Scholar 

  11. Neben der Höhe und Tiefe wird im multidimensionalen Umfeld häufig auch die Breite eines Baums problematisiert, die die maximale Anzahl der Dimensionselemente auf einer Hierarchiestufe zählt [GaG198, S. 495]. Die Breite ist folglich ein Maß für die Komplexität der Dimension auf Ausprägungsebene.

    Google Scholar 

  12. McGuFF spricht auch von einer alternativen Hierarchie [McGu98].

    Google Scholar 

  13. Die Tiefe eines Knotens wird über die Anzahl der Kanten ausgehend vom jeweiligen Wurzelknoten bestimmt.

    Google Scholar 

  14. Auch die häufig verwendete Definition eines nicht ausgeglichenen Baums ([Oehl00, S. 70], [Holt98b, S. 160 f.]) impliziert als Gegenteil einen ausgeglichenen Baum. Ein ausgeglichener Baum ist jedoch als abgeschwächte Form einer vollständig ausgeglichenen Baumstruktur definiert, bei der sich die Pfadlängen um nicht mehr als Eins unterscheiden [Wirt86, S. 2051

    Google Scholar 

  15. Jede Heterarchie ist gleichzeitig auch eine Quasi-Hierarchie, da der zugrundeliegende Graph gerichtet und azyklisch ist. Jede Quasi-Hierarchie ist jedoch nicht zwangsläufig eine Heterarchie, da die Heterarchie analog zur Baumstruktur nur einen Wurzelknoten besitzt.

    Google Scholar 

  16. Lenzerini und Shoshani verwenden anstelle von Aggregierbarkeit den Begriff Summarizability. Auch die übrigen, im Originaltext verwendeten Begriffe wurden bei der Erläuterung an die in Abschnitt 4.2.1 und Abschnitt 4.2.2 eingeführte Terminologie angepaßt.

    Google Scholar 

  17. Zum Teil wird auch der Operator Drill Within verwendet, die im Gegensatz zu Drill Down bzw. Roll Up in einem einzelnen Schritt die Navigation über mehrere Hierarchiestufen hinweg ermöglicht.

    Google Scholar 

  18. Die Verringerung der Dimensionalität entspricht einer Filterung, bei der bei einer Dimension nur ein einzelnes Datenelement ausgewählt wird.

    Google Scholar 

  19. Im zweidimensionalen Fall beinhaltet dies das Vertauschen von Dimensionen in Zeilen und Spalten ei- ner Matrix bzw. dem Verschieben einer Dimension aus den Spalten in die Zeilen und umgekehrt.

    Google Scholar 

  20. Zu diesen Operatoren zählen u.a. Drill Across, Drill Aside und Drill Anywhere [Kurz99, S. 338].

    Google Scholar 

  21. Lediglich im SSDB-Bereich, der gewisse Ähnlichkeiten mit dem Data Warehousing aufweist, findet sich ein Ansatz in [MeRS92], einen Beweis der Vollständigkeit in Analogie zur relationalen Vollständigkeit [Codd72l zu führen.

    Google Scholar 

  22. Connolly beschreibt die logische Entwurfsebene folgendermaßen: „The process of constructing a model of the information... based on a specific data model, but independent of a particular DBMS and other physical considerations.“ [CoBS98, S. 227]

    Google Scholar 

  23. Die Unterscheidung zwischen Kennzahlen und Dimensionen wird in der Praxis häufig durch eine sog. Variablendimension umgangen, die einzelne Kennzahlen als Dimensionselemente einer Variablendimension interpretiert. „Some OLAP servers treat variables as a special dimension.“ [Pilo98]

    Google Scholar 

  24. Wäre diese Annahme verletzt, müßten die Definitionen der vorliegenden Kennzahlen geändert werden, da dann ein Student nicht nur physisch einmal, sondern einmal pro eingeschriebenem Studienfach gezählt werden müßte. Diese Trennung spiegelt sich auch im Begriffspaar Studenten-vs. Fachstatistik wieder.

    Google Scholar 

  25. Neben den vorzustellenden Modellierungsansätzen für den SSDB-Bereich mit einer semiformalen, graphenbasierten Darstellung, existiert noch eine Vielzahl von Ansätzen, die lediglich eine formale mathematische Spezifikation bieten und daher als Diskussionsgrundlage für Fach- und Führungskräfte nur unzureichend geeignet erscheinen. Zu diesen Ansätzen gehören u.a. Conceptual Statistical Model (CSM) [BaBa88], System for Statistical Databases (SSDB) [Oz0z83], Statistical Relational Model (SRM) [Ghos84] und Statistical Data Model Based on 4 Schema Concept (SDM4S) [SNFH86].

    Google Scholar 

  26. Da der Schwerpunkt von SAM* auf der Modellierung wissenschaftlicher und statistischer Datenbanken und nicht auf der Erweiterung klassischer Datenmodellierungsmethoden für das Data Warehousing liegt, erfolgt seine Einordnung an dieser Stelle.

    Google Scholar 

  27. Eine ausführliche Darstellung der strukturellen Eigenschaften, Integritätsbedingungen und möglichen Operationen auf die verschiedenen Assoziationstypen enthält [Su83, S. 157 ff.].

    Google Scholar 

  28. Während Aggregation Associations zur Modellierung von Beziehungen zwischen existenzabhängigen Concepts verwendet werden können, ermöglichen Interaction Association die Verknüpfung von existenzunabhängigen Concepts.

    Google Scholar 

  29. Eine Relation gemäß relationalem Datenbankmodell kann als ein Spezialfall einer G-Relation betrachtet werden, wenn die folgenden zwei Bedingungen eingehalten werden [Su83, S. 187].

    Google Scholar 

  30. C(1) bis C(n) bezeichnen die einzelnen Kategorieattribute der Menge C aller Kategorieattribute. Die funktionale Abbildung wird durch den Doppelpunkt (:) symbolisiert.

    Google Scholar 

  31. Es existieren jedoch zwei Sonderfälle: Geht nur ein C-Knoten in den S-Knoten ein, handelt es sich um eine eindimensionale Darstellung. Wenn kein Knoten in einen S-Knoten einmündet, liegt lediglich ein konkreter Summenwert vor, dessen Kontext über den Namen des Statistical Objects erläutert wird [ShRa91].

    Google Scholar 

  32. Eine Ausnahme stellt die sog. C-Knoten Partitionierung dar. Hierbei wird ein Kategorieattribut, z.B. Berufsgruppe, in weitere Unterkategorien, wie z.B. Wissenschaftler, Sekretär usw., aufgespalten. Das zugehörige Statistical Object wird als Non-homogeneous Statistical Object bezeichnet [ShRa9l].

    Google Scholar 

  33. Bei Einhaltung der beiden Bedingungen spricht man von sog. Well-Formed Statistical Objects. Die Wohlgeformtheit eines Statistical Objects ist eine notwendige, aber keine hinreichende Bedingung für Summierbarkeit.

    Google Scholar 

  34. Im Artikel von CHEN sind bereits die grundsätzlichen Zusammenhänge zwischen ERM und Relationenmodell bzw. Netzwerkmodell aufgezeigt. Dieses Beziehungsmuster wurden seither von vielen Autoren weiter präzisiert und verfeinert.

    Google Scholar 

  35. Im klassischen ERM sind die Konstrukte Generalisierung und Aggregation noch nicht vorhanden. Diese wurden erst von SMITH und SMITH [SmSm771 eingeführt.

    Google Scholar 

  36. Da die Verhältnisangaben der (1,M,N)-Notation mehrdeutig sind, wurde diese durch die (min,max)-Notation präzisiert. Die (min,max)-Notation ermöglicht die Angabe eines Komplexitätsgrades zwischen einem Entity- und einem Relationship-Typ, der besagt, mit wie vielen Relationships ein entsprechender Entity minimal in Beziehung stehen muß und maximal in Beziehung stehen kann [FeSi01, S. 137 f.].

    Google Scholar 

  37. Alternativ sind die Kennzahlen eines Würfels auch über einen Relationship-Typ abbildbar [BoHS97, S. 21 ff.]. Dies führt i.d.R. zu einer mehrstelligen Beziehung, bei der die Orthogonalität der Dimensionen durch die paarweisen (M:N)-Beziehungen deutlich wird [GaG198, S. 497]. Teilweise werden Kennzahlen auch einem Dimensions-Entity-Typ zugeordnet [Hahn99, S. 145 ff.], was der strikten Trennung zwischen quantitativen und qualitativen Daten widerspricht.

    Google Scholar 

  38. Für eine nähere Spezifikation der Dimensionsstrukturen schlagen darüber hinaus GABRIEL und GLUCHOWSKI eine Erweiterung der ursprünglich von CHEN eingeführten Beschreibungselemente durch die Verwendung von Clustern vor [GaG198, S. 498].

    Google Scholar 

  39. In [AHSZ97, S. 12] werden allerdings die Relationship-Typen nicht mittels Rautensymbolen visualisiert.

    Google Scholar 

  40. Neben dem spezialisierten Entity-Typ Dimension Level kann auch der reguläre Entity-Typ nach Chen in einem ME/R-Diagramm eingesetzt werden [SBHD98, S. 113]. Der mit dem Rechteckssymbol korrespondierende Typ läßt sich hierbei lediglich aus dem Diagrammkontext erschließen.

    Google Scholar 

  41. Ein Zyklus entspricht einer geschlossenen Kantenfolge unter Beachtung einer einheitlichen Kantenrichtung zwischen den Elementen.

    Google Scholar 

  42. Der IRDS (Information Resource Dictionary System)-Standard dient zur einheitlichen Beschreibung von Repository-Systemen und wurde von der ISO (International Organization for Standardization) im Jahre 1990 verabschiedet.

    Google Scholar 

  43. Neben der Spezifikation multidimensionaler Datenstrukturen auf Basis des ME/RM (das sog. Static Data Model View) soll auch ein Dynamic View, der ähnlich wie bei Use Cases der UML typische Analyseaufgaben der Endbenutzer festhält, und eine Data Source View zur Spezifikation der Struktur operativer Systeme und ihrer Transformation in Data Warehouse-Strukturen enthalten sein [SaBH00].

    Google Scholar 

  44. Neben der Gültigkeitszeit (Valid Time) wird häufig die Transaktionszeit (Transaction Time) bei der Betrachtung von temporalen Aspekten berücksichtigt [Snod00, S. 11 ff.].

    Google Scholar 

  45. Anstelle der Begriffe TimePoint, Timelntervall und TimeSet sind meist die Bezeichnungen Instant, Interval und Period gebräuchlich [Snod00, S. 22].

    Google Scholar 

  46. Der Begriff Star Schema sollte in diesem Zusammenhang nicht mit dem auf der logischen Ebene verwendeten analogen Begriff verwechselt werden.

    Google Scholar 

  47. Anstelle der formalen Spezifikation in ([GoMR98b], [GoRi98]) wird im folgenden das DFM lediglich informal vorgestellt.

    Google Scholar 

  48. Konkrete Ausprägungen eines Fact Attributes werden als Fact Instance bezeichnet.

    Google Scholar 

  49. Die Additivität von Kennzahlen ist ein Spezialfall der beliebigen Aggregierbarkeit von Kennzahlen.

    Google Scholar 

  50. Weiterhin schlagen die Autoren einen teilautomatisierten Ansatz zur Erzeugung von Dimensional Fact Modellen aus bereits existierenden Entity-Relationship-Modellen der operativen Quellsysteme vor [GoMR98a, S. 338 ff.].

    Google Scholar 

  51. Mit Hilfe der Funktionssicht beschreibt HOLTHUIS die Verdichtungen zwischen den einzelnen Hierarchiestufen einer Dimension. Ein Beispiel für den Einsatz der Funktionssicht findet sich in HOLTHUIS [Holt98b, S. 179].

    Google Scholar 

  52. Eine ausführliche Darstellung des MML-Klassendiagramms findet sich in ([Harr99a, S. 45 ff.], [HaHe99, S. 61 ff.]). Diese Vererbungshierarchie unterscheidet zwischen den Bereichen Hilfsklassen, multidimensionaler Kontext, Datenelemente und Verbindungen.

    Google Scholar 

  53. Beispielsweise werden Sichtbarkeitsangaben überhaupt nicht genutzt, während Angaben zur Multiplizität lediglich bei optionalen Attributen in der Form [0..1] Verwendung finden.

    Google Scholar 

  54. Associations zwischen mehr als zwei Klassen, die in der UML mit einem Rautensymbol visualisiert werden, sind nicht vorgesehen.

    Google Scholar 

  55. Bei Fehlen von Kardinalitätsangaben wird O..* für die Multiplizität 1 und 1..1 für die Multiplizität 2 unterstellt (vgl. Abbildung 4.33).

    Google Scholar 

  56. Da die Primärschlüsselattribute immer auch als Fremdschlüssel in die Fakttabelle aufgenommen werden und bei Anfragen zur Verknüpfung der jeweiligen Tabellen dienen, ist dies aus Performancegründen jedoch nicht zu empfehlen. Neben einer Zunahme der Größe der Fakttabelle ist beim Hinzufügen bzw. Entfernen einzelner Hierarchiestufen in einer Dimensionstabelle immer auch eine Modifikation der Fakttabelle nötig.

    Google Scholar 

  57. Connelly et al. sprechen in diesem Zusammenhang von intelligenten bzw. nicht intelligenten Fremdschlüsseln [CoBS98, S. 941].

    Google Scholar 

  58. MCGUPF [McGu98] bezeichnet ein Star Schema mit rekursiver Struktur auch als Simple Vertical Model, während für ihn die denormalisierte Strukturierung ein Simple Horizontal Model ist.

    Google Scholar 

  59. Teilweise gibt es auch Varianten, bei denen neben der Speicherung von Verdichtungen in den Dimensionstabellen analog auch bereits die Fakttabelle verdichtete Daten enthält.

    Google Scholar 

  60. Bei Verwendung der denormalisierten Variante und parallelen Hierarchien ist ein numerisches Level-Attribut wenig aussagekräftig, da hierbei noch differenziert werden müßte, welcher Verdichtungsweg innerhalb einer Verdichtungsstufe betrachtet wird [Hahn99, S. 156].

    Google Scholar 

  61. Diese Formel impliziert, daß die Reihenfolge der Attribute im Index von Bedeutung ist und beliebige Attributkombinationen in den Index aufgenommen werden können

    Google Scholar 

  62. Eine ausführliche Darstellung von B-Bäumen und deren Varianten sowie wünschenswerte Eigenschaften der jeweiligen Baumstrukturen findet sich u.a. bei [Voss99, S. 448 ff.] und [CoBS98, S. 991 ff.].

    Google Scholar 

  63. Jürgens und Lenz stellen eine auf neun Kriterien basierende Performance-Studie zum Vergleich von Baum vs. Bitmap Index-Verfahren vor. Das Ergebnis der Studie zeigt, daß die Bitmap Index-Techniken traditionelle baumbasierte Index-Verfahren in naher Zukunft bei Data Warehouse-Anfragen übertreffen werden [JuLe99].

    Google Scholar 

  64. I.d.R. speichert ein Join Index die Beziehung zwischen einem Fremdschlüssel und dessen korrespondierendem Primärschlüssel [ChDa97, S. 522 f.l. Da in einem Star Schema die Primärschlüsselattribute der Dimensionstabellen als Fremdschlüssel an die Fakttabelle weitergegeben werden, ist der Join Index für den Einsatz bei derartigen Schemata prädestiniert.

    Google Scholar 

  65. Die in Abschnitt 4.6.1.1 vorgestellten Bitmap Indexe können auch als Join Indexe eingesetzt werden ([Va1d87], [ONGr951).

    Google Scholar 

  66. Neben diesen beiden elementaren Fragmentierungsstrategien existiert eine hybride Form, die jedoch im Data Warehouse-Umfeld keinerlei Bedeutung besitzt [Rahm94, S. 67 f.l.

    Google Scholar 

  67. Die Frage, wieviele bzw. welche Sichten zu materialisieren sind, wurde von einer Vielzahl von Autoren im Datenbankumfeld genauer untersucht. Beispielsweise wird in [SDNR96] ein mathematisches Modell vorgeschlagen, um den Speicherplatzbedarf für Aggregate zu berechnen. [HaRU96] schlagen Algorithmen für die Auswahl von Views in Abhängigkeit von Speicherplatzbedarf und der Antwortzeit vor. [Gupt97b] erläutert die Auswahl von Views unter Optimierung der Antwortzeit.

    Google Scholar 

  68. Die verschiedenen Aggregationsmöglichkeiten können mit der sog. Lattice-Notation anschaulich visualisiert werden. Zu einer Beschriebung dieser Notation siehe [HaRU96].

    Google Scholar 

Download references

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2001 Springer Fachmedien Wiesbaden

About this chapter

Cite this chapter

Böhnlein, M. (2001). Modellierung von Data Warehouse-Strukturen. In: Konstruktion semantischer Data-Warehouse-Schemata. DUV Wirtschaftsinformatik. Deutscher Universitätsverlag, Wiesbaden. https://doi.org/10.1007/978-3-663-08649-9_4

Download citation

  • DOI: https://doi.org/10.1007/978-3-663-08649-9_4

  • Publisher Name: Deutscher Universitätsverlag, Wiesbaden

  • Print ISBN: 978-3-8244-2148-0

  • Online ISBN: 978-3-663-08649-9

  • eBook Packages: Springer Book Archive

Publish with us

Policies and ethics