Das Data Warehouse: Aufbau und Betrieb

Gehrke, Christian

doi:10.1007/978-3-662-12065-1_3

Christian Gehrke³

Part of the book series: Bankinformatik-Studien ((BANK,volume 7))

75 Accesses

Zusammenfassung

Data Warehouse-Systeme können den Zugriff auf Daten aller Art (inner-, außer- und zwischenbetrieblicher Natur) ermöglichen und Funktionen zur Verarbeitung der Daten anbieten. Innerhalb des Systems nimmt das Data Warehouse selbst die Funktionalität einer Datenbank wahr. Unter Einbeziehung der Ausführungen aus dem Kapitel 2.3 ergibt sich die folgende aufgabenorientierte Definition eines Data Warehouse [nach Gluchowski/Gabriel/Chamoni 97, S. 267]:

Ein Data Warehouse hat die Aufgabe, inhaltsorientiert, integriert und dauerhaft Daten zur Unterstützung von Entscheidem zu sammeln, zu transportieren und zu verteilen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 69.99; Price excludes VAT (USA)

Softcover Book: USD 74.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

In Abschnitt 4.2.3 wird auf externe Informationen eingegangen.
Google Scholar
Beispiele für betriebliche Dimensionen werden im nächsten Abschnitt aufgeführt.
Google Scholar
Kapitel 4.1 geht auf die verschiedenen DWH-Werkzeugarten ein.
Google Scholar
In Abschnitt 3.2.2.1 wird anhand eines DWH-Datenmodells eingegangen auf den datenbanktechnischen Aspekt der Ablage von Dimensionen in der Data Warehouse-Datenbank.
Google Scholar
In [Bartmann/Grebe/Kreuzer 98] wird auf einen fortschrittlichen Kundensegmentierungsansatz eingegangen, der auch Anregungen zum Aufbau einer geeigneten Hierarchie gibt.
Google Scholar
Tabbert geht auf die Problematik der zeitlichen Aggregation und Disaggregation von Bewegungsdaten sehr ausführlich ein und entwickelt eine umfassende und allgemein verwendbare Lösung, die in Form einer umfangreichen C++ Klassenbibliothek umgesetzt wurde [vgl. Tabbert 96].
Google Scholar
Nach einer Schätzung von Kimball können Banken diese Frage nur in etwa 80% der Fälle korrekt beantworten [vgl. Kimball 96, S. 110f]. In der jüngsten Vergangenheit haben sich eine Reihe von Unternehmen mit der Problematik des „Data Cleansing“ auseinandergesetzt und bieten in diesem Bereich umfangreiche Dienstleistungen an. Zum Einsatz kommen hier z.B. Verfahren der Fuzzy-Logic.
Google Scholar
Konkrete Beispiele zur Verkettung von Dimensionen und Abfrage der Nutzdaten finden sich in Kapitel 4. Dort wird ebenfalls detailliert auf die verschiedenen Möglichkeiten zur Darstellung der Nutzdaten eingegangen.
Google Scholar
Der Aufbewahrungsort der DWH-Metadaten wird auch als Data Dictionary oder als Metadaten-Repository bezeichnet [vgl. Bissantz/Hagedorn/Mertens 96, S. 351; Schreier 96, S. 85; Hufford 97].
Google Scholar
Die Beschreibungen der Metadaten des DWH werden im Zuge der Festlegung der Inhalte der DWH-Datenbank von DV-Verantwortlichen und späteren Benutzern zusammen formuliert (vgl. Abschnitt 3.3.1.1). Im Zuge der Abstimmung von DV-Spezialisten und fachlichen Anwendern (und auch der fachlichen Anwender untereinander) werden inkonsistente Fachbegriffe gesammelt und in eine untemehmensweit gültige, in sich konsistente Begriffswelt überführt [vgl. Lehmann/Ellerau 97, S. 2].
Google Scholar
Metadaten, welche die fachliche Semantik der Daten beschreiben, werden als betriebswirtschaftliche Metadaten bezeichnet. im DWH. Die Metadaten werden im DWH abgelegt und zur Unterstützung des Benutzers bei der Navigation durch die Dimensionen und die Dimensionshierarchien herangezogen. Die Abfragetools des Benutzers stützen sich bei der Navigation durch die Datenbestände in einem DWH ausschließlich auf die Metadaten.
Google Scholar
Die im vorigen Abschnitt skizzierte Dimension „Produkte/ Bankmarktleistungen“ kann durch Metadaten noch weiter detailliert werden: Zu den beleglosen Zahlungsverkehrsleistungen gehören beispielsweise der Datenträgeraustausch, Bargeldautomaten und das Homebanking. Zu den Leistungen der Kreditgewährung gehören beispielsweise: Kontokorrentkredit, Diskontkredit, Ratenkredit, Leasing-Kredit und Kreditkarten-Kredit.
Google Scholar
Zu den Data Warehousing-Diensten und den typischen Werkzeugen vgl. Kap. 4.
Google Scholar
Umfangreiche Beispiele zur Metadatenbeschreibung der DWH-Datenbasis bieten [lnmon/Zachman/Geiger 97, S. 253ff].
Google Scholar
Zu den Datenverantwortlichen vgl. Abschnitt 3.3.2.1.
Google Scholar
In Kapitel 3.5 werden die verschiedenen Gestaltungsmöglichkeiten von Data Warehouse-Systemen beschrieben. Zur Verdeutlichung werden dort praxisrelevante Softwarearchitekturen dargestellt und klassifiziert.
Google Scholar
Die Bezeichnung „OLAP-Server“ (oft auch OLAP-Engine) wird häufig im Zusammenhang mit der Verwendung von multidimensionalen DBMS gebraucht. Bei Verwendung von relationalen DBMS spricht man auch oft von sogenannten „Star-Servern”. Auf die Abgrenzung der unterschiedlichen DBMS wird später ausführlich eingegangen. Im folgenden wird das zugrundeliegende DBMS nicht mehr als Einteilungskriterium herangezogen. Der im weiteren Verlauf dieser Arbeit ausschließlich verwendete Begriff „OLAP-Server“ unterwirft sich nicht der o.e. Einteilung und kennzeichnet eine Systemkomponente, welche sich auch in einem System mit zugrundeliegendem relationalen DBMS wiederfinden kann.
Google Scholar
Die Fa. Sybase bietet mit ihrem Produkt „Sybase IQ“ ein auf den DWH-Einsatz hin optimiertes rDBMS an.
Google Scholar
Reuter geht detailliert auf die verschiedenen Einsatzfelder von rDBMS und mDBMS ein [vgl. Reuter 96].
Google Scholar
Die folgenden Beispiele lehnen sich an die in Abschnitt 3.1.1 vorgeschlagenen Dimensionen an. Tab. 3.1 beschreibt exemplarisch die Dimension „Zeit“ als Datenbankrelation. Die anderen Datenbankrelationen gestalten sich gemäß dem Beispiel 3.1.
Google Scholar
Eine Dimension an sich ist nicht „dünn besetzt“ [vergleiche im Gegensatz hierzu Hettler 97, S. 132].
Google Scholar
Die Definition von „großen“ Data Warehouse-Datenbanken ist uneinheitlich. Es wird davon ausgegangen, daß ein Datenvolumen von über einem Terabyte von einem mDBMS nicht mehr gehandhabt werden kann. Oft wird die Datenobergrenze einer physischen multidimensionalen Datenbank schon sehr viel früher gezogen [vgl. Schreier 96, S. 88ff]. Die Meta Group sieht beispielsweise die Obergrenze für den Einsatz von M DBMS schon bei einem Volumen von 40 Gigabyte [vgl. o.V. 97g]. Korrekterweise muß angefügt werden, daß solche Äußerungen oft vor unsachlichem Hintergrund getätigt werden oder falsch interpretiert werden. Richtiger ist es, die Größe der umfangreichsten Dimension in ihrem Verhältnis zu den kleinsten Dimensionen im Data Warehouse als Maßstab anzusetzen. Ist die größte Dimension erheblich größer als die kleinste Dimension, ergeben sich im DWH Verzerrungen weg vorn Idealbild des „einigermaßen symmetrischen” Datenwürfels hin zu „flacheren“ Strukturen, die mit der optimierten Technologie eines rDBMS sicher besser gehandhabt werden können. Diese Voraussetzungen sind häufig in sehr großen oder auch sehr spezialisierten DWH erfüllt.
Google Scholar
Ausführliche Kritik an der Codd’schen Aussage übt Thomsen 97, S. 497ff.
Google Scholar
DWH-Systeme mit solch enger Bindung sind etwa bei Komplettlösungen eines Herstellers zu finden. In Abschnitt 3.5.1 werden die verschiedenen Softwareschichten eines DWH-Systems näher betrachtet.
Google Scholar
Data Warehouse-Systeme, die in operative Systeme eingebunden sind, werden unter der Bezeichnung „Second Generation Data Warehouse“ zusammengefaßt. Ein wesentliches Merkmal dieser Systeme ist die Erweiterung der reinen DWH-Datenbank um einen sogenannten Operational Data Store (ODS).
Google Scholar
Raden bezeichnet den klassischen read-only-OLAP-Zugriff auf DWH-Daten als „Narrow OLAP“ und grenzt dazu den vor allem im Rahmen mit Data Mart-Lösungen gelegentlich anzutreffenden „Broad-OLAP”-Ansatz ab. Im Vordergrund des „Broad OLAP“ steht dabei nicht die Möglichkeit, Datenveränderungen vorzunehmen, sondern vielmehr die Einbindung von komplexen Methoden der Trendanalyse, Zeitreihenprognose usw. [vgl. Raden 97, S. 209f].
Google Scholar
Die Funktionalität des OLAP-Servers ist oft nicht von der DBMS-Funktionalität getrennt.
Google Scholar
Beispielsweise für das Marketing oder das Controlling. Architekturrahmen fir Data Marts [vgl. Kapitel 3.5.2.2; Mimno 97, S. 168ff; Inmon/Zachman/Geiger 97, S. 24–37]. Je nach der verwendeten Datenbankmaschine wird in der Literatur das Online Analytical Processing oft in MOLAP (physisch multidimensionales OLAP, auch POLAP) und ROLAP (relationales OLAP) unterteilt. Während diese Unterteilung vor einigen Jahren aufgrund der eingeschränkten OLAP-Tauglichkeit eines auf einem relationalen DBMS basierenden Systems noch ihre Berechtigung gehabt haben mochte, werden heute oft nur noch zu Marketingzwecken die „MOLAPFähigkeiten“ in den Vordergrund geschoben.
Google Scholar
Kann bei einer nationalen DWH-Datenbank leicht im Zuge der Nacht oder des Wochenendes ein Update durchgeführt werden, ergibt sich bei Zugriffen aus verschiedenen Zeitzonen meist das Problem eines „zu kleinen“ Zeitfensters. Das Transaktionskonzept verschafft hier den rDBMS-basierten DWH-Systemen gegenüber den mDBMS-basierten Systemen einen Vorteil.
Google Scholar
Das Bestandteile des Data Load-Systems werden vielfach auch als ETL-Werkzeuge bezeichnet. ETL steht hierbei für Extraction, Transformation und Load.
Google Scholar
ln einer repräsentativen Untersuchung unter Mitarbeitern aus den Fachabteilungen verschiedener Unternehmen ging die Mehrzahl der befragten Personen von der Notwendigkeit eines täglichen Refresh der Data Warehouse-Datenbank aus [vgl. Fasching 95, S. 255–262; Breitner/Herzog 96, S. 46].
Google Scholar
Obwohl die Qualität der Daten im DWH unbestreitbar von hohem Wert für die Unternehmung ist, sollte der „Grad der Datenwahrheit“ sich am Kosten- Nutzen-Verhältnis orientieren. Beispielsweise wird ein falscher oder fehlender Fact-Wert in einem Datensatz auf einer niedrigen Hierarchieebene bei einer Abfrage nach aggregierten Daten zumeist keinen „großen” Schaden anrichten. Bei sporadischen Umsatzverläufen gewinnt ein Fehler bei detaillierter Betrachtung dagegen schon sehr an Bedeutung.
Google Scholar
Der aufgeführte Data Load beschränkt sich auf den Einsatz in mehrschichtigen Softwarearchitekturen, die in Abschnitt 3.5.1 ausführlich beschrieben werden.
Google Scholar
Nach Expertenschätzungen sind heutzutage immer noch mehr als 70 Prozent der Unternehmensdaten in nichtrelationalen Datenbanken auf Legacy-Systemen abgelegt [vgl. Kalakota/Whinston 96, S. 468].
Google Scholar
Die ACID-Bedingungen (Atomicity, Consistency, Isolation, Durability) müssen zur Abwicklung von elementaren rücksetzbaren Transaktionen eingehalten werden [vgl. Ferstl/Sinz 93, S. 350f]. blem dar. Sind - wie oben bereits angesprochen - die Quelldatenformate nicht bekannt, so ist der Einsatz von unterschiedlichen aufwendigen Extraktionswerkzeugen erforderlich [vgl. Mimno 97, S. 170ff].
Google Scholar
Die Inhalte einer Vielzahl von unterschiedlichen DBMS-Typen abzugleichen bedeutet einen sehr großen Aufwand. Zur Sicherung einer konsistenten DWH-Datenbasis müssen die Attribute jedes einzelnen beteiligten Quellsystems in ihrer Bedeutung abgeglichen und in ihrem Umfang bereinigt werden. Man spricht in diesem Zusammenhang vom „Daten-schrubben“ (Data Scrubbing). Die New York Chase Manhattan Bank hatte beim Start ihres DWH-Projektes die Inhalte von 54 verschiedenen Datenbasen (die zum großen Teil von unterschiedlichen DBMS verwaltet wurden) und Flat Files abzugleichen [vgl. Rother 95, S. 3].
Google Scholar
Innerhalb eines Data Warehouse-Projektes wird der Planung und Durchführung der Datenübernahme aus den Quellsystemen mit Abstand der größte zeitliche und damit auch monetäre Aufwand zugerechnet [vgl. Devlin 97, S. 21; Schinzer 97]. wortlichen sind zur zügigen Realisierung des Projektes die Inhalte des DWH festzulegen. In der Regel erfreuen sich DWH-Systeme nach erfolgreicher Implementation eines großen Zuspruchs von seiten der Benutzer. Die neuen Anforderungen bezüglich Ergänzungen und Erweiterungen des Systems müssen gesammelt und regelmäßi§ von einer Institution in die Pläne zum Ausbau des DWH eingearbeitet werden8. Ein DWH lebt von der Akzeptanz seiner Benutzer. Die Inhalte des DWH werden dementsprechend im Zeitablauf ständig angepaßt werden müssen.
Google Scholar
Die Einrichtung und auch die laufende Planung der Inhalte eines Data Warehouse müssen einer festen Institution unterliegen. Kimball definiert dazu verschiedene Stellen [vgl. Kimball 96, S. 228f].
Google Scholar
In der Praxis wird dies mit der Bezeichnung „User-Centric Warehousing“ umschrieben.
Google Scholar
Die in diesem Abschnitt aufgeführten Methoden zur Bestimmung und Auswertung des Informationsbedarfs wurden unter anderem ausgewählt nach einer im Februar 1997 durchgeführten Maillist-Diskussion mit neun Experten im Data Warehouse-Bereich.
Google Scholar
Eine der ersten Data Warehouse-Implementationen im europäischen Bankbereich wurde um 1990 von der niederländischen ABN AMRO Bank abgeschlossen. Besonders großer Wert wurde bei der Implementierung auf die Erfüllung der Benutzerbedürfnisse gelegt. Das DWH-System wurde schon vom Start weg gut angenommen und konnte in den Folgejahren eine jährliche Steigerung der Nutzung von ca. 50% verzeichnen [vgl. Devlin 97, S. 13]. ken [vgl. Rockart 79; Heinrich 92, S. 325ff; Bullinger/Niemeyer/Koll 93, S. 56].
Google Scholar
Zu den bankinternen operativen Quellsystemen zählen beispielsweise unter anderem die verschiedenen Abrechnungs-und Buchungssysteme, das Personalsystem, Kundenkontaktsysteme, Systeme zur Bereichs-Ergebnisrechnung und zur Kostenstellenrechnung.
Google Scholar
Zur Entwicklung und Weiterentwicklung eines Data Warehouse-Systems werden verschiedene spezielle Software Lifecycle-Modelle vorgeschlagen [vgl. B.Devlin, Bullinger et al. 95].
Google Scholar
Eine DV-zentrierte Denkweise führte in den siebziger Jahre in die MIS-Krise („Wenn die Fachabteilungen diese Funktionen/Daten haben, werde sie diese schon verwenden“).
Google Scholar
Oben wurde bereits diese Bildung von „lokaler DV-Kompetenz“ als eine der Ursachen zur Entwicklung des „Spider Net Environment” erkannt (vgl. Abschnitt 2.3.1).
Google Scholar
In Abschnitt 3.2.2.2 wurde darauf hingewiesen, daß physisch multidimensionale DBMS sehr häufig ebenfalls Funkionen eines OLAP-Servers übernehmen und deshalb auch oft einfach als OLAP-Server bezeichnet werden.
Google Scholar
Dies ist gleichbedeutend mit dem Übergang vom „Fat Client“ zum „Thin Client” (vgl. Abschnitt 3.5.1). Diese auch als „Client-Server-Systeme“ diskutierten, gemischten Architekturen lassen sich in mehrere Schichten unterteilen [vgl. Gluchowski/Gabriel/Chamoni 97, S. 113ff; SaylorBansal 95, S. 5f; Meyer 93, S. 81ff]
Google Scholar
Dies ist regelmäßig bei Programmen unter der graphischen Benutzeroberfläche Windows der Fall.
Google Scholar
Eine Aufteilung in drei Schichten bietet große Vorteile bezüglich Administrierbarkeit, Sicherheit, Skalierbarkeit und Leistungsfähigkeit.
Google Scholar
In Abschnitt 3.2.2 wurde bereits beispielhaft auf das mDBMS eingegangen. Dieses kann häufig die Trennung zwischen Präsentations-und Applikationsschicht nicht durchgängig aufrechterhalten. Die sich daraus ergebende mangelnde Skalierbarkeit kann Leistungseinbußen nach sich ziehen. Kommt ein relationales Datenbanksystem zum Einsatz, verwendet der OLAP-Server die Sprache SQL zur Anforderungen von Daten aus der DWH-Datenbank. Die Daten werden vom rDBMS als eine Menge von Datensätzen zurückgeliefert. Bei Einsatz von mDBMS wird die Datenanforderung mittels eines proprietären Abfrageprotokolls vorgenommen (vgl. Abschnitt 3.2.2.2). Die Datenlieferung erfolgt meist als multidimensionale Menge von Feldern.
Google Scholar
Beispiele zur DWH-Datenmodellierung bei Verwendung eines rDBMS finden sich in Abschnitt 3.2.2.1.
Google Scholar
Vgl. Beschreibung des PDES bzw. ETL in Abschnitt 3.2.3.
Google Scholar
Devlin spricht in diesem Zusammenhang von „reconciled data“, von „in Einklang” gebrachte Daten [vgl. Devlin 97, S. 69ff].
Google Scholar
Die von Devlin vorgeschlagene dreischichtige DWH-Datenarchitektur wird heute noch kaum eingesetzt [vgl. Devlin 97, S. 68]. Die Umsetzbarkeit einer UDM wird vielfach angezweifelt [vgl. Sinz 95].
Google Scholar
Ein in einer Bank eingesetztes Data Mart-System zur Analyse von Kreditkartendaten mit einer Datenbankgröße von mehreren hundert Gigabytes wird wegen der extremen funktionalen Fokussierung nicht als Data Warehouse verstanden.
Google Scholar
Eingesetzt wurde der Microsoft SQL Server in der Version 6.5.
Google Scholar
RMI (Remote Method invocation) ist fester Bestandteil des Java Development Kit (JDK) ab der Version 1.1 und ermöglicht den Aufbau von JAVA-basierten Client-ServerSystemen [vgl. Lipp 98, S. 31 ff].
Google Scholar
Die JDBC-Schnittstelle ist im Prinzip vergleichbar mit der ODBC-Schnittstelle der Fa. Microsoft (Open Database Connectivity) und ist standardmäßig ab der Version 1.1 im JDK enthalten [vgl. Lipp 98, S. 34ff].
Google Scholar

Download references

Author information

Authors and Affiliations

Truderinger Straße 148c, D-81825, München, Deutschland
Dr. Christian Gehrke

Authors

Dr. Christian Gehrke
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Gehrke, C. (2000). Das Data Warehouse: Aufbau und Betrieb. In: Informationsagenten im Data Warehousing. Bankinformatik-Studien, vol 7. Physica, Heidelberg. https://doi.org/10.1007/978-3-662-12065-1_3

Download citation

DOI: https://doi.org/10.1007/978-3-662-12065-1_3
Publisher Name: Physica, Heidelberg
Print ISBN: 978-3-7908-1301-2
Online ISBN: 978-3-662-12065-1
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics