Skip to main content

Das Data Warehouse: Aufbau und Betrieb

  • Chapter
Informationsagenten im Data Warehousing

Part of the book series: Bankinformatik-Studien ((BANK,volume 7))

  • 75 Accesses

Zusammenfassung

Data Warehouse-Systeme können den Zugriff auf Daten aller Art (inner-, außer- und zwischenbetrieblicher Natur) ermöglichen und Funktionen zur Verarbeitung der Daten anbieten. Innerhalb des Systems nimmt das Data Warehouse selbst die Funktionalität einer Datenbank wahr. Unter Einbeziehung der Ausführungen aus dem Kapitel 2.3 ergibt sich die folgende aufgabenorientierte Definition eines Data Warehouse [nach Gluchowski/Gabriel/Chamoni 97, S. 267]:

Ein Data Warehouse hat die Aufgabe, inhaltsorientiert, integriert und dauerhaft Daten zur Unterstützung von Entscheidem zu sammeln, zu transportieren und zu verteilen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 69.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 74.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. In Abschnitt 4.2.3 wird auf externe Informationen eingegangen.

    Google Scholar 

  2. Beispiele für betriebliche Dimensionen werden im nächsten Abschnitt aufgeführt.

    Google Scholar 

  3. Kapitel 4.1 geht auf die verschiedenen DWH-Werkzeugarten ein.

    Google Scholar 

  4. In Abschnitt 3.2.2.1 wird anhand eines DWH-Datenmodells eingegangen auf den datenbanktechnischen Aspekt der Ablage von Dimensionen in der Data Warehouse-Datenbank.

    Google Scholar 

  5. In [Bartmann/Grebe/Kreuzer 98] wird auf einen fortschrittlichen Kundensegmentierungsansatz eingegangen, der auch Anregungen zum Aufbau einer geeigneten Hierarchie gibt.

    Google Scholar 

  6. Tabbert geht auf die Problematik der zeitlichen Aggregation und Disaggregation von Bewegungsdaten sehr ausführlich ein und entwickelt eine umfassende und allgemein verwendbare Lösung, die in Form einer umfangreichen C++ Klassenbibliothek umgesetzt wurde [vgl. Tabbert 96].

    Google Scholar 

  7. Nach einer Schätzung von Kimball können Banken diese Frage nur in etwa 80% der Fälle korrekt beantworten [vgl. Kimball 96, S. 110f]. In der jüngsten Vergangenheit haben sich eine Reihe von Unternehmen mit der Problematik des „Data Cleansing“ auseinandergesetzt und bieten in diesem Bereich umfangreiche Dienstleistungen an. Zum Einsatz kommen hier z.B. Verfahren der Fuzzy-Logic.

    Google Scholar 

  8. Konkrete Beispiele zur Verkettung von Dimensionen und Abfrage der Nutzdaten finden sich in Kapitel 4. Dort wird ebenfalls detailliert auf die verschiedenen Möglichkeiten zur Darstellung der Nutzdaten eingegangen.

    Google Scholar 

  9. Der Aufbewahrungsort der DWH-Metadaten wird auch als Data Dictionary oder als Metadaten-Repository bezeichnet [vgl. Bissantz/Hagedorn/Mertens 96, S. 351; Schreier 96, S. 85; Hufford 97].

    Google Scholar 

  10. Die Beschreibungen der Metadaten des DWH werden im Zuge der Festlegung der Inhalte der DWH-Datenbank von DV-Verantwortlichen und späteren Benutzern zusammen formuliert (vgl. Abschnitt 3.3.1.1). Im Zuge der Abstimmung von DV-Spezialisten und fachlichen Anwendern (und auch der fachlichen Anwender untereinander) werden inkonsistente Fachbegriffe gesammelt und in eine untemehmensweit gültige, in sich konsistente Begriffswelt überführt [vgl. Lehmann/Ellerau 97, S. 2].

    Google Scholar 

  11. Metadaten, welche die fachliche Semantik der Daten beschreiben, werden als betriebswirtschaftliche Metadaten bezeichnet. im DWH. Die Metadaten werden im DWH abgelegt und zur Unterstützung des Benutzers bei der Navigation durch die Dimensionen und die Dimensionshierarchien herangezogen. Die Abfragetools des Benutzers stützen sich bei der Navigation durch die Datenbestände in einem DWH ausschließlich auf die Metadaten.

    Google Scholar 

  12. Die im vorigen Abschnitt skizzierte Dimension „Produkte/ Bankmarktleistungen“ kann durch Metadaten noch weiter detailliert werden: Zu den beleglosen Zahlungsverkehrsleistungen gehören beispielsweise der Datenträgeraustausch, Bargeldautomaten und das Homebanking. Zu den Leistungen der Kreditgewährung gehören beispielsweise: Kontokorrentkredit, Diskontkredit, Ratenkredit, Leasing-Kredit und Kreditkarten-Kredit.

    Google Scholar 

  13. Zu den Data Warehousing-Diensten und den typischen Werkzeugen vgl. Kap. 4.

    Google Scholar 

  14. Umfangreiche Beispiele zur Metadatenbeschreibung der DWH-Datenbasis bieten [lnmon/Zachman/Geiger 97, S. 253ff].

    Google Scholar 

  15. Zu den Datenverantwortlichen vgl. Abschnitt 3.3.2.1.

    Google Scholar 

  16. In Kapitel 3.5 werden die verschiedenen Gestaltungsmöglichkeiten von Data Warehouse-Systemen beschrieben. Zur Verdeutlichung werden dort praxisrelevante Softwarearchitekturen dargestellt und klassifiziert.

    Google Scholar 

  17. Die Bezeichnung „OLAP-Server“ (oft auch OLAP-Engine) wird häufig im Zusammenhang mit der Verwendung von multidimensionalen DBMS gebraucht. Bei Verwendung von relationalen DBMS spricht man auch oft von sogenannten „Star-Servern”. Auf die Abgrenzung der unterschiedlichen DBMS wird später ausführlich eingegangen. Im folgenden wird das zugrundeliegende DBMS nicht mehr als Einteilungskriterium herangezogen. Der im weiteren Verlauf dieser Arbeit ausschließlich verwendete Begriff „OLAP-Server“ unterwirft sich nicht der o.e. Einteilung und kennzeichnet eine Systemkomponente, welche sich auch in einem System mit zugrundeliegendem relationalen DBMS wiederfinden kann.

    Google Scholar 

  18. Die Fa. Sybase bietet mit ihrem Produkt „Sybase IQ“ ein auf den DWH-Einsatz hin optimiertes rDBMS an.

    Google Scholar 

  19. Reuter geht detailliert auf die verschiedenen Einsatzfelder von rDBMS und mDBMS ein [vgl. Reuter 96].

    Google Scholar 

  20. Die folgenden Beispiele lehnen sich an die in Abschnitt 3.1.1 vorgeschlagenen Dimensionen an. Tab. 3.1 beschreibt exemplarisch die Dimension „Zeit“ als Datenbankrelation. Die anderen Datenbankrelationen gestalten sich gemäß dem Beispiel 3.1.

    Google Scholar 

  21. Eine Dimension an sich ist nicht „dünn besetzt“ [vergleiche im Gegensatz hierzu Hettler 97, S. 132].

    Google Scholar 

  22. Die Definition von „großen“ Data Warehouse-Datenbanken ist uneinheitlich. Es wird davon ausgegangen, daß ein Datenvolumen von über einem Terabyte von einem mDBMS nicht mehr gehandhabt werden kann. Oft wird die Datenobergrenze einer physischen multidimensionalen Datenbank schon sehr viel früher gezogen [vgl. Schreier 96, S. 88ff]. Die Meta Group sieht beispielsweise die Obergrenze für den Einsatz von M DBMS schon bei einem Volumen von 40 Gigabyte [vgl. o.V. 97g]. Korrekterweise muß angefügt werden, daß solche Äußerungen oft vor unsachlichem Hintergrund getätigt werden oder falsch interpretiert werden. Richtiger ist es, die Größe der umfangreichsten Dimension in ihrem Verhältnis zu den kleinsten Dimensionen im Data Warehouse als Maßstab anzusetzen. Ist die größte Dimension erheblich größer als die kleinste Dimension, ergeben sich im DWH Verzerrungen weg vorn Idealbild des „einigermaßen symmetrischen” Datenwürfels hin zu „flacheren“ Strukturen, die mit der optimierten Technologie eines rDBMS sicher besser gehandhabt werden können. Diese Voraussetzungen sind häufig in sehr großen oder auch sehr spezialisierten DWH erfüllt.

    Google Scholar 

  23. Ausführliche Kritik an der Codd’schen Aussage übt Thomsen 97, S. 497ff.

    Google Scholar 

  24. DWH-Systeme mit solch enger Bindung sind etwa bei Komplettlösungen eines Herstellers zu finden. In Abschnitt 3.5.1 werden die verschiedenen Softwareschichten eines DWH-Systems näher betrachtet.

    Google Scholar 

  25. Data Warehouse-Systeme, die in operative Systeme eingebunden sind, werden unter der Bezeichnung „Second Generation Data Warehouse“ zusammengefaßt. Ein wesentliches Merkmal dieser Systeme ist die Erweiterung der reinen DWH-Datenbank um einen sogenannten Operational Data Store (ODS).

    Google Scholar 

  26. Raden bezeichnet den klassischen read-only-OLAP-Zugriff auf DWH-Daten als „Narrow OLAP“ und grenzt dazu den vor allem im Rahmen mit Data Mart-Lösungen gelegentlich anzutreffenden „Broad-OLAP”-Ansatz ab. Im Vordergrund des „Broad OLAP“ steht dabei nicht die Möglichkeit, Datenveränderungen vorzunehmen, sondern vielmehr die Einbindung von komplexen Methoden der Trendanalyse, Zeitreihenprognose usw. [vgl. Raden 97, S. 209f].

    Google Scholar 

  27. Die Funktionalität des OLAP-Servers ist oft nicht von der DBMS-Funktionalität getrennt.

    Google Scholar 

  28. Beispielsweise für das Marketing oder das Controlling. Architekturrahmen fir Data Marts [vgl. Kapitel 3.5.2.2; Mimno 97, S. 168ff; Inmon/Zachman/Geiger 97, S. 24–37]. Je nach der verwendeten Datenbankmaschine wird in der Literatur das Online Analytical Processing oft in MOLAP (physisch multidimensionales OLAP, auch POLAP) und ROLAP (relationales OLAP) unterteilt. Während diese Unterteilung vor einigen Jahren aufgrund der eingeschränkten OLAP-Tauglichkeit eines auf einem relationalen DBMS basierenden Systems noch ihre Berechtigung gehabt haben mochte, werden heute oft nur noch zu Marketingzwecken die „MOLAPFähigkeiten“ in den Vordergrund geschoben.

    Google Scholar 

  29. Kann bei einer nationalen DWH-Datenbank leicht im Zuge der Nacht oder des Wochenendes ein Update durchgeführt werden, ergibt sich bei Zugriffen aus verschiedenen Zeitzonen meist das Problem eines „zu kleinen“ Zeitfensters. Das Transaktionskonzept verschafft hier den rDBMS-basierten DWH-Systemen gegenüber den mDBMS-basierten Systemen einen Vorteil.

    Google Scholar 

  30. Das Bestandteile des Data Load-Systems werden vielfach auch als ETL-Werkzeuge bezeichnet. ETL steht hierbei für Extraction, Transformation und Load.

    Google Scholar 

  31. ln einer repräsentativen Untersuchung unter Mitarbeitern aus den Fachabteilungen verschiedener Unternehmen ging die Mehrzahl der befragten Personen von der Notwendigkeit eines täglichen Refresh der Data Warehouse-Datenbank aus [vgl. Fasching 95, S. 255–262; Breitner/Herzog 96, S. 46].

    Google Scholar 

  32. Obwohl die Qualität der Daten im DWH unbestreitbar von hohem Wert für die Unternehmung ist, sollte der „Grad der Datenwahrheit“ sich am Kosten- Nutzen-Verhältnis orientieren. Beispielsweise wird ein falscher oder fehlender Fact-Wert in einem Datensatz auf einer niedrigen Hierarchieebene bei einer Abfrage nach aggregierten Daten zumeist keinen „großen” Schaden anrichten. Bei sporadischen Umsatzverläufen gewinnt ein Fehler bei detaillierter Betrachtung dagegen schon sehr an Bedeutung.

    Google Scholar 

  33. Der aufgeführte Data Load beschränkt sich auf den Einsatz in mehrschichtigen Softwarearchitekturen, die in Abschnitt 3.5.1 ausführlich beschrieben werden.

    Google Scholar 

  34. Nach Expertenschätzungen sind heutzutage immer noch mehr als 70 Prozent der Unternehmensdaten in nichtrelationalen Datenbanken auf Legacy-Systemen abgelegt [vgl. Kalakota/Whinston 96, S. 468].

    Google Scholar 

  35. Die ACID-Bedingungen (Atomicity, Consistency, Isolation, Durability) müssen zur Abwicklung von elementaren rücksetzbaren Transaktionen eingehalten werden [vgl. Ferstl/Sinz 93, S. 350f]. blem dar. Sind - wie oben bereits angesprochen - die Quelldatenformate nicht bekannt, so ist der Einsatz von unterschiedlichen aufwendigen Extraktionswerkzeugen erforderlich [vgl. Mimno 97, S. 170ff].

    Google Scholar 

  36. Die Inhalte einer Vielzahl von unterschiedlichen DBMS-Typen abzugleichen bedeutet einen sehr großen Aufwand. Zur Sicherung einer konsistenten DWH-Datenbasis müssen die Attribute jedes einzelnen beteiligten Quellsystems in ihrer Bedeutung abgeglichen und in ihrem Umfang bereinigt werden. Man spricht in diesem Zusammenhang vom „Daten-schrubben“ (Data Scrubbing). Die New York Chase Manhattan Bank hatte beim Start ihres DWH-Projektes die Inhalte von 54 verschiedenen Datenbasen (die zum großen Teil von unterschiedlichen DBMS verwaltet wurden) und Flat Files abzugleichen [vgl. Rother 95, S. 3].

    Google Scholar 

  37. Innerhalb eines Data Warehouse-Projektes wird der Planung und Durchführung der Datenübernahme aus den Quellsystemen mit Abstand der größte zeitliche und damit auch monetäre Aufwand zugerechnet [vgl. Devlin 97, S. 21; Schinzer 97]. wortlichen sind zur zügigen Realisierung des Projektes die Inhalte des DWH festzulegen. In der Regel erfreuen sich DWH-Systeme nach erfolgreicher Implementation eines großen Zuspruchs von seiten der Benutzer. Die neuen Anforderungen bezüglich Ergänzungen und Erweiterungen des Systems müssen gesammelt und regelmäßi§ von einer Institution in die Pläne zum Ausbau des DWH eingearbeitet werden8. Ein DWH lebt von der Akzeptanz seiner Benutzer. Die Inhalte des DWH werden dementsprechend im Zeitablauf ständig angepaßt werden müssen.

    Google Scholar 

  38. Die Einrichtung und auch die laufende Planung der Inhalte eines Data Warehouse müssen einer festen Institution unterliegen. Kimball definiert dazu verschiedene Stellen [vgl. Kimball 96, S. 228f].

    Google Scholar 

  39. In der Praxis wird dies mit der Bezeichnung „User-Centric Warehousing“ umschrieben.

    Google Scholar 

  40. Die in diesem Abschnitt aufgeführten Methoden zur Bestimmung und Auswertung des Informationsbedarfs wurden unter anderem ausgewählt nach einer im Februar 1997 durchgeführten Maillist-Diskussion mit neun Experten im Data Warehouse-Bereich.

    Google Scholar 

  41. Eine der ersten Data Warehouse-Implementationen im europäischen Bankbereich wurde um 1990 von der niederländischen ABN AMRO Bank abgeschlossen. Besonders großer Wert wurde bei der Implementierung auf die Erfüllung der Benutzerbedürfnisse gelegt. Das DWH-System wurde schon vom Start weg gut angenommen und konnte in den Folgejahren eine jährliche Steigerung der Nutzung von ca. 50% verzeichnen [vgl. Devlin 97, S. 13]. ken [vgl. Rockart 79; Heinrich 92, S. 325ff; Bullinger/Niemeyer/Koll 93, S. 56].

    Google Scholar 

  42. Zu den bankinternen operativen Quellsystemen zählen beispielsweise unter anderem die verschiedenen Abrechnungs-und Buchungssysteme, das Personalsystem, Kundenkontaktsysteme, Systeme zur Bereichs-Ergebnisrechnung und zur Kostenstellenrechnung.

    Google Scholar 

  43. Zur Entwicklung und Weiterentwicklung eines Data Warehouse-Systems werden verschiedene spezielle Software Lifecycle-Modelle vorgeschlagen [vgl. B.Devlin, Bullinger et al. 95].

    Google Scholar 

  44. Eine DV-zentrierte Denkweise führte in den siebziger Jahre in die MIS-Krise („Wenn die Fachabteilungen diese Funktionen/Daten haben, werde sie diese schon verwenden“).

    Google Scholar 

  45. Oben wurde bereits diese Bildung von „lokaler DV-Kompetenz“ als eine der Ursachen zur Entwicklung des „Spider Net Environment” erkannt (vgl. Abschnitt 2.3.1).

    Google Scholar 

  46. In Abschnitt 3.2.2.2 wurde darauf hingewiesen, daß physisch multidimensionale DBMS sehr häufig ebenfalls Funkionen eines OLAP-Servers übernehmen und deshalb auch oft einfach als OLAP-Server bezeichnet werden.

    Google Scholar 

  47. Dies ist gleichbedeutend mit dem Übergang vom „Fat Client“ zum „Thin Client” (vgl. Abschnitt 3.5.1). Diese auch als „Client-Server-Systeme“ diskutierten, gemischten Architekturen lassen sich in mehrere Schichten unterteilen [vgl. Gluchowski/Gabriel/Chamoni 97, S. 113ff; SaylorBansal 95, S. 5f; Meyer 93, S. 81ff]

    Google Scholar 

  48. Dies ist regelmäßig bei Programmen unter der graphischen Benutzeroberfläche Windows der Fall.

    Google Scholar 

  49. Eine Aufteilung in drei Schichten bietet große Vorteile bezüglich Administrierbarkeit, Sicherheit, Skalierbarkeit und Leistungsfähigkeit.

    Google Scholar 

  50. In Abschnitt 3.2.2 wurde bereits beispielhaft auf das mDBMS eingegangen. Dieses kann häufig die Trennung zwischen Präsentations-und Applikationsschicht nicht durchgängig aufrechterhalten. Die sich daraus ergebende mangelnde Skalierbarkeit kann Leistungseinbußen nach sich ziehen. Kommt ein relationales Datenbanksystem zum Einsatz, verwendet der OLAP-Server die Sprache SQL zur Anforderungen von Daten aus der DWH-Datenbank. Die Daten werden vom rDBMS als eine Menge von Datensätzen zurückgeliefert. Bei Einsatz von mDBMS wird die Datenanforderung mittels eines proprietären Abfrageprotokolls vorgenommen (vgl. Abschnitt 3.2.2.2). Die Datenlieferung erfolgt meist als multidimensionale Menge von Feldern.

    Google Scholar 

  51. Beispiele zur DWH-Datenmodellierung bei Verwendung eines rDBMS finden sich in Abschnitt 3.2.2.1.

    Google Scholar 

  52. Vgl. Beschreibung des PDES bzw. ETL in Abschnitt 3.2.3.

    Google Scholar 

  53. Devlin spricht in diesem Zusammenhang von „reconciled data“, von „in Einklang” gebrachte Daten [vgl. Devlin 97, S. 69ff].

    Google Scholar 

  54. Die von Devlin vorgeschlagene dreischichtige DWH-Datenarchitektur wird heute noch kaum eingesetzt [vgl. Devlin 97, S. 68]. Die Umsetzbarkeit einer UDM wird vielfach angezweifelt [vgl. Sinz 95].

    Google Scholar 

  55. Ein in einer Bank eingesetztes Data Mart-System zur Analyse von Kreditkartendaten mit einer Datenbankgröße von mehreren hundert Gigabytes wird wegen der extremen funktionalen Fokussierung nicht als Data Warehouse verstanden.

    Google Scholar 

  56. Eingesetzt wurde der Microsoft SQL Server in der Version 6.5.

    Google Scholar 

  57. RMI (Remote Method invocation) ist fester Bestandteil des Java Development Kit (JDK) ab der Version 1.1 und ermöglicht den Aufbau von JAVA-basierten Client-ServerSystemen [vgl. Lipp 98, S. 31 ff].

    Google Scholar 

  58. Die JDBC-Schnittstelle ist im Prinzip vergleichbar mit der ODBC-Schnittstelle der Fa. Microsoft (Open Database Connectivity) und ist standardmäßig ab der Version 1.1 im JDK enthalten [vgl. Lipp 98, S. 34ff].

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2000 Springer-Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Gehrke, C. (2000). Das Data Warehouse: Aufbau und Betrieb. In: Informationsagenten im Data Warehousing. Bankinformatik-Studien, vol 7. Physica, Heidelberg. https://doi.org/10.1007/978-3-662-12065-1_3

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-12065-1_3

  • Publisher Name: Physica, Heidelberg

  • Print ISBN: 978-3-7908-1301-2

  • Online ISBN: 978-3-662-12065-1

  • eBook Packages: Springer Book Archive

Publish with us

Policies and ethics