Grundlagen und Einsatzpotentiale von In-Memory-Datenbanken

Knabke, Tobias; Olbrich, Sebastian

doi:10.1007/978-3-662-47763-2_9

Grundlagen und Einsatzpotentiale von In-Memory-Datenbanken

Tobias Knabke M.Sc.³ &
Sebastian Olbrich³

Chapter
First Online: 01 January 2015

30k Accesses
9 Citations

Zusammenfassung

In der unternehmerischen Praxis wachsen die Anforderungen an eine stärkere Verzahnung von operativen und analytischen Tätigkeiten. Dies erfordert ein Umdenken sowohl in der Organisation als auch in der IT-Strategie, da in den meisten Unternehmen derzeit operative und analytische Systeme voneinander getrennt sind. Eine Verschmelzung von operativen und analytischen Tätigkeiten ist mit den bisher eingesetzten IT-Systemen und den aktuellen Technologien nicht oder nur mit erheblichem Aufwand möglich. Durch die zunehmende Wirtschaftlichkeit von In-Memory (IM)-basierten Datenbanken und Applikationen verringert sich der zu erbringende Aufwand jedoch erheblich. Die IM-Technologie besitzt damit das Potential, auch im Unternehmensumfeld einen Zustand zu etablieren, der im privaten Alltag längst selbstverständlich ist – eine durchgängige Informationsversorgung.

Der einführende Abschnitt untersucht dieses Potential näher und umreißt das Spannungsfeld zwischen transaktionalen und analytischen Informationssystemen. Anschließend werden die technologischen Grundlagen der IM-Technologie skizziert. Dabei stehen die Funktionen der Datenanalyse im Vordergrund der Betrachtung. Der darauf folgende Abschnitt widmet sich den Auswirkungen, die der Einsatz von IM-Technologie auf die Bereiche Business Intelligence (BI) und Business Analytics hat. Der letzte Abschnitt beschreibt konkrete Anwendungsszenarien. Ausgehend von den aktuellen Entwicklungen wird ein Ausblick über zukünftige Integrationsszenarien und -trends gegeben.

„Tape is Dead, Disk is Tape, Flash is Disk, RAM Locality is King.“ Jim Gray 2006

Download chapter PDF

1 Einleitung und Motivation

1994 artikulierte Microsoft-Gründer Bill Gates die Vision der „Information at your fingertips“. In vielen Bereichen des Alltags ist diese heute Wirklichkeit geworden. So bedarf es bspw. bei einer Kontostandsabfrage weder eines persönlichen Besuchs in der Bankfiliale noch eines physischen Kontoauszugs. Diese Informationen sind sekundenschnell online verfügbar. Ebenso hat individuell konfigurierbares Fernsehen Einzug in das tägliche Leben erhalten. Derartige Dienste sind nicht nur zuhause verfügbar, sondern können nahezu überall und jederzeit mit mobilen Endgeräten genutzt werden. Darüber hinaus bieten Internetsuchmaschinen Suchvorschläge und Trefferlisten in Echtzeit an – und dies bei einer ständigen, ortsunabhängigen Verfügbarkeit.

Eine zeitnahe Informationsversorgung ist im Unternehmensumfeld derzeit jedoch oftmals die Ausnahme. Besonders bei komplexen Anfragen oder großen Datenmengen, wie sie häufig bei Business Analytics und Business Intelligence (BI) vorliegen, sind Antwortzeiten von mehreren Minuten oder gar Stunden keine Seltenheit. Um die operativen Systeme mit solchen Anfragen nicht zu belasten und um optimierte Ablagestrukturen für Analysen nutzen zu können, sind operative und analytische Systeme derzeit technisch voneinander getrennt. Durch die Nutzung von IM-Technologien könnten Antwortzeiten von unter einer Sekunde („the speed of thought“, Plattner und Zeier 2011) auch für komplexe Analyseszenarien zur Regel werden (Plattner 2009; Plattner und Zeier 2011). Der Einsatz von IM-Technologie in operativen Enterprise-Resource-Planning (ERP)-Anwendungen kann zu einer Aufweichung der traditionellen Trennung von transaktionsorientierten (Online-Transaction-Processing-Systemen, OLTP) und analyseorientierten (Online-Analytical-Processing-Systemen, OLAP ) Systemen führen. Diese Trennung ist hauptsächlich auf die hard- und softwarebedingten Restriktionen im Zusammenhang mit Analysen großer Datenmengen zurückzuführen und war zu Zeiten der Etablierung von Data-Warehouse- (DWH)-Systemen ein unabdingbarer Kompromiss zwischen erwarteter Flexibilität und Analysegeschwindigkeit sowie zusätzlichem Aufwand für die Informationsbereitstellung und Versorgung (Chamoni 2011; Plattner 2009). Allerdings birgt eine solche Umstellung technische Herausforderungen, da transaktionale und analytische Anfragen grundsätzlich andere Anforderungen an die Datenorganisation stellen (French 1995). Besonders für Business Analytics und BI wird ein Technologiewechsel weitreichende Auswirkungen, z. B. auf die vorhandenen Architekturen und Datenmodelle, haben.

2 Grundlagen In-Memory-Datenbanken

Im betrieblichen Umfeld besteht die Anforderung an eine zunehmend schnellere Informationsversorgung. So entwickelt sich das Reporting von einer vergangenheitsbezogenen Betrachtung hin zu einer aktiveren Steuerung, auch von operativen Unternehmensdaten (vgl. Abschn. 4). Neben technischen Veränderungen betrifft dies unterschiedlichste Bereiche vom Organisationsmanagement bis hin zur Unternehmenskultur. Im folgenden Abschnitt wird der technologische Aspekt näher beleuchtet.

2.1 Aktuelle Entwicklungen im Hauptspeicherbereich

Die derzeitige Trennung von operativen und analytischen Systemen, stark steigende Datenmengen sowie die Forderung einer zeitnahen Informationsversorgung stellen hohe Anforderungen an Leistungsfähigkeit und Wirtschaftlichkeit der eingesetzten Technologie. Die Preisentwicklung für Speicher kommt dieser Forderung entgegen. In den letzten Jahrzehnten ist die Leistungsfähigkeit von Speicher exponentiell angestiegen; umgekehrt ausgedrückt sind die Preise für Speicher stark gefallen. Dies gilt insbesondere für Hauptspeicher (Arbeitsspeicher, random access memory, RAM). Neben klassischen festplattenbasierten Datenbanksystemen (disk-resident database, DRDB) rücken hauptspeicherbasierte Datenbanken (in-memory database, IMDB oder main-memory database, MMDB) immer stärker in den Fokus als Massenspeicher von Unternehmensdaten. Mit ihrem Einsatz kann der Spagat zwischen hoher Leistungsfähigkeit auf der einen und Wirtschaftlichkeit auf der anderen Seite gelingen, da der Preisverfall der letzten Jahre die IM-Technologie für Unternehmen realisierbar und wirtschaftlich gemacht hat. Diese Preisentwicklung von Haupt-, Festplatten- und Flash-Disk-Speicher ist in Abb. 9.1 dargestellt. Über die letzten Jahrzehnte ist das Verhältnis von Kosten zu Speichergröße exponentiell gesunken. So betrug der Preis für 1 MB Festplattenspeicher im Jahr 1970 mehr als 250 US$, wohingegen der Preis in 2001 unter 0,01 US$ gefallen ist. Eine Entwicklung, die sich bis heute fortsetzt und auch für Arbeitsspeicher zu beobachten ist (Plattner und Zeier 2011).

Doch nicht nur der Preisverfall von Hardware ist ein Grund für die verstärkte Nachfrage von Unternehmen. Wie Tab. 9.1 zeigt ist der Zugriff auf den Arbeitsspeicher um ein Vielfaches (im Bereich von vier Zehnerpotenzen) schneller als auf Festplattenspeicher (Garcia-Molina und Salem 1992; Plattner und Zeier 2011). Besonders ins Gewicht fällt diese Differenz beim Lesen von großen Datenmengen.

Tab. 9.1 Zugriffszeiten für Festplatten und Hauptspeicher. (Plattner und Zeier 2011)

Full size table

In einem IM- basierten Datenbankmanagementsystem (DBMS) werden Daten permanent im Hauptspeicher vorgehalten, der direkt vom Hauptprozessor zugreifbar ist. Die Vorteile eines solchen Systems lassen sich auch durch DRDB-Systeme mit einem sehr großen Cache nicht kompensieren, da Zugriff und Indexstrukturen für Festplattenzugriff ausgelegt sind (Garcia-Molina und Salem 1992). Konzepte für den Einsatz von IM-Technologien sowie Überlegungen zu notwendigen Änderungen bei Implementations- und Zugriffstechnologien gegenüber DRDB sind nicht neu, sondern bestehen bereits seit rund drei Jahrzenten (DeWitt et al. 1984; Garcia-Molina und Salem 1992; Eich 1987a, b). Dabei kommt der Datenorganisation eine wesentliche Bedeutung zu.

2.2 Datenorganisation

Die geeignete Organisation und Ablagestruktur der Daten auf dem Speichermedium wird wesentlich durch den Verwendungszweck bestimmt (DeWitt et al. 1984; Stonebraker et al. 2005; Schmidt-Volkmar 2008; Plattner 2009; Schaffner et al. 2009; Plattner und Zeier 2011). Schreiboptimierte, transaktionale Systeme (OLTP) bevorzugen eine zeilenbasierte Datenablage. Solche klassischen Systeme der Datenverarbeitung, wie es bei ERP-Systemen der Fall ist, sind geprägt von vielen Schreiboperationen und Änderungen an bestehenden Datensätzen. Allerdings ist eine derartige Datenorganisation weniger gut dazu geeignet, Ergebnismengen von einzelnen Spalten wiederzugeben. Mengenbasierte Leseoperationen wiederum werden durch eine spaltenorientierte Datenhaltung besser unterstützt. Diese leseoptimierten Abfragen stehen bei OLAP -Systemen im Vordergrund und sind kennzeichnend für BI-Applikationen. Der Unterschied zwischen zeilen- und spaltenbasierter Datenorganisation ist exemplarisch in Abb. 9.2 dargestellt. Die Datenbank enthält drei Datensätze (Zeilen z) mit je drei Attributen (Spalten s). In zeilenorientierten Datenbanken wird jede Zeile in zusammenhängenden Blöcken gespeichert. Bei Spaltenorientierung hingegen werden die Attributwerte der einzelnen Spalten einer Datenbanktabelle nacheinander abgelegt (Abadi et al. 2009).

Bei Analyseanwendungen mit vorwiegend mengenbasierten Leseoperationen werden meist sehr wenige, etwa 10% aller Attribute einer Tabelle verwendet (Plattner 2009). Bei einem spaltenorientierten Design wird in diesem Fall nur auf die relevanten Datensätze und Spalten zugegriffen (vgl. Abb. 9.3) und nicht wie bei der zeilenorientierten Alternative zuerst auf den gesamten Datenbestand. Da eine Spalte nur die Werte einer Domäne bzw. eines Datentyps enthält, z. B. Jahreszahlen, und somit ähnliche Ausprägungen hat, ist eine bessere Komprimierung möglich. Darüber hinaus wird mit steigender Kompressionsrate die Leseperformance verbessert. Untersuchungen auf Systemen mit realen Unternehmensdaten ergaben Performancevorteile von bis zu Faktor 1000 gegenüber Zeilenorganisation (Plattner 2009). Zusätzlich wird durch die Komprimierung der Speicherverbrauch verringert. Plattner (2009) geht unter Berücksichtigung von Datenkompression, nicht mehr benötigten Aggregaten (materialisierte Views) und horizontaler Partitionierung von einem um Faktor 50 besseren Speicherverbrauch gegenüber DRDB aus. Zusammen mit der Parallelisierung und Zuweisung der Daten auf verteilte Hardwarekomponenten (Blades) lassen sich so auch die Daten von Großunternehmen vollständig in-memory halten (Plattner 2009).

Wie bereits angedeutet basiert die aktuell vorherrschende Trennung von OLTP-und OLAP -Systemen in der betrieblichen Praxis auf bestehenden Restriktionen (Integration und Harmonisierung , Performance, Kosten ) (Wessel et al. 2013; Krüger et al. 2010). Um die Quellsysteme für analytische Auswirkungen nicht zu großer Last auszusetzen, werden Daten für dispositive Zwecke zusätzlich in ein dediziertes System, meist ein DWH, überführt. In diesen Systemen liegen die Informationen in der Auswertungsschicht in der Regel nicht so granular wie in den Quellsystemen vor. Darüber hinaus werden die Daten in vielen BI-Tools in einem denormalisierten Modell, etwa dem Star-Schema (Kimball 1996; Moody und Kortink 2000), gehalten, um den hohen Performanceanforderungen gerecht zu werden. Dadurch sind effiziente Leseoperationen auf großen Datenvolumina möglich. Nichtsdestotrotz stoßen diese Systeme, die gewöhnlich DRDBs als Speichermedium zur Datenhaltung nutzen, in puncto Performance zunehmend an ihre Grenzen. Seit einigen Jahren ist daher zu beobachten, dass Performanceengpässe in BI-Systemen durch den gezielten Einsatz von IM-Technologie für Analysen umgangen werden. Dabei setzen die großen Softwareanbieter hauptsächlich auf kostenpflichtige, zusätzliche Architekturbausteine, die den Zugriff auf zeitkritische Auswertungen beschleunigen, indem sie die für das Reporting relevanten Daten im Hauptspeicher spaltenbasiert vorhalten.

Zwar mag eine Trennung von OLAP und OLTP den Bedürfnissen und Eigenschaften der unterstüttzen Prozesse und Datenstrukturen und sowie einer reduzierten Arbeitslast der operativen Systeme gerecht werden (Stonebraker 2011), für Anwender aber gewinnen zeitnahe analytische Applikationen auf operativen Daten immer stärker an Bedeutung. Um dieser Forderung nachzukommen, finden sich zunehmend Technologien, die beide Ansätze auf einer Plattform verbinden und sowohl zeilen- als auch spaltenbasierte Datenorganisation bereitstellen. Da diese Architekturen OLTP und OLAP vereinen, werden sie auch als OLXP bezeichnet (Loos et al. 2011). Dieser Ansatz berücksichtigt die Kritik an der hohen Komplexität der Informationsversorgung und der redundanten Datenhaltung in einem separaten System (Chamoni 2011).

Um alle Möglichkeiten der IM-Technologie optimal nutzen zu können, bieten viele Hersteller sogenannte Appliances (d. h. eine Verknüpfung von Hard- und Software zu Services) an. Appliances umfassen nicht nur die Bereitstellung der reinen Technologie im Sinne der Hardware, sondern bieten gleichzeitig zahlreiche eingebaute, hardwarenahe Funktionen, die auf spezielle Anwendungsfälle ausgelegt sind. Diese verlagern einen Teil der Logik von der Anwendungs- zur Datenbankschicht, was u. a. in Planungsapplikationen zum Tragen kommt (Färber et al. 2010). Die bei Verteilungsaufgaben (disaggregation) notwendigen Berechnungen werden in diesem Ansatz nicht mehr in der Applikationsschicht durchgeführt und die Ergebnisse dann an die Datenbank geschickt. Stattdessen wird der zu verteilende Wert an die hardwarenahen Funktionen übergeben, die Berechnungen direkt auf der Datenbank ausgeführt und das Ergebnis dann zurückgeliefert. Über einen Performancegewinn hinaus reduziert dies auch die über das Netzwerk ausgetauschten Daten.

3 Konsequenzen für Business Intelligence und Business Analytics

Viele BI-Systeme basieren auf einem DWH-Ansatz, um Daten systematisch aus den operativen Vorsystemen zu extrahieren, harmonisieren und sind für das Reporting bereitzustellen. Mit zunehmendem Einsatz von IM-Technologie stellt sich die Frage, inwieweit dies Auswirkungen auf bewährte Architekturen und Ansätze hat.

3.1 Klassische Business Intelligence-Architekturen

Die bedeutendsten Anforderungen an ein DWH als Grundlage der dispositiven Informationsversorgung gehen auf Inmon (1996) zurück und sind Themenorientierung (subject-orientation), Integration bzw. Vereinheitlichung (integration), Zeitorientierung (time-variance) sowie Beständigkeit (non-volatility). Um eine adäquate Entscheidungsunterstützung gewährleisten zu können, liegt klassischen BI-Systemen eine mehrschichtige (DWH-) Architektur zugrunde. Der Aufbau einer solchen Referenzarchitektur ist in Abb. 9.4 dargestellt.

Im ersten Schritt werden die Daten aus den operativen Quellsystemen , bspw. ERP-Systemen, geladen und i.d.R. unverändert in die Extraktionsschicht übernommen. Während des Transformationsvorgangs in die DWH -Schicht finden dann Datenbereinigung, -harmonisierung und -konsolidierung statt. Diese Schicht stellt den Single Point of Truth (SPOT) dar, in dem die Daten applikationsunabhängig und konsolidiert vorliegen. Der SPOT bildet somit auch die Basis für funktionsspezifische Anwendungen (Hahne 2002, 2010). In den oberen Architekturkomponenten werden die Anforderungen der Fachbereiche und des Managements berücksichtigt, indem die unternehmensweit gültigen Informationen aus der DWH-Schicht mit bereichsspezifischer Logik angereichert werden. Die organisations- und anwendungsdomänenspezifische Ausrichtung in der Transformations- und Reportingschicht bezeichnet man als Data Mart. Um Performanceanforderungen für die Analyse gerecht zu werden, werden die Daten auf dem Weg in die Reportingschicht bei Bedarf aggregiert. Durch die redundante Datenhaltung und physische Speicherung in mehreren Schichten sind DWH-Systeme von mehreren Terabyte (TB) keine Seltenheit (Kemper et al. 2006; Hahne 2010). Das corporate memory enthält alle in das BI-System geladenen Daten und sichert die Unabhängigkeit von den operativen Quellsystemen im Falle von Anpassungsbedarf oder im Fehlerfal (Kimball 1996; Chamoni und Gluchowski 1998; Knabke und Olbrich 2011).

Traditionell dient BI der dispositiven Informationsversorgung. Diese strategische und taktische Entscheidungsunterstützung wird sukzessive auf operative Bereiche ausgedehnt. Damit erhält BI in die kurzfristige Prozessunterstützung Einzug (Baars et al. 2014). So lässt sich z. B. im Qualitätsmanagement der Produktionsindustrie der Ausschuss fehlerhafter Werkstücke frühzeitig erkennen. Mithilfe von Sensordaten können Unregelmäßigkeiten im laufenden Produktionsprozess identifiziert und im Fehlerfall automatisch interveniert werden, um korrigierende Maßnahmen durchzuführen. Die Datengrundlage für ein operationales BI-System (OPBI) bilden granulare Datenspeicher, die konzeptionell unter dem Begriff Operational Data Stores (ODS ) zusammengefasst werden (Winter 2000) und Analysen auf operativen Daten höchster Detaillierung ermöglichen (Inmon 1998).

Ein Nachteil der Nutzung von Hauptspeicher zur persistenten Speicherung von Daten liegt darin, dass er volatil ist und eine Unterbrechung der Stromversorgung zum Datenverlust führt. Daher sind zuverlässige und effiziente Datenwiederherstellungsstrategien bei dieser Speicherart unverzichtbar (Plattner und Zeier 2011).

Auf Basis der technologischen Fortschritte im Bereich Speichermedien, der stetig steigenden Datenmenge sowie einer zunehmend operativen Entscheidungsunterstützung ergeben sich Änderungen in der DWH -Architektur als zentraler Bestandteil von BI.

3.2 Zukünftige Business Intelligence-Architektur als semi-virtuelles Data-Warehouse

Insbesondere durch den Einsatz von IM-Datenbanken als Grundlage von transtransaktionalen und dispositiven IT-Systemen liegt der Gedanke nahe, Schichten nicht mehr zu persistieren, sondern lediglich logisch zu verwalten. Die klassischen DWH -Architekturen werden somit virtualisiert und die bisher hauptsächlich aus Performancegründen eingeführten materialisierten Schichten und Aggregate überflüssig. Abbildung 9.5 zeigt ein semi-virtuelles Data-Warehouse (SVDWH) auf Grundlage einer IMDB (Knabke und Olbrich 2011). Vergleichbar mit einem klassischen DWH basiert das semi-virtuelle DWH auf einer schichtenbasierten, skalierbaren Architektur. Allerdings werden die Daten nun komplett in-memory gehalten und nur die Extraktionsschicht separat gespeichert. Darüber liegende Schichten wie die DWH-Schicht sind rein logisch modelliert. Die Daten werden bei Analyseanfragen zur Laufzeit bereinigt, harmonisiert, berechnet und aggregiert, ohne sie dediziert abzulegen. Die Datenmodelle werden analog zur klassischen Architektur in einem Metadatenspeicher hinterlegt. Sind historische Daten verlässlich und langfristig bereits in einem IM-basierten Quellsystem vorhanden, kann auf die gesonderte Ablage in der Extraktionsschicht verzichtet werden (daher semi-virtuell). Darüber hinaus sollte das Quellsystem über geeignete Strukturen der Datenorganisation verfügen, wie etwa spaltenbasierte oder hybride Ansätze, d. h. Zeilenorganisation für OLTP und spaltenbasierte Speicherung für OLAP Anfragen. Die in Abbildung 9.5 vorgestellte SVDWH-Architektur berücksichtigt auch heterogene Applikationslandschaften, wie sie in vielen Organisationen zu finden sind (Knabke und Olbrich 2011).

Der ETL -Prozess in BI-Systemen ist ein kritischer und gewöhnlich zeitaufwändiger Prozess, der bei großen Organisationen nicht selten eine komplette Nacht in Anspruch nimmt. Da auf Analyse ausgelegte Systeme leseoptimiert sind, d. h. spaltenbasiert und komprimiert, bietet sich ein zusätzlicher, schreiboptimierter Speicher zur Datenübernahme sowie zum Einfügen bzw. Ändern von Sätzen an. Mit einem Insert-only-Ansatz lassen sich Änderungen im Zeitverlauf nachverfolgen. Bei diesem Verfahren werden bestehende Datensätze nicht verändert, sondern neue Sätze eingefügt und Änderungen anhand eines Zeitstempels nachvollzogen (Schmidt-Volkmar 2008). Daher kann die Extraktionsschicht der vorgestellten Architektur als ein corporate memory für BI-relevante Quellsysteme betrachtet werden. Die Synchronisation zwischen den unterschiedlichen Speichertypen übernimmt der Data Load Manager. Zieht man in Betracht, dass nur ein sehr kleiner Prozentsatz der Daten im Laufe der Zeit überhaupt verändert wird, resultiert dies in geringem Zusatzspeicher für Deltaaufgaben des Data Load Managers (Plattner 2009).

Um sinnvolle Schlussfolgerungen aus der dispositiven Informationsversorgung ziehen zu können, sind Vereinheitlichung und Integration als Schlüsselherausforderung beim Aufbau eines DWH notwendig (Calvanese et al. 1998). Dies gilt insbesondere dann, wenn Daten aus verschiedenen Quellsystemen mit unterschiedlichen Datenmodellen herangezogen werden. Im SVDWH werden diese Schritte logisch zur Laufzeit unter Berücksichtigung von Metadaten und Semantik ausgeführt. Damit sind die Anforderungen an ein DWH in diesem semi-virtuellen Ansatz sichergestellt.

3.3 Konsequenzen für die Informationslandschaft

Der Einsatz von IM-Technologie als Basis eines SVDWH und somit von BI führt zu Veränderungen im Vergleich zur heutigen Informationslogistik (Knabke und Olbrich 2011).

Datenmodellierung

Die redundante, physische Datenhaltung in einer skalierbaren Schichtenarchitektur (layered scalable architecture, LSA) entfällt größtenteils. Mit Ausnahme der Extraktionsschicht findet die Modellierung logisch statt. Auf Aggregate oder andere aus Performancegründen eingeführte Objekte und Schichten kann zugunsten weniger und nicht materialisierter Schichten verzichtet werden. Durch den Verzicht auf diese Verarbeitungsschichten werden Datenredundanzen und -inkonsistenzen vermieden und die Komplexität der Architektur reduziert (Winter et al. 2011). Eine mehrdimensionale Modellierung in der Auswertungsschicht wird weiterhin empfohlen, um eine leichte Anwendbarkeit durch Fachanwender sicherzustellen. Allerdings ist die logische Modellierung in der Auswertungsschicht ausreichend und muss nicht physisch abgelegt werden. Anpassungen von bestehenden Datenmodellen erfolgen dadurch schneller, insbesondere dann, wenn logische Modellierung mit Transformationen in Echtzeit verwendet werden. Eine logische Modellierung ohne zusätzliche Datenspeicherung ermöglicht ein Ad-hoc-Reporting unter Berücksichtigung von geänderten Anforderungen, ohne dass eine Neubeladung der Daten über alle Schichten des DWH notwendig ist.

Datenanalyse

Auf eine Performanceoptimierung zur Sicherstellung der erwarteten Antwortzeiten kann weitestgehend verzichtet werden. So entfällt auch die Vorberechnung von Daten (Aggregate) und eine Vorgabe von Analysen. Dies erhöht die Individualität, Spontanität und Flexibilität der Datenanalyse, weil potentielle Szenarien nicht ex ante antizipiert werden müssen, sondern diese flexibel zur Laufzeit berechnet werden. Die Analyseperformance steigt unter Verwendung von IMDB mit spaltenorientierter Datenhaltung aus mehreren Gründen signifikant: Die Daten befinden sich bereits im Hauptspeicher und müssen nicht erst von langsameren Medien wie Festplatten geladen werden. Darüber hinaus berücksichtigt eine spaltenorientierte Datenablage die Eigenschaften von Analyseabfragen, die vorwiegend nur eine kleine Menge der verfügbaren Attribute verwenden (vgl. Abschn. 2.2). Die Kombination mit besseren Komprimierungsmethoden erhöht den Performancevorteil zusätzlich. Logisch modellierte Echtzeitberechnungen von Aggregaten in Spaltendatenbanken bieten gegenüber vorberechneten, materialisierten Aggregaten in zeilenorientierter Datenhaltung große Geschwindigkeitsvorteile, wenn viele Aggregate benutzt werden (Plattner und Zeier 2011; Plattner 2009). Diese Verbesserungen tragen zur besseren Anpassungsfähigkeit der Systeme bei und steigern dadurch die Agilität der gesamten Infrastruktur.

Datenbereitstellung

Die Datenbereitstellung in Echtzeit ist ein kritischer Erfolgsfaktor, wenn ein BI-System nicht nur zur strategischen Entscheidungsunterstützung, sondern auch zur operativen Prozessunterstützung eingesetzt wird. Im Gegensatz zu einem festplattenbasierten Quellsystem werden die Daten im SVDWH-Ansatz nur in der Extraktionsschicht physisch gespeichert und im Übrigen direkt aus der Quelle gelesen (Knabke und Olbrich 2011). Neben einer Reduzierung des benötigten Speicherplatzes verkürzt dies die Zeit bis die Informationen für das Reporting und die Analyse zur Verfügung stehen. Transformationen und Berechnungen können on-the-fly durchgeführt werden, um eine bereinigte, harmonisierte und konsolidierte Datenbasis zu erhalten.

Anwendungsentwicklung

Um das Potential von IM -Technologie nutzen zu können, ist vorhandenes Design und Coding der Applikationen zu überprüfen und an die neuen Gegebenheiten anzupassen (Loos et al. 2011). Das bisher akzeptierte Paradigma, Logik möglichst anwendungsnah vorzusehen, verschiebt sich in Teilen in Richtung Hardware.

Der Gedanke des virtuellen DWH konnte sich in der Vergangenheit aus verschiedenen Gründen bisher nicht durchsetzen. Durch den Einsatz von IM-Technologien in Kombination mit SVDWHs können viele Nachteile rein virtueller DWH behoben werden. Durch die so hinzugewonnene Flexibilität und Agilität werden semi-virtuelle Entscheidungsunterstützungssysteme in Zukunft eine wichtige Rolle für Business Intelligence und Business Analytics spielen. Dies trägt zur Verschmelzung von OLAP- und OLTP-Systemen bei, ohne Kernaspekte von DWHs wie Integration und Harmonisierung zu vernachlässigen.

4 Aktuelle Beispiele aus der betrieblichen Praxis

Die Ursprünge von BI im unternehmerischen Umfeld liegen in einem stabilen, harmonisierten und vor allem vergangenheitsbezogenem Reporting . Steigende Marktdynamik und Analysebedarfe erfordern jedoch eine aktive Steuerung und agile Ausrichtung auf Grundlage datengetriebener Konzepte. Dafür ist eine proaktive Entscheidungsunterstützung ein wesentlicher Bestandteil, die zunehmend auf der Grundlage von externen Informationsquellen beruht. Entsprechend ist eine stärkere Operationalisierung von BI zu beobachten, die mit einer steigenden Datenmenge sowie -komplexität und einem erhöhten Integrationsdrang externer Datenquellen einhergeht.

4.1 Steigende Datenmenge und zunehmende Integration unstrukturierter Daten erhöhen die Komplexität von Business Intelligence

Diese Herausforderung und der derzeit größte Trend im Bereich BI wird unter dem Begriff Big Data Analytics zusammengefasst (Chamoni 2011). Darunter versteht man mehr als nur die Analyse sehr großer Datenmengen (volume). Die Informationsversorgung zu bestimmten, fest definierten Zeitpunkten ist für heutige Analysebedarfe nicht mehr ausreichend. Die Herausforderung ist eine kontinuierliche Datenaufnahme, möglichst in Echtzeit (velocity). Nicht minder fordernd als eine zeitnahe Bereitstellung der Informationen ist die Bewältigung der Datenvielfalt (variety). Besonders die Kombination aller bzw. mehrerer der 3 Vs bringt einen Mehrwert in der Verwendung von Big Data Analytics (Funke und Olbrich 2015). Neben strukturierten Daten, die bisher den BI-Bereich dominierten, spielen nun auch semi-strukturierte und unstrukturierte Daten z. B. aus externen Datenquellen wie Social-Media-Plattformen in den Auswertungen eine Rolle. Einer Studie des TDWI (Russom 2011) zufolge wird besonders die Integration von semi- sowie unstrukturierten Daten stark zunehmen, was die Komplexität der Datenintegration erhöht. Ein weiterer Fokus liegt auf der Integration in Echtzeit, der Datenqualität und dem Complex Event Processing. Beispiele für Big-Data-Anwendungsfälle sind das Aufspüren von Unregelmäßigkeiten im Finanz- und Versicherungsumfeld (Fraud-Detection) sowie eine intelligente Energieverbrauchssteuerung (Smart Metering). In vielen Unternehmen wird Big Data von IT-Abteilungen in Form von technologischen Pilotprojekten betrieben. Erfolgreiche Big Data-Initiativen erfordern jedoch stets auch einen fachlichen Bezug. Maßgeblich für den Erfolg sind Anwendungsfälle mit einem hohen Wertbeitrag, die ein konkretes fachliches, bisher nicht oder unzureichend durch Informationssysteme unterstützbares analytisches Problem lösen. Unter technischen Gesichtspunkten ist die Frage zu klären, welche Daten wie lange in-memory vorgehalten werden sollen und wann Daten auf günstigere Medien und Technologien ausgelagert werden.

4.2 Potentiale von In-Memory-Technologie am Beispiel von Handelsunternehmen

Handelsunternehmen weisen traditionell hohe Datenvolumina auf, was besondere Anforderungen an Handelsinformationssysteme und deren Performance darstellt. Große Handelsunternehmen stehen vor der Herausforderung, die Bedarfe in ihren Einzelhandelsketten, den Schnittstellen zum Großhandel sowie die Anforderungen der Zentralbereiche gleichermaßen abdecken zu müssen (Schütte 2011). Dazu kommen große Mengen Stamm-und Bewegungsdaten, die verstärkt für Analyseanwendungen zur Verfügung stehen müssen. Betrachtet man beispielsweise Kassenbondaten (point-of-sale, POS), so erreichen alleine diese Systeme schnell mehrere hundert Millionen Datensätze täglich. Diese Daten können zur Abverkaufs- und Bedarfsprognoserechnung herangezogen werden. Der Einsatz von IM-Technologien führt zu einer verbesserten Entscheidungsunterstützung, da bspw. Optimierungsläufe zur Forecast- und Replenishment-Berechnung aufgrund des großen Ressourcenbedarfs ohne diese Technologie häufig nur über Nacht durchgeführt werden können (Schütte 2011). Eine kurzfristige Anpassung und erneute Berechnung ist damit ausgeschlossen. Weiteres Potentzial bieten Auswertungsmöglichkeiten von POS-Daten zur Erfolgsbestimmung und Planung von Promotionskampagnen (Schütte 2011). Die Aufhebung der künstlichen Separierung von transaktionalen und analytischen Systemen, die durch die Verwendung von IMDB vorangetrieben wird, erleichtert die Aktionsplanung auf taktischer Ebene. Artikelplanung auf Basis von Abverkaufsdaten sowie die Definition der Artikel würden nicht mehr in getrennten Systemen, sondern zukünftig integriert erfolgen (Schütte 2011). Zudem bietet sich gerade im Einzelhandelsumfeld die Integration von externen Kundeninformationen aus Kundenbindungsprogrammen an. Online-Händler können darüber hinaus wertvolle Informationen aus der Anbindung und Auswertung von Social-Media-Daten gewinnen.

4.3 Unterstützung von Geschäftsprozessen durch In-Memory-Technologie im Bereich Predictive Maintenance

In Analysesystemen werden häufig Modellierungsprinzipien wie das Star-Schema verwendet, um Performanceeinschränkungen aufgrund großer Datenvolumina und DRDB zu kompensieren. Im Gegensatz zur relationalen Modellierung weisen diese Ansätze in Kombination mit einer mehrschichtigen Architektur bei einigen Anwendungsfällen Nachteile auf. Im Bereich der Wartung, Reparatur und Überholung von Fahrzeugen oder Flugzeugen ist es eine essenzielle Anforderung, Preise für individuelle Serviceangebote zu kalkulieren und zu simulieren. Je nach Größe des Anbieters können die Materiallager über ein ganzes Land oder sogar weltweit verteilt sein, wie es in der Luftfahrtindustrie häufig der Fall ist. Der Dienstleister muss einen Überblick haben, welche Teile in welchem Zustand in welchem Lager verfügbar sind. Darüber hinaus sind zahlreiche Stammdateninformationen wie Alter, Kompatibilität oder der finanzielle Wert der Komponente notwendig. Um Aussagen über die Wertentwicklung eines Gerätepools treffen oder die dauerhafte Verfügbarkeit von Komponenten nachweisen zu können, werden die Informationen sowohl für den aktuellen Zeitpunkt als auch mit ihrem historischen Verlauf benötigt. Für die Preisgestaltung von Verträgen spielen die Zulässigkeit und der Wunsch des Kunden zum Einsatz von überholten und reparierten Komponenten eine große Rolle. Dies muss in Simulationen und Angebotsgestaltungen Berücksichtigung finden. Für die Analysen werden die Daten auf sehr granularer Basis ausgehend von Materialbewegungen benötigt. Eine besondere Herausforderung sind dabei n:m Beziehungen, z. B. von Komponente und Fahrzeug- bzw. Flugzeugtyp, da eine Komponente in mehrere Typen passt, ein Typ aber gleichzeitig aus mehreren Komponenten besteht. Diese Beziehung kann über Wartungslisten als Mappingtabelle abgebildet werden. Die aufgelöste Beziehung muss mit den Materialbewegungen verbunden werden, was das Datenvolumen in einem denormalisierten DWH -Ansatz mit mehreren physischen Schichten rapide ansteigen ließe. Die in der Praxis für Materialbewegungen üblichen Größenordnungen von hundert Millionen Datensätzen oder mehr müssten in diesem multidimensionalen Ansatz noch pro Komponenten-Typ-Kombination vervielfacht werden und ließen das Datenvolumen zusätzlich rapide ansteigen. Diese Vervielfachung von Sätzen wird durch den Einsatz referenzierender Datenstruktren verhindert, da die Daten nur einmal physisch gespeichert werden und die notwendigen Berechnungen für die Analysen virtuell zur Laufzeit über Views durchgeführt werden. So wird eine notwendige Materialisierung aller möglichen Kombinationen ex ante vermieden. Somit ermöglicht der Einsatz von IM-Technologie oftmals erst die Geschäftsprozessunterstützung durch BI (Knabke et al. 2014). Zudem entfällt die komplette Neubeladung der Daten durch die relationale Modellierung im Gegensatz zur multidimensionalen Modellierung, wenn die Wartungslisten geändert oder erweitert werden. Dies ermöglicht flexible Analysen des Lagerbestands und Simulation der Wartungsintervalle.

5 Fazit und Ausblick

Wie anhand der voranstehenden Beispiele deutlich wurde, bringt der Einsatz von IM -Technologie einige wesentliche Vorteile für die betriebliche Praxis mit sich. Neben der beträchtlichen Erhöhung der Verarbeitungsgeschwindigkeit in der betrieblichen Informationsverarbeitung besteht das Potential, die aktuell vorherrschende Trennung von OLTP- und OLAP -Logik aufzuheben. Indem die Systemgrenzen von ERP und BI in den Organisationen durch den Einsatz von IMDB zunehmend verschwimmen, kann ein wesentlicher Meilenstein in Richtung einer durchgängigen Informationsversorgung erreicht werden.

Zur vollständigen Hebung dieses Potentials sind allerdings einige Bedingungen zu erfüllen: Zunächst einmal basieren die Zahlen für Performancegewinn meist auf Laborversuchen. Das Erreichen ähnlicher Größenordnungen im heterogenen betrieblichen Umfeld setzt genaue Kenntnisse über Technologie und die entsprechende Architektur der Anwendungen voraus. Ebenso ist ein erhöhter Einführungsaufwand durch die Umstellung der Datenmodelle zu erwarten. Durch die Positionierung der Produkte als Appliances (Verschmelzung von Hardware und Software) erhöht sich gleichzeitig die Abhängigkeit zu bestimmten Softwareanbietern.

Der zunehmenden Abhängigkeit der Kunden von der Produktausrichtung der großen ERP-Anbieter stehen weitreichende Integrationskonzepte gegenüber. Es ist schon jetzt zu beobachten, dass führende Anbieter von IM -Technologie ihre Produkte nicht mehr als reine Datenbanken vermarkten sondern auf die Funktionalitäten der Datenanalyse, des Datenmanagements und der Datenintegration hinweisen. Ziel ist der Aufbau eines konsolidierten Datenbestands über die gesamte Organisation hinweg, der jederzeit abrufbar ist. Der zukünftige Mehrwert wird voraussichtlich darin bestehen, diesen Datenbestand bzw. Teile davon auch für externe Geschäftspartner zugänglich zu machen und weitere Datenquellen außerhalb der eigenen Organisation in die Analysen einbeziehen zu können. Auf diese Weise können IM-Appliances als Katalysator für Verarbeitung von Big Data genutzt werden.

Literatur

Abadi, D.J., Boncz, P.A., Harizopoulos, S.: Column-oriented database systems. Proc. VLDB Endow. 2, 1664–1665 (2009)
Article Google Scholar
Baars, H., Felden, C., Gluchowski, P., Hilbert, A., Kemper, H.-G., Olbrich, S.: Shaping the next incarnation of business intelligence. Towards a flexibly governed network of information integration and analysis capabilities. Bus. Inf. Syst. Eng. 6, 11–16 (2014)
Article Google Scholar
Calvanese, D., de Giacomo, G., Lenzerini, M., Nardi, D., Rosati, R.: Description logic framework for information integration. Proceedings of the 6th International Conference on the principles of knowledge representation and reasoning (KR’98), S. 2–13 (1998)
Google Scholar
Chamoni, P.: BI-Strategie zum Ausgleich von Technologie-Push und Business-Pull. In: Lehner, W., Piller, G. (Hrsg.) Innovative Unternehmensanwendungen mit In-Memory-Data-Management. Beiträge der Tagung IMDM 2011, 2.12.2011 in Mainz, S. 13–22. Köllen Druck+Verlag GmbH, Bonn (2011)
Google Scholar
Chamoni, P., Gluchowski, P.: Analytische Informationssysteme – Einordnung und Überblick. In: Chamoni, P., Gluchowski, P. (Hrsg.) Analytische Informationssysteme, S. 3–25. Springer, Berlin (1998)
Google Scholar
DeWitt, D.J., Katz, R.H., Olken, F., Shapiro, L.D., Stonebraker, M.R., Wood, D.A.: Implementation techniques for main memory database systems. Proceedings of the 1984 ACM SIGMOD International Conference on management of data, S. 1–8. ACM, New York (1984)
Google Scholar
Eich, M.H.: A classification and comparison of main memory database recovery techniques. Proceedings of the Third International Conference on data engineering, S. 332–339. IEEE Computer Society, Washington, DC (1987a)
Google Scholar
Eich, M.H.: MARS: The design of a main memory database machine. Proceedings of the 5th International Workshop on database machines, S. 325–338 (1987b)
Google Scholar
Färber, F., Jäcksch, B., Lemke, C., Große, P., Lehner, W.: Hybride Datenbankarchitekturen am Beispiel der neuen SAP In-Memory-Technologie. Datenbank-Spektrum 10, 81–92 (2010)
Article Google Scholar
French, C.D.: „One Size Fits All“ database architectures do not work for DSS, SIGMOD ’95. Proceedings of the 1995 ACM SIGMOD International Conference on management of data, S. 449–450. ACM, New York (1995)
Book Google Scholar
Funke, K., Olbrich, S.: Increasing the value of big data projects – Investigation of industrial success stories. Proceedings of the 48th Annual Hawaii International Conference on System Sciences, (pp. Im Druck) (2015)
Google Scholar
Garcia-Molina, H., Salem, K.: Main memory database systems: an overview. IEEE Trans. Knowl. Data Eng. 4, 509–516 (1992)
Article Google Scholar
Hahne, M.: Logische Modellierung mehrdimensionaler Datenbanksysteme. Deutscher Universitäts-Verlag, Wiesbaden (2002)
Book Google Scholar
Hahne, M.: Design des Enterprise Data Warehouse. Modellieren mehrschichtiger Architekturen. BI-Spektrum 5, 8–12 (2010)
Google Scholar
Inmon, W.H.: Building the data warehouse. Wiley, New York (1996)
Google Scholar
Inmon, B.: The operational data store. Information Management Magazine (1998)
Google Scholar
Kemper, H.-G., Mehanna, W., Unger, C.: Business Intelligence – Grundlagen und praktische Anwendungen. Eine Einführung in die IT-basierte Managementunterstützung. Vieweg + Teubner, Wiesbaden (2006)
Google Scholar
Kimball, R.: The data warehouse toolkit. Practical techniques for building dimensional data warehouses. Wiley, New York (1996)
Google Scholar
Knabke, T., Olbrich, S.: Towards agile BI: applying in-memory technology to data warehouse architectures. In: Lehner, W., Piller, G. (Hrsg.) Innovative Unternehmensanwendungen mit In-Memory-Data-Management, Beiträge der Tagung IMDM 2011, 2.12.2011 in Mainz, S. 101–114. Köllen Druck+Verlag GmbH, Bonn (2011)
Google Scholar
Knabke, T., Olbrich, S., Fahim, S.: Impacts of in-memory technology on data warehouse architectures – a prototype implementation in the field of aircraft maintenance and service. In: Tremblay, M.C., et al. (Hrsg.) Advancing the impact of design science: moving from theory to practice – 9th International Conference, DESRIST 2014, (Proceedings), S. 383–387, Miami (22–24 May 2014)
Google Scholar
Krüger, J., Grund, M., Tinnefeld, C., Eckart, B., Zeier, A., Plattner, H.: Hauptspeicherdatenbanken für Unternehmensanwendungen. Datenmanagement für Unternehmensanwendungen im Kontext heutiger Anforderungen und Trends. Datenbank-Spektrum 10, 143–158 (2010)
Article Google Scholar
Loos, P., Lechtenbörger, J., Vossen, G., Zeier, A., Krüger, J., Müller, J., Lehner, W., Kossmann, D., Fabian, B., Günther, O., Winter, R.: In-memory databases in business information systems. Bus. Inf. Syst. Eng. 3, 389–395 (2011)
Article Google Scholar
Moody, D.L., Kortink, M.A.R.: From enterprise models to dimensional models: a methodology for data warehouse and data mart design. In: Jeusfeld, M.A., et al. (Hrsg.) Proceedings of the Second International Workshop on design and management of data warehouses, DMDW 2000, Stockholm (CEUR-WS.org) (5, 6 June 2000)
Google Scholar
Plattner, H.: A common database approach for OLTP and OLAP using an in-memory column database: Proceedings of the 35th SIGMOD International Conference on Management of Data, Providence, Rhode Island (2009)
Google Scholar
Plattner, H., Zeier, A.: In-Memory data management. An inflection point for enterprise application. Springer, Berlin (2011)
Google Scholar
Russom, P.: Next generation data integration. TDWI best practices report, second quarter (2011)
Google Scholar
Schaffner, J., Bog, A., Krüger, J., Zeier, A.: A hybrid row-column OLTP database architecture for operational reporting: business intelligence for the real-time enterprise, S. 61–74. Springer, Berlin (2009)
Google Scholar
Schmidt-Volkmar, P.: Betriebswirtschaftliche Analyse auf operationalen Daten. Gabler, Wiesbaden (2008)
Google Scholar
Schütte, R.: Analyse des Einsatzpotenzials von In-Memory-Technologien in Handelsinformationssystemen. In: Lehner, W., Piller, G. (Hrsg.) Innovative Unternehmensanwendungen mit In-Memory-Data-Management. Beiträge der Tagung IMDM 2011, 2.12.2011 in Mainz, S. 1–12. Bonn (2011)
Google Scholar
Stonebraker, M.: Stonebraker on data warehouses. Commun. ACM 54, 10–11 (2011)
Google Scholar
Stonebraker, M., Abadi, D.J., Batkin, A., Chen, X., Cherniack, M., Ferreira, M., Lau, E., Lin, A., Madden, S., O’Neil, E., O’Neil, P., Rasin, A., Tran, N., Zdonik, S.: C-store: a column-oriented DBMS. Proceedings of the 31st VLDB Conference, S. 553–564 (2005)
Google Scholar
Wessel, P., Köffer, S., Becker, J.: Auswirkungen von In-Memory-Datenmanagement auf Geschäftsprozesse im Business Intelligence: 11th International Conference on Wirtschaftsinformatik, S. 1781–1795, Leipzig, 27th February–1st March (2013)
Google Scholar
Winter, R.: Zur Positionierung und Weiterentwicklung des Data Warehousing in der betrieblichen Applikationsarchitektur: Data-Warehousing-Strategie, S. 127–139. Springer, Berlin (2000)
Google Scholar
Winter, R., Bischoff, S., Wortmann, F.: Revolution or evolution? Reflections on in-memory appliances from an enterprise information logistics perspective. IMDM 2011, 2. Dezember 2011, Mainz. In: Lehner, W., Piller, G. (Hrsg.) Innovative Unternehmensanwendungen mit In-Memory-Data-Management. Beiträge der Tagung IMDM 2011, 2.12.2011 in Mainz, S. 23–34. Bonn (2011)
Google Scholar

Download references

Author information

Authors and Affiliations

Lehrstuhl für Wirtschaftsinformatik, insbesondere Business Intelligence, Universität Duisburg-Essen, Duisburg, Deutschland
Tobias Knabke M.Sc. & Dr. Sebastian Olbrich

Authors

Tobias Knabke M.Sc.
View author publications
You can also search for this author in PubMed Google Scholar
Dr. Sebastian Olbrich
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Tobias Knabke M.Sc. .

Editor information

Editors and Affiliations

Technische Universität Chemnitz, Chemnitz, Germany
Peter Gluchowski
Universität Duisburg-Essen, Duisburg, Germany
Peter Chamoni

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Knabke, T., Olbrich, S. (2016). Grundlagen und Einsatzpotentiale von In-Memory-Datenbanken. In: Gluchowski, P., Chamoni, P. (eds) Analytische Informationssysteme. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-47763-2_9

Download citation

DOI: https://doi.org/10.1007/978-3-662-47763-2_9
Published: 05 December 2015
Publisher Name: Springer Gabler, Berlin, Heidelberg
Print ISBN: 978-3-662-47762-5
Online ISBN: 978-3-662-47763-2
eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics