Advertisement

Datenbanken, Data Warehousing & Data Analytics

  • Michael EbleEmail author
  • Julian M. Hoch
Living reference work entry
Part of the Springer NachschlageWissen book series (SRS)

Zusammenfassung

Die anhaltende und rapide Transformation ihrer Märkte stellt Medienunternehmen vor die Herausforderung, Geschäftsmodelle weiter zu digitalisieren und nachhaltig anzupassen. Dazu gewinnt ein breiter Technologie-Stack für das Aggregieren, Speichern und Analysieren von Big Data an Bedeutung: Mittels der Big Data Value Chain werden polystrukturierte und multimodale Daten miteinander kombiniert und analytische Erkenntnisse in Stapel- und Echtzeitverarbeitung gewonnen. Dazu werden in einer generischen Lambda-Architektur verschiedene Datenbanksysteme sowie Verfahren zur Datenanalyse (Text Mining, Audio Mining und Video Mining) kombiniert. Das ermöglicht es, Nutzenpotenziale in Produktion und Distribution von Medieninhalten zu heben, wie der Artikel am Beispiel der Deutschen Presseagentur (dpa)/Deutschen Welle (DW) und Netflix skizziert.

Schlüsselwörter

Big Data Multimodale Daten Polystrukturierte Daten Data Analytics Lambda-Architektur Produktion Distribution Digitale Medien Online-Medien 

1 Einleitung

Der transdisziplinäre Beitrag hat drei Ziele: Erstens gibt er einen Überblick über Ergebnisse aus Forschung und Entwicklung im Bereich der Aggregation und Speicherung von heterogenen und multimodalen Daten. Zweitens diskutiert er den Status quo und Perspektiven von Big Data Analytics im Hinblick auf die Wertschöpfungskette von Medienunternehmen. Drittens zeigt der Beitrag zukünftige Forschungsthemen in diesem Kontext auf.

Dazu ist der Artikel in vier Abschnitte unterteilt: Erstens wird aus Ressourcen-basierter Sicht für Kompetenzen zur Anwendung von Technologien aus dem Bereich der Big Data Analytics argumentiert sowie relevante Begriffe der Computer Science kurz definiert. Zweitens wird der Stand der Forschung und Technik bzgl. (a) der Erfassung und Speicherung von Multimediadaten sowie (b) der Analyse und Verwendung von Big Data dargestellt. Drittens werden daran anknüpfend Potenziale von Big Data Analytics für die Wertschöpfung von Medienunternehmen diskutiert. Schließlich werden, viertens, Ansatzpunkte für weitere Forschung zusammengefasst.

Die anhaltende Transformation von vormals fest etablierten Medienmärkten stellt publizistische Medienunternehmen vor die Herausforderung, ihre Geschäftsmodelle zu digitalisieren und nachhaltig anzupassen sowie komplett neue Geschäftsmodelle aufzubauen. Aus einer Ressourcen-basierten Betrachtung von Medienorganisationen sind es dabei einzigartige Bündel von Assets, die nachhaltigen Unternehmenserfolg sichern sollen. Ein Aspekt dieser Ressourcen sind dynamische Kernkompetenzen (dynamic capabilities), die es Unternehmen erlauben, ihre Leistungsbündel auf neu entstehende Märkte zu übertragen und so neu aufkommende Kundenbedarfe zu bedienen (Dierickx und Cool 1989; Prahalad und Hamel 1990; Nelson 1991; Eisenhardt und Martin 2000). Eine Bedingung dafür ist die Absorptionsfähigkeit (absorptive capacity) von Medienunternehmen: Darunter wird die Fähigkeit einer Organisation verstanden, Veränderungen auf strategischer und operativer Ebene schnell zu erkennen und entsprechend bedarfsorientierte Leistungen neu zu entwickeln, die auf in der Organisation bereits vorhandenen Kompetenzen aufbauen (Cohen und Levinthal 1990). In diesem Zusammenhang können dynamische Kernkompetenzen verstanden werden als „the firm’s ability to integrate, build, and reconfigure internal and external competences to address rapidly changing environments“ (Teece et al. 1997, S. 516).

Im Kontext der gegenwärtigen Medienökonomie steigt dementsprechend die Bedeutung, einen breiten Technologie-Stack für das Aggregieren, Speichern und Analysieren von heterogenen und multimodalen Daten zu beherrschen. Als Grundlage für die weiteren Ausführungen dazu werden zunächst die Begriffe ‚Datenbank‘, ‚Datenbankmanagementsystem‘, ‚Data Warehousing‘ und ‚Data Analytics‘ definiert.

Datenbanken werden als organisierte Sammlungen von Daten verstanden, die generalisierte Datenstrukturen verwenden und von einem oder mehreren Nutzern verwendet werden (Bourque und Fairley 2014, S. 13–17): Daten werden darin als so genannte „Entitäten“ modelliert und gespeichert: Bei Entitäten kann es sich z. B. um Personen und Organisationen handeln. Dabei definiert das Datenbankschema (oder auch: die Datenbankstruktur) die Attribute der Entitäten, also z. B. Name, Alter und Telefonnummer einer Person. Demgegenüber definiert das Datenbankmodel, in welcher Beziehung die Entitäten innerhalb der Datenbank gespeichert und verarbeitet werden. Verbreitete Ansätze sind relationale, netzwerkbasierte, objektorientierte und dokumentenbasierte Datenbankmodelle (Bourque und Fairley 2014, S. 13–18).

Datenbankmanagementsysteme stellen Funktionalitäten zum Erzeugen (Create), Lesen (Read), Verändern (Update) und Löschen (Delete) von Entitäten in Datenbanken zur Verfügung (CRUD-Logik). Dazu setzen diese Systeme auf Schema und Model der jeweiligen Datenbank auf und stellen zur Nutzung der Funktionalitäten spezifische Abfragesprachen (database query languages) bereit (Bourque und Fairley 2014, S. 13–18).

Data Warehousing bezeichnet ein Tätigkeitsfeld, das zum Ziel hat, heterogene Daten aus verteilten Datenbanken und anderen Datenquellen (z. B. Web-Ressourcen) in ein gemeinsames, einheitliches Datenmodell zu überführen und so einen integrierten Zugang zu diesen Daten zu ermöglichen (Chaudhuri et al. 2011, S. 80). So genannte „ETL-Prozesse“ – also das Extrahieren, Transformieren und Laden von Daten – bilden die dafür erforderlichen Arbeitsschritte (Chaudhuri et al. 2011, S. 96–97; Chen et al. 2012). Das Bezugssystem dieses Prozesses ist das Data Warehouse, das im Kern ebenfalls eine oder mehrere Datenbanken umfasst.

Data Analytics können Data Warehouses als Ausgangs- und als Zielsysteme nutzen, jedoch durchaus auch unabhängig von ihnen sein: Derartige Verfahren dienen z. B. der Erkennung (pattern recognition) und Vorhersage von Besonderheiten und Mustern in Daten und basieren z. B. auf statistischen Auswertungen oder Lernansätzen (Bourque und Fairley 2014, S. 13–19; Gandomi und Haider 2015). Anhand von erkannten Mustern können z. B. Zusammenhänge zwischen Entitäten (wie Personen, Organisationen und Orten) entdeckt sowie Dokumente mit gemeinsamen Merkmalen zu Gruppen (cluster) zusammengefasst werden (Chaudhuri et al. 2011; Gandomi und Haider 2015; LaValle et al. 2011). Derartige Verfahren werden nachfolgend detaillierter betrachtet.

2 Stand der Forschung und Technik

Mit der Digitalisierung von öffentlicher und persönlicher Kommunikation, von Geschäftsprozessen sowie des Informationsaustauschs generell nimmt die Menge (Volume), die Vielfalt (Variety) und die Geschwindigkeit (Velocity) der entstehenden und zu verarbeitenden Daten zu. Diese Entwicklung wird vielfach anhand der ‚3-V-Charakteristika‘ beschrieben und mit dem Begriff ‚Big Data‘ belegt (Laney 2001; Hu et al. 2014; Gandomi und Haider 2015). Grundlegend ist dabei für das Kriterium der Datenvielfalt, dass unstrukturierte und strukturierte Daten in unterschiedlichen Modalitäten (Heterogenität) in verteilten Systemen erzeugt und gespeichert werden (Dezentralität). Diese Entwicklung lässt sich anhand von publizistisch tätigen Medienunternehmen, Unterhaltungsanbietern und Nicht-Medienunternehmen illustrieren.

Die Daten, die bei publizistisch tätigen Medienunternehmen (wie Online-Medien von z. B. Zeitungs- und Zeitschriftenverlagen oder Nachrichtenagenturen) in der redaktionellen Produktion und anschließenden Distribution von Medieninhalten für Endnutzer relevant sind, können zunächst anhand ihrer Modalität strukturiert werden: Nummerische Daten sind für die journalistische Berichterstattung über Sportereignisse, Börsenkurse und Wetterentwicklungen wesentlich. Sie entstammen zum Beispiel entsprechenden Tickern oder Sensoren für Temperatur oder Hochwasserpegel. Zu Textdaten zählen die von Journalisten und von Nutzern verfassten Artikel – von Leitartikeln, über Kommentare bis zu Leserbriefen oder Beiträgen im Social Web. Bei Audiodaten handelt es sich etwa um Podcasts oder Mitschnitte von Interviews. Bild- und Videodaten umfassen sowohl z. B. Fotos von Politikern und Grafiken über Bevölkerungsentwicklungen als auch Bewegtbilder wie etwa Nachrichtensendungen.

Im Tagesgeschäft stehen Journalisten der publizistisch tätigen Medienunternehmen heute stärker denn je vor der Herausforderung, derartige multimodale Daten von Agenturen, aus Kommunikationsabteilungen von Regierungen, Unternehmen und anderen Organisationen, von Redaktionen an anderen Standorten, von Augenzeugen usw. in großen Mengen für die journalistische Nachrichtenproduktion auswerten zu müssen. Mit steigender Vielfalt von Datenquellen und Datenmodalitäten bei gleichzeitig sinkender verfügbarer Zeit und (natürlicherweise) limitierter kognitiver Fähigkeiten, wird es für Journalisten schwieriger, die Nachrichtenlage zu beobachten und den Überblick zu behalten.

Weitere Beispiele für multimodale Daten finden sich bei Medienunternehmen, die vornehmlich Angebote im Bereich von Unterhaltung und Infotainment produzieren und vertreiben (z. B. Video-Plattformen wie Netflix oder Fernsehsender wie ProSieben). Weitreichende Konvergenzen entlang der bisherigen Wertschöpfungsketten prägen die Branche: Vielfältige neue Medienangebote bedienen neue Kanäle, Plattformen und Endgeräte. Diese Angebote werden auf immer stärker non-lineare Nutzungsbedürfnisse des Publikums ausgerichtet. Im Kontext dieses Wandels werden Technologien für TV-spezifischen Data Analytics eine Schlüsselfunktion beigemessen (Eble und Winkler 2014). Vielfältige neue Datenquellen, eine gestiegene Geschwindigkeit in der Entstehung, der Anspruch einer Verarbeitung mit Echtzeit- und Onlinefähigkeit sowie der massive Anstieg der Datenmenge fordern Technologieentwicklung und -anwendung heraus.

Auch hier ist es das Ziel, neue Potenziale durch das Vernetzen und Integrieren von verteilten und heterogenen Datenquellen zu schaffen und zu heben: In vielen Fällen handelt es sich bei diesen Datenquellen um historisch gewachsene Daten-Silos, die anhand ihres Nutzungszwecks wie folgt strukturiert werden können: Mit Hilfe von Betriebsdaten über Bild- und Ton-Qualität, Ende-zu-Ende-Performance sowie über Kapazität und Skalierung steuern die Betriebsverantwortlichen ihre Systeme. Nutzer- und Nutzungsdaten sind insbesondere für das Produkt- und Partnermanagement relevant. Darunter fallen sowohl soziodemografische und Vertragsdaten als auch Paket- und Kanal-Absätze sowie Nutzungszahlen und Quoten der einzelnen Sender, Konsumarten und Funktionalitäten. Inhaltliche und strukturelle Metadaten sowie Suchindizes werden unter Inhaltsdaten zusammengefasst und von Redaktionen und sonstigen Anbietern (z. B. Verlagen) gepflegt. Werbedaten sind Steuerungsgrößen für das Marketing und den Vertrieb; sie beinhalten z. B. Daten aus Absatz- und Kündigungsentwicklungen (Churn-Raten), Angebots-Performance und Affiliate-Monitoring.

Auch in Nicht-Medienunternehmen werden unstrukturierte und strukturierte Daten unterschiedlicher Modalitäten in verteilten Systemen erzeugt und gespeichert. Das sind z. B. in den Forschungs- und Entwicklungsbereichen von Pharma- und Chemiekonzernen die folgenden Daten: Textdaten wie Versuchsprotokolle, Patentschriften, Sicherheitsdatenblätter und Studien über Märkte und Wirkstoffe; Bilddaten wie chemische Strukturformeln und Röntgenbilder; Daten in domänenspezifischen Auszeichnungssprachen wie die auf XML basierende Chemical Markup Language (CML) zur semantischen Modellierung von Molekülen, Reaktionen u. ä. (Eble und Kirch 2014).

In den beschriebenen Kontexten können Data Analytics sowohl zum Erfassen und Speichern als auch zum Analysieren und Verwenden von multimodalen Daten eingesetzt werden.

2.1 Erfassen und Speichern von multimodalen Daten

Um multimodale Daten zu erfassen, müssen deren Strukturiertheit und Geschwindigkeit berücksichtigt werden (Eble et al. 2014; Eble 2013):
  • Strukturiertheit: Im Fall von strukturierten Daten folgen die Daten einem gleichartigen, bestimmten und bestimmbaren Schema (Datenmodell). Das können Attribut-Wert-Paare über Entitäten wie Personen oder Organisationen in einer Datenbank-Tabelle sein. Im Fall von semistrukturierten Daten haben diese unmittelbar kein solches übergreifendes Schema, sondern sind höchstens teilweise Strukturen unterworfen. Das sind etwa Texte über Personen oder Organisationen als HTML-Seiten, die anhand von Tags oder anderen semantischen Auszeichnungen von Markup-Sprachen teilweise strukturiert sind. Im Fall von unstrukturierten Daten sind diese an keiner formalisierten Struktur ausgerichtet. Ein Beispiel dafür ist die Aussage eines Politikers als Text in natürlicher Sprache auf einer Website. Für die Erfassung von Daten bedeutet das, dass strukturierte Daten mit vergleichsweise geringem Aufwand in unmittelbar maschinenlesbarer und -verarbeitbarer Form erhoben werden können – z. B. über normierte Datenmodelle (z. B. Linked Data mittels Resource Description Framework), standardisierte Schnittstellen (Application Programming Interfaces) oder Datenbankabfragesprachen wie Structured Query Language (SQL). Zum Erfassen von unstrukturierten Daten kommen Verfahren wie Crawling und Parsing von Daten zum Einsatz. Dabei werden automatisiert z. B. HTML-Quelltext, Bilder oder Videos von Websites aufgerufen (Crawling). Diese werden anschließend in die jeweils benötigte Datenstruktur überführt (Parsing).

  • Geschwindigkeit: Für die journalistische Nachrichtenproduktion sind sowohl Daten mit einer niedrigen als auch einer hohen Dynamik von Relevanz. Daten, die einer niedrigen Dynamik unterworfen sind, sind z. B. Nachrichtenarchive oder Dossiers zu bereits verstorbenen Personen der Zeitgeschichte. Daten, die von hoher Dynamik charakterisiert sind, entstammen z. B. Ticker-Diensten von Nachrichtenagenturen oder Plattformen des Social Webs wie etwa Twitter oder Facebook. Für die Erfassung von Daten bedeutet das, dass Batch-Verfahren (Stapelverarbeitung) für geringe Dynamiken mit echtzeitnahen und onlinefähigen Stream-Verfahren für hohe Dynamiken kombiniert werden müssen.

Für das Speichern der erhobenen Daten ist es wesentlich, dass diese verschiedenen Quellen entstammen und dementsprechend für die weitere Verwendung aggregiert werden müssen (z. B. im unternehmenseigenen Data Warehouse). Eine Herausforderung der Datenintegration besteht dabei darin, die polystrukturierten Daten in ein gemeinsames Datenmodell zu überführen oder zumindest Entitäten und Attribute zu identifizieren, anhand derer die Daten miteinander verknüpft werden können. In der journalistischen Nachrichtenproduktion kann es sich z. B. um eine Veranstaltung handeln, zu der polystrukturierte Daten aus einem Nachrichtenarchiv und der tagesaktuellen Redaktion, aus Wikipedia und von Twitter aggregiert werden sollen. Dies kann anhand des Veranstaltungsortes (Name sowie Längen- und Breitengrade) und anhand von Zeitstempeln umgesetzt werden.

Eine wesentliche Facette der Aggregation bzw. Vernetzung von verteilten Daten ist das Paradigma Linked (Open) Data (Auer 2014): Die Vision hinter diesem Paradigma ist es, ein „Netz aus Daten“ zu schaffen, in dem heterogene Daten aus verschiedenen Quellen nicht mehr von menschlichen Anwendern manuell, sondern durch Verfahren der semantischen Datenintegration automatisch vernetzt und genutzt werden können. Dafür müssen dezentral gehaltene Daten nach LOD-Prinzipien so veröffentlicht werden, dass sie mittels verbreiteter und offener Web-Technologien in Beziehung zueinander gesetzt werden können. Wenngleich auch das informationstechnische und ökonomische Potenzial von Linked Data für Medienunternehmen als sehr hoch eingeschätzt wird, liegen gegenwärtig erst wenige systematisch umgesetzte Praxisbeispiele vor (Dirschl et al. 2014; Pellegrini 2012, 2014).

Zum Speichern der erfassten Daten sind wiederum die Kriterien der Strukturiertheit und der Geschwindigkeit von Bedeutung (Chaudhuri et al. 2011; Abelló 2015):
  • Strukturiertheit: Zur Speicherung von strukturierten Daten sind „traditionelle“ relationale Datenbankmanagementsysteme (RDBMS) weit verbreitet, wie sie auch in den o. g. Datawarehouses vielfach genutzt werden. Demgegenüber verwenden NoSQL-Datenbanken (NoSQL: Not only Structured Query Language) keine festgelegten Tabellenschemata. Im Fall von unstrukturierten Daten – wie z. B. HTML-Seiten aus dem Crawling, Textdokumente oder Audio- und Videodateien – werden neben NoSQL-Datenbanken auch (verteilte) Dateisysteme verwendet.

  • Geschwindigkeit: Relationale Datenbanken sind weitgehend darauf optimiert, kleine Datenmengen in hoher Frequenz entgegenzunehmen oder im Batch-Verfahren bereits strukturiert gespeicherte Daten bereitzustellen. Demgegenüber sind sie nur sehr eingeschränkt dafür geeignet, gleichzeitig große Datenmengen bereitzustellen und häufige Datenänderungen abzubilden. Verteilte Dateisysteme und NoSQL-Datenbanken (z. B. Graph-, Key-Value-, Dokument- oder Wide-Columns-Datenbanken) hingegen sind darauf ausgerichtet, mit hohen CRUD-Dynamiken (Create, Read, Update & Delete; siehe oben) von Daten in verteilten Systemen umzugehen. In den vergangenen Jahren sind die Geschwindigkeitsbedarfe von Datenbanken signifikant gestiegen. So genannte ‚In Memory‘-Datenbanken unterstützen diesen Bedarf durch sehr kurze Zugriffszeiten. Dazu wird der Arbeitsspeicher von Systemen verwendet und Verfahren der Data Analytics werden auf derartig arbeitsspeicheroptimierte Umgebungen angepasst.

Die Forschung und Entwicklung zur Erfassung und Speicherung von multimodalen Daten bemüht sich insbesondere darum, Technologien zur Bewältigung der steigenden Geschwindigkeit der Entstehung von polystrukturierten Daten zu verbessern, um damit der wachsenden Menge an internetfähigen Datenproduzenten und -nachfragern (wie z. B. Mobile Endgeräte und Sensoren) gerecht zu werden.

2.2 Analysieren und Verwenden von multimodalen Daten

Die Analyse von multimodalen Daten orientiert sich am jeweiligen Erkenntnisinteresse (Verwendungszweck) sowie an den verfügbaren Daten. Hinsichtlich des Erkenntnisinteresses kann grob zwischen vergangenheitsorientierter Beobachtung/Exploration und zukunftsorientierter Prognose/Modellierung unterschieden werden: Im ersten Fall können Aggregation oder Ausreißeranalysen von Interesse sein. Ein Beispiel dafür in der journalistischen Nachrichtenproduktion ist die Identifikation von Wirtschaftsbeziehungen anhand von Zahlungsströmen. Im zweiten Fall sind Klassifikation, Assoziations-, Cluster- oder Regressionsanalysen von Bedeutung. In der redaktionellen Arbeit kann es sich dabei z. B. um das Auswerten des Verhältnisses von einem Event A und einem Event B zu einem Event C handeln.

Sowohl zur Beobachtung als auch zur Prognose kommen Verfahren der Data Analytics zum Einsatz, die in den vergangenen Jahrzehnten in Informatik und Computerlinguistik entwickelt wurden und anhand der Modalität der verfügbaren Daten strukturiert werden können (Chen et al. 2012; Chaudhuri et al. 2011; Eble und Stein 2015; Gandomi und Haider 2015):
  • Text Mining: Verfahren dieser Klasse extrahieren Informationen aus Textdaten und werden auch als „Knowledge Discovery from Text“ bezeichnet. Das bedeutet, dass aus Nachrichtenartikeln, Facebook-Kommentaren oder anderen schriftsprachlichen Äußerungen unterschiedlich stark strukturierte Daten generiert und ausgewertet werden. Auf diese Weise können z. B. große Mengen von unsortierten Dokumenten anhand ihrer jeweiligen Inhalte bestimmten Themen-Clustern wie Sport, Wirtschaft oder Politik zugeordnet werden. Ebenso können in Textmengen die darin benannten Entitäten wie Personen, Organisationen und Orte identifiziert und disambiguiert werden. Dazu werden statistische und (computer-)linguistische Methoden zum Information Retrieval (IR), Information Extraction (IE), Natural Language Processing (NLP) und Machine Learning (ML) eingesetzt. Exemplarische Anwendungsgebiete sind das Web (Content) Mining oder Sentiment-Analysen.

  • Audio Mining: Verfahren dieser Klasse extrahieren Informationen aus Audiodaten und werden auch als „Speech Analytics“ oder „Automatic Speech Recognition“ (ASR) bezeichnet. Das bedeutet, dass aus gesprochener Sprache (z. B. aus Nachrichtensendungen) verschiedene Daten über Sprachstrukturen und -inhalte sowie über Sprecher generiert werden. Damit können Audiodaten z. B. nach darin vorkommenden Begriffen durchsucht sowie Sprecher voneinander abgegrenzt (z. B. Journalist vs. Politiker) und identifiziert (Claus Kleber vs. Angela Merkel) werden. Dazu werden mittels Automatic Speech Recognition die Audiodaten in solche Teile segmentiert, die gesprochene Sprache enthalten, und in solche, in denen keine Sprache vorkommt; sodann werden Sprachsegmente von gleichen Sprechern gruppiert, die Sprecher erkannt und deren Aussagen in Textdaten transformiert. Exemplarische Anwendungsgebiete sind Online-Inhaltsanalysen, Multimedia Indexing und Customer Service Support.

  • Image bzw. Video Mining: Verfahren dieser Klasse extrahieren Informationen aus Bild- bzw. Videodaten und werden auch als „Image Analysis“ bzw. „Video Content Analysis“ bezeichnet. Das bedeutet, dass in den Bildern einer Videoaufzeichnung bestimmte Strukturen und deren Veränderung im Zeitverlauf identifiziert und interpretiert werden – z. B. Objekte wie bekannte Gebäude (Object Detection/Recognition) oder Gesichter von Personen (Face Detection/Recognition). Damit können Videoarchive nach Aufnahmen zu bestimmten Personen durchsucht (Video Indexing) oder Journalisten auf bestimmte Ereignisse in Fernsehbildern aufmerksam gemacht werden (Video Monitoring). Hier können ebenfalls Text Mining und Audio Mining zum Einsatz kommen, falls das Video die entsprechenden Daten enthält.

3 Perspektiven von Big Data Analytics

„Sind die in Medienunternehmen zu einem großen Anteil unstrukturierten Daten (Text, Bild, Video etc.) durch den Einsatz von Big-Data-Technologien erst einmal in vollem Umfang für die Datenanalyse nutzbar, können sich hier neue Anwendungspotenziale ergeben“ (Picot und Propstmeier 2013). Solche Potenziale bestehen z. B. in der Unterstützung der Medienproduktion in den Redaktionen von Nachrichtenagenturen und Online-Medien: Die echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen ermöglicht etwa eine weltweite Erkennung von Events (wie z. B. Proteste) in (nahezu) Echtzeit. Die gleichzeitige Anreicherung der entsprechenden Daten mit bereits strukturierten und externen Daten (wie z. B. archivierte Nachrichtensendungen und Linked-Open-Data-Quellen) ermöglicht eine Kontextualisierung des aktuellen Geschehens. Solche Perspektiven von Big Data Analytics können entlang einer Wertschöpfungskette in Medienunternehmen strukturiert und betrachtet werden.

3.1 Wertschöpfungskette für Big Data

Die Wertschöpfungskette für Big Data ergänzt die Content Value Chain (Pellegrini 2014) von Medienunternehmen um das automatisierte Sammeln, Integrieren und Verwerten von heterogenen und multimodalen Daten (Miller und Mork 2013) und setzt dazu die in Abschn. 2 besprochenen Technologien ein:
  1. 1.

    Sammeln von Daten: Im ersten Schritt werden zunächst interne und externe Datenquellen in einem Inventar gesammelt und um beschreibende Metadaten ergänzt. Für jede Datenquelle werden dann deren spezifische Nutzungsmodalitäten (Konnektoren) und -regeln geklärt. Um die heterogenen Datenquellen technisch und organisatorisch in die Wertkette einbinden zu können, werden anschließend die jeweiligen Strukturen und Semantiken der Datenquellen bestimmt.

     
  2. 2.

    Integrieren von Daten: Im zweiten Schritten werden eine gemeinsame Repräsentation der Daten für die unternehmensspezifische Wertkette geschaffen, Daten bereinigt und gleichzeitig aber auch die Information über Herkunft und Originalzustand (Rohdaten) erhalten.

     
  3. 3.

    Verwerten von Daten: Im dritten Schritt werden die integrierten Datenquellen mit geeigneten Verfahren der Data Analytics analysiert (siehe oben). Die Analyseergebnisse werden an interaktive Applikationen zur Visualisierung übergeben, mittels derer dann ein Explorieren oder Filtern der Ergebnisse möglich wird. Schließlich werden die gewonnenen Erkenntnisse entweder zu einem Bestandteil von z. B. Nachrichtensendungen oder die Applikationen selbst werden direkt in Digitalprodukten zugänglich gemacht.

     

Um Big Data auf diese Weise medienökonomisch verwerten zu können, sind neben den oben beschriebenen Verfahren der Data Analytics auch spezifische Infrastrukturen und Systeme erforderlich: Bei den letztgenannten handelt es sich um Hardware- und Softwarekomponenten, die den Verfahren zum Sammeln, Integrieren und Verwerten von heterogenen Multimediadaten einen gemeinsamen Rahmen geben. Einen solchen Rahmen bietet die Lambda-Architektur, die nachfolgend besprochen wird.

3.2 Blueprint-Architektur für Big Data

Als Blaupause für Big-Data-Architekturen kann die Lambda-Architektur herangezogen werden, die ursprünglich von Marz (2011, 2012) konzipiert wurde und dreiteilig modularisiert ist:
  • Batch Layer: Im Batch Layer werden eingehende Rohdaten zyklisch prozessiert und Berechnungsergebnisse zur Präsentation aufbereitet. Die heterogenen Rohdaten ‚fließen‘ aus verschiedenen Quellen (mehr oder weniger) kontinuierlich in das System ein, wodurch dessen Datenbestand wächst. Der Batch Layer nimmt diese Ströme zunächst ohne eine modifizierende Verarbeitung als Rohdaten entgegen. Alle aufgenommenen Rohdaten werden dann zyklisch (iterativ) mit den jeweils geeigneten Verfahren verarbeitet und zur anfragespezifischen Darstellung vorberechnet (hohe Latenz). Durch das Vorhalten der ursprünglichen, unveränderten Rohdaten werden zukünftige, neue Anfragen an die (historischen) Datensets bzw. Analysen mit neuen Verfahren technisch ermöglicht (Reprocessing).

  • Speed Layer: Auf dieser Ebene werden neu einkommende Daten unmittelbar analysiert. Dahinter steht das Ziel, die Laufzeiten des Batch Layers mit inkrementellen Updates zu überbrücken. So können Analyseergebnisse auch auf erst kürzlich eingegangenen Daten möglichst direkt der jeweiligen Anwendung bereitgestellt werden (niedrige Latenz).

  • Serving Layer: Diese Systemschicht indexiert die vorberechneten Ergebnisdarstellungen der Analyse und macht die von Batch Layer und Speed Layer übermittelten Ergebnisse unmittelbar nutzbar.

Innerhalb einer solchen Architektur können Anfragen an das System beantwortet werden, indem Ergebnisse aus Stapel- und Echtzeitverarbeitung miteinander kombiniert werden. Dazu kann es erforderlich sein, die benötigten Analyseverfahren sowohl im Batch Layer als auch im Speed Layer zu implementieren und zu betreiben/warten. Das erfordert entsprechend parallele Aufwände und ist fehleranfällig; ein Lösungsansatz dafür wird als Kappa-Architektur diskutiert, die ausschließlich auf Stream Layer und Serving Layer basiert und die Speed-Prozessierung mehrfach instanziiert, wenn historische Daten erneut analysiert werden müssen (Kreps 2014).

3.3 Nutzenpotenziale und Herausforderungen von Big Data

Mittels der dargestellten Wertkette und Technologien können Nutzenpotenziale von Big Data für die Produktion und Distribution von Medieninhalten erzielt werden. Diese Potenziale lassen sich anhand einer vierstufigen Reifegrad-Systematik von Porter und Heppelmann (2014) strukturieren:
  • Beobachten: Der Status der eigenen Produkte und Dienstleistungen sowie ihre Nutzung werden mittels der Analyse interner und externer Datenquellen nachvollzogen.

  • Steuern: Durch den Einsatz von Big-Data-Technologien werden Produktfunktionen und Nutzererlebnis gesteuert.

  • Optimieren: Beobachtungs- und Steuerungsfunktionen ermöglichen es, Verbesserungspotenzial in Produktion, Betrieb und Nutzung von Digital-Produkten zu heben.

  • Automatisieren: Sind die Potenziale drei vorherigen Stufen realisiert, kann der Betrieb von Produkten und Diensten automatisiert werden, indem z. B. autonome Agenten eigenständig Selbstdiagnose und Kundenservice übernehmen.

Das Reifegradmodell nach Porter und Heppelmann lässt sich für den Bereich der journalistischen Nachrichtenproduktion am Beispiel einer Big-Data-Kooperation zwischen Deutscher Presse Agentur (dpa) und Deutscher Welle (DW) wie folgt illustrieren (Kamp 2015; Mey 2015):
  • Beobachten: Systeme können im Tagesgeschäft die distributive und kommunikative Reichweite der von den eigenen Redaktionen veröffentlichten Nachrichten auf Plattformen des Social Webs sowie die Berichterstattung anderer Online-Medien beobachten.

  • Steuern: An die Beobachtungen anknüpfend können Hintergrundinformationen zu relevanten Named Entities verlinkt und damit das inhaltliche Angebot ergänzt und bereits zuvor produzierte Inhalte mehrfach verwertet werden. Zudem können bei bestimmten Triggern (z. B. ein Politiker beginnt im Fernsehen zu sprechen) SMS-Nachrichten an Redakteure geschickt werden, um ihre Aufmerksamkeit auf das für sie relevante Geschehen zu lenken.

  • Optimieren: Die Nachrichtenproduktion kann mittels Data Analytics (Text Mining und Audio Mining) durch das automatische Filtern und Aggregieren von polystrukturierten und multimodalen Daten (z. B. Clustering von Dokumenten zu Themen) aus verschiedenen Quellen (z. B. aktuelle Nachrichten im eigenen sowie in fremden Angeboten; das eigene Nachrichtenarchiv; Social Media) verbessert werden.

  • Automatisieren: Durch die Kombination von Verfahren in Batch- und Speed-Prozessierung können automatisch neue Themen identifiziert werden, die dann Redakteuren als Vorschläge präsentiert werden. Zudem können Metadaten automatisch verifiziert und um Linked Open Data ergänzt werden (z. B. Geo-Informationen zu Artikeln).

Das o. g. Stufenmodell lässt sich auch für den Bereich der Unterhaltung am Beispiel von Netflix illustrieren (Amatriain 2013a, b, 2014). Netflix verarbeitet innerhalb seiner Big-Data-Architektur interne Daten sowohl (a) über seine Videoinhalte (Metadaten zu jedem Film bzw. zu jeder Serien-Episode, die bei Netflix abrufbar ist) als auch (b) über seine Nutzer (Personendaten sowie die individuelle Interaktion mit Inhalten und Funktionalitäten). Ebenfalls werden externe Daten (z. B. Box Office) einbezogen. Auf den vier Stufen realisiert Netflix‘ Analyse von internen und externen Daten folgende Nutzenpotenziale sowohl für die Produktion als auch die Distribution von Content:
  • Beobachten: Netflix beobachtet nicht nur die Präferenzen seiner Nutzer hinsichtlich Genre, Kategorien, Titel und Schauspieler, sondern auch wie schnell die Nutzer einzelne Serien-Episoden ansehen und wie viele Episoden sie in direkter Abfolge konsumieren.

  • Steuern: Basierend auf den erfassten Beobachtungen steuert Netflix z. B. die Zusammenstellung der individuellen Startseite des jeweiligen Nutzers hinsichtlich der Auswahl und Reihenfolge von Medienangeboten. Neue Produktfunktionen können (zunächst) nur für spezifische Gruppen von Nutzern freigeschaltet werden.

  • Optimieren: Netflix optimiert u. a. die Produktion von Serien für das eigene Angebot. Für die Eigenproduktion „House of Cards“ etwa zeigten die Analysen von Nutzungsdaten, dass die ursprüngliche britische Serie mit demselben Namen ebenso nachgefragt wurde wie politische Thriller, Filme von David Fincher und Filme mit Schauspieler Kevin Spacey.

  • Automatisieren: Netflix kombiniert Verfahren der Batch- und der Speed-Prozessierung, um zeitunelastische Daten offline zu analysieren bzw. um zeitkritische Anfragen in Nearline- und Online-Berechnung zu behandeln. Der Produktbetrieb wird so bis zu einem gewissen Grad automatisiert.

Das Heben derartiger Nutzenpotenziale im Bereich von Information und Unterhaltung birgt für Medienunternehmen technologische und organisatorische Herausforderungen, zu deren Überwindung mehrere Kompetenzen erforderlich sind:
  • Technologische Herausforderungen: Hier bestehen zunächst Schwierigkeiten in der Integration von Datenquellen aus unterschiedlichen Abteilungen und Standorten (Schnittstellen, Formate, …). Daneben sind Herausforderungen aus eingeschränkter Qualität und Validität von Daten sowie unzureichender Performance und Skalierbarkeit zu überwinden (Malaka und Brown 2015).

  • Organisatorische Herausforderungen: Die Verantwortung und Kontrolle über Big Data (Analytics) innerhalb der jeweiligen Organisation wird ebenso als herausfordernd gewertet („Silo-Denken“, Verantwortlichkeiten, …) wie fehlende Kompetenzen von Mitarbeitern im Umgang mit Big-Data-Technologien. Hinzu kommen unternehmensinterne und -externe rechtliche Rahmenbedingungen der Datenverknüpfung (Malaka und Brown 2015).

  • Erforderliche Kompetenzen: Zur effektiven Nutzung von Big Data sind gleichzeitig sowohl Fachwissen bzgl. der Funktionalbereiche des jeweiligen Unternehmens und seiner Branche als auch Kompetenzen in Data Analytics und Technologie-Anwendung notwendig (LaValle et al. 2011). Zudem sind ausgeprägte Kommunikationsfähigkeiten von hoher Bedeutung, um die richtigen Fragen an die Daten zu formulieren und Erkenntnisse aus der Analyse an Fachabteilungen und Management zu vermitteln (Chen et al. 2012; Davenport und Patil 2012; Debortoli et al. 2014). Mitarbeiter mit einem solch breiten Kompetenzprofil sollten in operativen Geschäftsbereichen mit einem nahen Bezug zu Produkten und Prozessen haben – anstatt in einer IT-Abteilung angesiedelt zu sein (Davenport et al. 2012).

4 Zusammenfassung und Ausblick

Als Ausgangspunkt der Nutzung von Big Data in Medienunternehmen wurden die Spezifika von heterogenen Multimedia-Daten betrachtet. Deren Polystrukturiertheit, Modalitäten und Dynamiken erfordern spezifische Analyse-Verfahren des Text Mining, Audio Mining und Video Mining. Die Big-Data-Wertkette umfasst das Sammeln, Integrieren und Verwerten von Daten. Dazu werden die Analyse-Verfahren in einer Big-Data-Architektur kombiniert, um Vorteile von Batch-Prozessierung (Verarbeitung von historischen Daten bei hoher Latenz) und Speed-Prozessierung (Verarbeitung von aktuellen Daten bei niedriger Latenz) zu nutzen. Die damit ermöglichten Nutzenpotenziale für digitale Produkte und Services (z. B. Verifikation und Ergänzung von Metadaten oder Mehrfachverwertung von Inhalten) können stufenweise vom Beobachten über das Steuern und das Optimieren bis hin zum Automatisieren reichen. Um diese Potenziale zu heben, müssen eine Reihe von technologischen und organisatorischen Herausforderungen bewältigt und entsprechend dynamische Kernkompetenzen auf- und ausgebaut werden.

Abschließend lassen sich Ansatzpunkte für die weitere Forschung zu Big-Data-Technologien und Analyse-Verfahren anhand der Datentypen benennen:
  • Nummerische Daten und Textdaten: Mit der wachsenden Bedeutung von Recherchequellen in unterschiedlichen Sprachen, bedürfen Analyseverfahren der Überwindung einer rein monolingualen Optimierung (z. B. Deutsch oder Englisch) und eine Erweiterung um multilinguale Fähigkeiten.

  • Audiodaten: Die Analyse von geplanter Sprache unter einfachen Umgebungsbedingungen (z. B. Nachrichtensprecher im Studio) und bei bekannter Domäne (z. B. Sport) ist bereits nachhaltig etabliert. Aufgrund der Nutzenpotenziale des effizienten Erschließens und Durchsuchens von gesprochener Sprache werden weitere Forschungsanstrengungen im Bereich der Spontansprache bei Hintergrundgeräuschen unternommen.

  • Bild- und Videodaten: Nicht zuletzt mit der Verbreitung von Smartphones und Plattformen des Social Webs hat die Menge an Fotos und Videos im Internet zugenommen. Für die journalistische Praxis bedeutet das, z. B. in Katastrophenfällen zunehmend mehr solcher Daten auswerten zu können. Dafür werden Robustheit und Geschwindigkeit der beschriebenen Analyseverfahren verbessert.

  • Generell: Die Ergebnisse automatischer Analyseverfahren entsprechen nicht immer den Erwartungen ihrer Anwender. Das ist dann Fall, wenn sich z. B. systematische Fehler einschleichen. Um lernende Verfahren zu verbessern, werden manuelle Feedbackmechanismen erforscht, die die Anwender einbinden. Daneben ermöglichen aktuelle Open-Source-Plattformen wie TensorFlow (Google), SystemML (IBM) oder DL4J die unmittelbare Nutzung von bereits weit entwickelten Frameworks für Machine Learning.

Literatur

  1. Abelló, A. (2015). Big data design. DOLAP’15, 23 Oct 2015, Melbourne.Google Scholar
  2. Amatriain, X. (2013a). Big & personal: Data and models behind netflix recommendations. BigMine’13, Aug 2013, Chicago.Google Scholar
  3. Amatriain, X. (2013b). Mining large streams of user data for personalized recommendations. SIGKDD Explorations, 14(2), 37–48.Google Scholar
  4. Amatriain, X. (2014). The recommender problem revisited. RecSys’14, 6–10 Oct 2014, Foster City: Silicon Valley. doi: 10.1145/2645710.2645775.Google Scholar
  5. Auer, S. (2014). Introduction to LOD2. In S. Auer, V. Bryl & S. Tramp (Hrsg.), Linked open data – Creating knowledge out of interlinked data (S. 1–17). Heidelberg: Springer.Google Scholar
  6. Bourque, P., & (Dick) Fairley, R. E. (Hrsg.). (2014). Guide to the software engineering body of knowledge (SWEBOK). Version 3.0. Piscataway: IEEE Computer Society.Google Scholar
  7. Chaudhuri, S., Dayal, U., & Narasayya, V. (2011). An overview of business intelligence technology. Communications of the ACM, 54(8), 88–98.CrossRefGoogle Scholar
  8. Chen, H., Chiang, R. H. L., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big impact. MIS Quarterly, 36(4), 1165–1188.Google Scholar
  9. Cohen, W. M., & Levinthal, D. A. (1990). Absorptive capacity: A new perspective on learning and innovation. Administrative Science Quarterly, 35(1), 128–152.CrossRefGoogle Scholar
  10. Davenport, T. H., & Patil, D. J. (2012). Data scientist: The sexiest job of the 21st century. Harvard Business Review, (October), 1–6. URL https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/. Zugegriffen am 30.12.2015.
  11. Davenport, T. H., Barth, P., & Bean, R. (2012). How „big data“ is different. MIT Sloan Management Review, (Fall 2012), 1–6. http://sloanreview.mit.edu/article/how-big-data-is-different/. Zugegriffen am 31.12.2015.
  12. Debortoli, S., Müller, O., & vom Brocke, J. (2014). Vergleich von Kompetenzanforderungen an Business-Intelligence- und Big-Data-Spezialisten. Wirtschaftsinformatik, 56(5), 315–328.CrossRefGoogle Scholar
  13. Dierickx, I., & Cool, K. (1989). Asset stock accumulation and sustainability of competitive advantage. Management Science, 35(12), 1504–1511.CrossRefGoogle Scholar
  14. Dirschl, C., Pellegrini, T., Nagy, H., Eck, K., Van Nuffelen, B., & Ermilov, I. (2014). LOD2 for media and publishing. In S. Auer, V. Bryl & S. Tramp (Hrsg.), Linked open data – Creating knowledge out of interlinked data (S. 133–154). Heidelberg: Springer.Google Scholar
  15. Eble, M. (2013). Medienmarken im Social Web: Wettbewerbsstrategien und Leistungsindikatoren von Online-Medien aus medienökonomischer Perspektive. Berlin.: LIT.Google Scholar
  16. Eble, M., & Kirch, S. (2014). Enterprise Search im Wissensmanagement: Herausforderungen für Suchmaschinen in forschungsbasierten Konzernen. In H. Krah & R. Müller-Terpitz (Hrsg.), Suchmaschinen (S. 85–106). Berlin: Logos.Google Scholar
  17. Eble, M., & Stein, D. (2015). Utilisation of audio mining technologies for researching public communication on multimedia platforms. In A. Maireder, J. Ausserhofer & C. Schumann (Hrsg.), Digitale Methoden in der Kommunikationswissenschaft (S. 329–345). doi: 10.17174/dcr.v2.14Google Scholar
  18. Eble, M., & Winkler, T. (2014). Digitale Wertketten für Social Connected TV: Wertbeiträge von Content-Technologies in der Multimedia-Produktion. In H. Rau (Hrsg.), Digitale Dämmerung. Die Entmaterialisierung der Medienwirtschaft (S. 229–239). Baden-Baden: Nomos.Google Scholar
  19. Eble, M., Ziegele, M., & Jürgens, P. (2014). Forschung in geschlossenen Plattformen des Social Webs. In M. Welker, M. Taddicken, J.-H. Schmidt & N. Jackob (Hrsg.), Handbuch Online-Forschung. Sozialwissenschaftliche Datengewinnung und -auswertung in digitalen Netzen (S. 128–154). Köln: Herbert von Halem.Google Scholar
  20. Eisenhardt, K. M., & Martin, J. A. (2000). Dynamic capabilities: What are they? Strategic Management Journal, 21(10–11), 1105–1121.CrossRefGoogle Scholar
  21. Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2015), 137–144.CrossRefGoogle Scholar
  22. Hu, H., Wen, Y., Chua, T.-S., & Li, X. (2014). Toward scalable systems for big data analytics: A technology tutorial. IEEE Access, 2, 652–687.CrossRefGoogle Scholar
  23. Kamp, G. (2015). Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten. Vortrag auf dem Symposium Big Data am 18.06.15 im Haus des Rundfunks in Berlin. http://de.slideshare.net/gkamp/20150618-ardzdf. Zugegriffen am 14.02.2016
  24. Kreps, J. (2014). Questioning the lambda architecture. In O’Reilly. https://www.oreilly.com/ideas/questioning-the-lambda-architecture. Zugegriffen am 31.05.2016.
  25. Laney, D. (2001). 3D data management: Controlling data volume, velocity, and variety. Application Delivery Strategies, 949, 1–4.Google Scholar
  26. LaValle, S., Lesser, E., Shockley, R., Hopkins, M. S., & Kruschwitz, N. (2011). Big data, analytics and the path from insights to value. MIT Sloan Management Review, 52(2), 20–31.Google Scholar
  27. Malaka, I., & Brown, I. (2015). Challenges to the organisational adoption of big data analytics: A case study in the South African telecommunications industry. SAICSIT’15, 28–30 Sept 2015, Stellenbosch.Google Scholar
  28. Marz, N. (2011). How to beat the CAP theorem. http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html. Zugegriffen am 31.12.2015.
  29. Marz, N. (2012). Big data lambda architecture. http://www.databasetube.com/database/big-data-lambda-architecture/. Zugegriffen am 19.12.2015.
  30. Mey, S. (2015). Projekt News-Stream 3.0: Big Data-Helferlein für Redaktionen. In torial Blog. http://get.torial.com/blog/2015/09/news-stream-3-0-big-data-redaktionen/. Zugegriffen am 17.09.2015.
  31. Miller, H. G., & Mork, P. (2013). From data to decisions: A value chain for big data. IT Pro, (Jan/Feb), 15(1), 57–59.Google Scholar
  32. Nelson, R. R. (1991). Why do firms differ, and how does it matter? Strategic Management Journal, 12(S2), 61–74.CrossRefGoogle Scholar
  33. Pellegrini, T. (2012). Semantic Web in Netzbasierten Unterhaltungsapplikationen – Bausteine für eine Metadatenökonomik am Beispiel BBC Music Beta. In Ökonomie, Qualität und Management von Unterhaltungsmedien – Theorie und Entwicklungen in Unterhaltungsmärkten (Reihe Medienökonomie, Bd. 1, S. 253–276). Baden-Baden: Nomos.CrossRefGoogle Scholar
  34. Pellegrini, T. (2014). Datenlizenzierung als Diversifikationstreiber in der Medienindustrie. In H. Rau (Hrsg.), Digitale Dämmerung: Die Entmaterialisierung der Medienwirtschaft (S. 267–280). Baden-Baden: Nomos.Google Scholar
  35. Picot, A., & Propstmeier, J. (2013). Big data. Medienwirtschaft, 1/2013, 10, 34–38.Google Scholar
  36. Porter, M. E., & Heppelmann, J. E. (2014). How smart, connected products are transforming competition. Harvard Business Review, (November), 9, 1–23.Google Scholar
  37. Prahalad, C. K., & Hamel, G. (1990). The core competence of the corporation. Harvard Business Review, (May/June), 3, 79–91.Google Scholar
  38. Teece, D. J., Pisano, G., & Shuen, A. (1997). Dynamic capabilities and strategic management. Strategic Management Journal, 18(7), 509–533.CrossRefGoogle Scholar

Copyright information

© Springer Fachmedien Wiesbaden 2016

Authors and Affiliations

  1. 1.mm1 Consulting & Management PartGStuttgartDeutschland

Personalised recommendations