Die heutige Datenwirtschaft funktioniert nicht. Wenn „Zeit ist Geld“ (Franklin, 1749) mehr als nur ein Sprichwort ist, dann ist Datenanalyse ein Desaster, da über 80 Prozent des Zeitbudgets eines Datenanalyseprojekts für die Verarbeitung und Veredelung von Daten aufgewendet wird – und nicht für Ergebnisse (siehe „Data is broken“, Link). Abbildung 1 verdeutlicht das Problem mithilfe einer Metapher: Auf der Führungsebene werden „Daten“ tendenziell als ein Produkt betrachtet, das man sich aus dem Regal nimmt… wie eine Flasche Wasser zum Beispiel. Datenwissenschaftler vergleichen Daten jedoch eher mit einer Wasserpfütze – also mit Rohwasser. Niemand trinkt aus einer Pfütze. Das Wasser muss „aufbereitet“, auf schädliche Inhaltsstoffe analysiert, etikettiert und auf eine exakte Menge abgefüllt werden. Das ist nicht gerade billig. Der Preisunterschied zwischen rohem und abgefülltem Wasser spricht für sich. Für einen Liter Markenwasser, das in Flaschen im Einzelhandel angeboten wird, kann man in Berlin tausend Liter Rohwasser kaufen. Diese Zahlen zeigen eindeutig, wie viel Mehrwert vom rohem bis zum abgefüllten Wasser generiert wird. Im Kern lässt sich unsere Analogie folgendermaßen zusammenfassen: Daten müssen veredelt werden. Um diesen Prozess wirtschaftlich zu gestalten, braucht es – keine Überraschung – eine Fabrik. Schließlich nutzen wir Fabriken auch für alles andere. Henry Ford hat die moderne Fabrik und mit ihr die Automobilindustrie als Industriezweig erfunden. Seine Fabrik führte die Autoherstellung von der Handarbeit zur Massenproduktion durch Automatisierung (Womak et al. 1990). Jetzt brauchen wir Datenfabriken, damit wir für Daten keine Analysezeit mehr verschwenden, um Datenanalysen skalierbar zu machen.
Abbildung 1: Die Wasser-Analogie der Datenveredelung
Das Rad nicht neu erfinden: Aufbau einer Fabrik
Wie würde so eine Datenfabrik aussehen? Rohdaten fließen hinein und ein veredeltes Datenprodukt kommt heraus. Aber was passiert dazwischen? Bei Autos haben wir eine vage Vorstellung: Bleche werden angeliefert, zugeschnitten, gestanzt, zusammengeschweißt, lackiert und viele tausend Teile kommen hinzu, wie Motor, Getriebe, Sitze, Leuchten usw. (Clark und Fujimoto 1991). Eine Fabrik besteht also aus einer Reihe unterschiedlicher Abteilungen, etwa für das Stanzen und Schweißen, für den Karosserierohbau, die Lackiererei, die Endmontage usw. Doch was sind die verschiedenen Abteilungen in einer Datenfabrik? Eine Lösung besteht darin, auf die Wissensbasis zurückzugreifen, die mit weltweiten Best-Practice-Lösungen aus Forschung und Industrie entwickelt wurde, sie mit zusätzlicher Feldarbeit und mit Experimenten zu ergänzen und sie dann mit anderen Wissenschaftlern auf Konferenzen und durch Veröffentlichungen zu verifizieren. Ein Ergebnis dieses Ansatzes ist in Abbildung 2 dargestellt.
Abbildung 2: Eine Datenfabrik-Framework
Aufbau eines Datenfabrik-Frameworks
Abbildung 2 stellt die verschiedenen Schritte dar, die erforderlich sind, um aus Rohdaten ein Datenprodukt zu machen, das entweder in eine Anwendung von künstlicher Intelligenz fließt oder im Datenhandel vermarktet werden kann. Es zeigt die verschiedenen „Abteilungen“ einer Datenfabrik. Kurz gesagt: Die Rechte an Rohdaten müssen überprüft werden, bevor Daten eingespeist oder geerntet werden können (Rechte, Lizenzierung, Zustimmung des Nutzers). Anschließend sollten die Daten harmonisiert, ordnungsgemäß gekennzeichnet oder getaggt werden, damit sie über einen Katalog von Kategorien und über Suchmaschinen gefunden werden können (Harmonisierung). Zudem müssen sie bewertet werden, um Hinweise zur Qualität zu geben, denn ohne sie ist jede nachträgliche Analyse sinnlos – „Garbage in, Garbage out“ (GIGO, Qualitätsbewertung). Schließlich sind Governance-Mechanismen erforderlich, um den Austausch der Daten sicherzustellen, während die Datenhoheit beim Datenanbieter verbleibt.
Ausführliche Fallstudien und systematische Literaturrezensionen von über 250 Artikeln
Das Datenfabrik-Framework baut auf einem soliden Fundament auf. Das Framework wurde im Rahmen einer mehrstufigen Untersuchung entwickelt – von (a) einer eingehenden Analyse von Fallstudien in der Literatur und (b) systematischen Literatur-Übersichtsarbeiten (SLRs) bis hin zu (c) unseren eigenen Beobachtungen beim Aufbau einer Datenfabrik in der Praxis. Abbildung 3 fasst die Entwicklungen in der Literatur als Grundlage für unsere Verbesserungen zusammen.
Abbildung 3: Entwicklung des Frameworks in der Literatur
Pääkkönen & Pakkala präsentieren eine erste Analyse interner „Datenfabriken“ anhand fundierter Fallstudien von Big-Data-Pionieren (2015). Die Autoren untersuchen Datenoperationen bei Pionieren wie Facebook und Netflix und stellen fest, dass die Datenaufbereitung bei diesen Unternehmen ein „Prozess“ bestehend aus „einer Reihe von Maßnahmen oder Schritten“ (Webster) ist, analog zu einer „Fabrik“, die aus „einer Reihe von […] Einrichtungen zur […] Herstellung von Waren […] mithilfe von Maschinen besteht“ (Webster). Diese schrittweise Zerlegung folgt der Evolution der informationstechnischen Möglichkeiten im Bereich Modularisierung und Flexibilität, die bei aufkommenden Webdiensten wie etwa .NET-Framework von Microsoft zu beobachten sind (Schlueter Langdon 2006, 2003b). Insbesondere zeigen Pääkkönen & Pakkala drei wichtige und gängige Schritte der Datenveredelung auf, wobei wir aufgrund unserer Fokussierung auf die Datenveredelung ausdrücklich alle Analyse-, Analytik- und Visualisierungsschritte ausschließen: (i) Datenextraktion, Laden und Vorverarbeitung; (ii) Datenverarbeitung und (iii) Datentransformation. Diese fundierte, auf Fallstudien basierende Bewertung der Big-Data-Pioniere wird durch umfangreiche SLRs untermauert: Die erste Studie umfasst 227 Artikel aus Fachzeitschriften aus den Jahren 1996 bis 2015, die aus der Scopus-Datenbank abgerufen und von Fachkollegen untersucht wurden (Sivarajah et al. 2017). Sie bestätigt drei Schritte im Datenaufbereitungsprozess (auch hier ohne die Schritte Datenanalyse, Analytik und Visualisierung): Dateneingang (Erfassung und Speicherung), Verarbeitung (Bereinigung) und Transformation (Aggregation und Integration; S. 273). In einer zweiten Studie, die kürzlich durchgeführt wurde, wurden 49 Artikel aus drei verschiedenen Fachrichtungen der Literatur untersucht (Stieglitz et al. 2018): Informatik (ACM und IEEE), Informationssysteme (AIS) und Sozialwissenschaften (ScienceDirect). Basierend auf diesem zweiten SLR fließt nun die Datenqualität als ein weiterer eigener Standardschritt in den Datenveredelungsprozess ein (Stieglitz et al. 2018, Figur 3, S. 165). Diese vier Schritte bilden, wie in Abbildung 3 dargestellt, das Fundament, dem wir unsere Beobachtungen zum Aufbau einer Datenfabrik aus der realen Welt hinzufügen.
Abbildung 4: Präsentation der Datenfabrik-Demonstration und Best Practices auf der WEB@ICIS 2019
Erste Datenfabriken entstehen
Führende Pioniere der Informationskommunikationstechnologie wie Microsoft, IBM und die Deutsche Telekom (siehe „T-System ist #1″, Link) bieten bereits fortschrittliche Werkzeuge für die Datenveredelung an. Microsoft stellt die Azure Data Factory als Feature in seiner Azure-Cloud bereit, was in Europa Bedenken hervorruft, dass Hyperskaler ihre Dominanz bereits über die Datenspeicherung hinaus ausweiten (Clemons et al. 2019). In der Azure Data Factory können Anwender „datengesteuerte Workflows (Pipelines genannt) erstellen und planen, die Daten aus unterschiedlichen… [Quellen] einlesen… [und]… bei Bedarf an einen zentralen Ort zur Weiterverarbeitung verschieben“ (Microsoft 2018).
Die Deutsche Telekom hat ihren Telekom Data Intelligence Hub Ende 2018 als Minimum Viable Product in Deutschland auf den Markt gebracht: https://dih.telekom.com (DIH, Deutsche Telekom 2018). Telekom DIH ist ein integriertes Plattform-as-a-Service-Angebot für die Veredelung, die Analyse und den Austausch von Daten für B2B-Kunden. Auf der Grundlage unserer Praxiserfahrungen schlagen wir eine etwas granularere Gliederung der Datenveredelungsmaßnahmen vor, um ausdrücklich auf Fragen einzugehen, die sich in der Praxis als kritisches Anliegen herausgestellt haben und die zusätzliche Datenverarbeitungsschritte erfordern: Datenschutz und Datensoveränität. Beide Themen wurden bereits im SLR von Sivarajah et al. behandelt, allerdings nur als „Management-Herausforderungen“ und nicht explizit als Datenveredelungsschritte (S. 274). Seit 2018 schreibt die europäische Datenschutzverordnung (DSGV) jedoch Datenschutz in der gesamten Europäischen Union vor, was zusätzliche Datenveredelungsschritte wie Einwilligungsmanagement, Anonymisierung und Löschung von Nutzerdaten erforderlich macht (Europäische Kommission 2018). Analog dazu hat sich die Frage der Datenhoheit von einem Hygienefaktor zu einem Schlüsselelement der Geschäftsstrategie eines Unternehmens entwickelt (z.B. Otto 2011). Und Europa ist nicht allein: Kalifornien hat 2018 als erster US-Bundesstaat mit dem California Consumer Privacy Act of 2018 (CCPA) ein umfassendes Gesetz zur Verbesserung der Datenschutzrechte und des Verbraucherschutzes erlassen, das 2020 in Kraft tritt (Cal. Civ. Code §§ 1798.100-1798.199). Mit dem CCPA werden den Bürgern Kaliforniens nicht nur neue Rechte in Bezug auf ihre personenbezogenen Daten gewährt. Noch wichtiger ist, dass in Kalifornien operierenden Unternehmen Verpflichtungen zum Datenschutz auferlegt werden.
Aus reiner Informatik- und Software-Engineering-Perspektive sind Rechtsfragen vielleicht nicht so wichtig. Für Informationssysteme hingegen sind sie sicherlich von Bedeutung, zumal jedes Informationssystem und seine Architektur den Geschäftsanforderungen entsprechen muss (Schlueter Langdon 2003a). Wir schlagen daher vor, die Datenveredelung durch ein Datenrechtemanagement zu flankieren, um sicherzustellen, dass die Veredelung von Beginn an den gesetzlichen Anforderungen entspricht und die Datenhoheit am Ende durch Data Governance sichergestellt wird. Abbildung 5 veranschaulicht das erweiterte Framework der Datenfabrik.
Abbildung 5: Präsentation des erweiterten Datenfabrik-Frameworks 2019 auf der Data Natives Konferenz
Interne und ausgelagerte Datenfabriken
Eine Datenfabrik kann intern und extern betrieben werden: Sie kann intern innerhalb der IT-Funktion (z.B. unter einem Chief Information Officer, CIO) oder außerhalb der IT-Funktion (z.B. unter einem Chief Marketing Officer, CMO) angegliedert sein oder als eigenständiges, unabhängiges Unternehmen agieren. Großen Unternehmen liegen schon heute erste Service-Angebote von unabhängigen Datenfabriken vor, zum Beispiel über die Azure-Cloud von Microsoft und den Data Intelligence Hub der Telekom. Interne Datenfabriken können eine Möglichkeit bieten, Mehrwert aus Data Lakes zu generieren und Kosten in Geschäftsvorteile umwandeln, etwa durch die Schaffung von Datenprodukten für interne Operationen und Anwendungen, wie zum Beispiel die Erkennung von Anomalien, oder indem sie Umsatzwachstum durch den Verkauf von Datenprodukten an Dritte ermöglichen. Schließlich kann die Kombination aus Datenfabrik und Datenaustausch für große Unternehmen mit mehreren Geschäftsbereichen ein eleganter Weg sein, um schnell eine datenzentrierte Organisation über funktionale oder abteilungsübergreifende Silos hinweg zu ermöglichen und zu fördern.
Dieser Artikel basiert auf einer längeren Version von Schlueter Langdon, C., and R. Sikora. 2019. Creating a Data Factory for Data Products. Proceedings of the 18th Workshop of E-Business at ICIS Munich (December)
Quellen
Clark, K. B., and T. Fujimoto. 1991. Product Development Performance: Strategy, Organization, and Management in the World Auto Industry. Harvard Business School Press: Boston, MA
Clemons, E.K., H. Krcmar, S. Hermes, and J. Choi. 2019. American Domination of the Net: A Preliminary Ethnographic Exploration of Causes, Economic Implications for Europe, and Future Prospects. 52nd Hawaii International Conference on System Sciences (HICSS), DOI: 10.24251/HICSS.2019.737
Deutsche Telekom. 2019. At a glance, link
Deutsche Telekom. 2018. Creating value: Deutsche Telekom makes data available as a raw material. Press Release (September 27), link
European Commission. 2018. General Data Protection Regulation, link
Microsoft. 2018. Introduction to Azure Data Factory (November 11), link
Miller, R. 2019. AWS and Microsoft reap most of the benefits of expanding cloud market. Techcrunch (February 1st), link
Otto, B. 2011. Organizing data governance: Findings from the telecommunications industry and consequences for large service providers. Communications of the AIS 29(1): 45-66
Pekka Pääkkönen, P., and D. Pakkala. 2015. Reference Architecture and Classification of Technologies, Products and Services for Big Data Systems. Big Data Research 2: 166–186
Schlueter Langdon, C., and R. Sikora. 2019. Creating a Data Factory for Data Products. Proceedings of the 18th Workshop of E-Business at ICIS Munich (December)
Schlueter Langdon, C. 2006. Designing Information Systems Capabilities to Create Business Value: A Theoretical Conceptualization of the Role of Flexibility and Integration. Journal of Database Management 17(3) (July-September): 1-18
Schlueter Langdon, C. 2003a. Information Systems Architecture Styles and Business Interaction Patterns: Toward Theoretic Correspondence. Journal of Information Systems and E-Business 1(3): 283-304
Schlueter Langdon, C. 2003b. The State of Web Services. IEEE Computer 36(7): 93-95
Schlueter Langdon, C., and R. Sikora. 2019, Creating a Data Factory for Data Products, 18th Workshop on e-Business, International Conference on Information Systems (2019)
Sivarajah, U., M.M. Kamal, Z. Irani, and V. Weerakkody. 2017. Critical analysis of Big Data challenges and analytical methods. Journal of Business Research 70: 263–286
Stieglitz, S., M. Mirbabayea, B. Rossa, and C. Neuberger. 2018. Social media analytics – Challenges in topic discovery, data collection, and data preparation. International Journal of Information Management 39: 156–168
Womack, J, D. Jones, and D. Roos. 1990. The Machine That Changed the World: The Story of Lean Production. Free Press, Simon & Schuster: New York, NY