Data is broken: Die Datenproduktivitätskrise

Meist besuchte Erkenntnisse

Daten versprechen das nächste große Geschäft zu werden (z. B. Wall 2019, Gartner 2018a). Investmentbanken, Analysten und Berater bestärken den Trend mit großen Ertragsprognosen. In Bezug auf die Möglichkeiten der Datenmonetarisierung vermuten die Berater McKinsey & Company, dass allein die von Autos generierten Daten bis 2030 einen Wert zwischen 450 und 750 Milliarden US-Dollar haben werden – und das in weniger als zwei Fahrzeuggenerationen (McKinsey 2016). Verbraucherdaten sind bereits heute ein großes Geschäft. Google und Facebook leben von Daten, die Benutzer auf ihren Plattformen erstellen. Fast alle Einnahmen stammen aus der Werbung, dem Verkauf von „Eyeballs“ und dem Engagement der Nutzer an Werbetreibende.

Mehr Daten: Internet of Things (IoT), Edge Computing, 5G … 

All diese Dinge sind erst der Anfang. Von IoT-Daten (Internet of Things) wird ein großer Datenschub erwartet: IoT wandelt Objekte im Wesentlichen in Websites um. In der Vergangenheit löste das Web- und Website-Tracking eine erste Welle von Big Data aus (was wiederum neue Technologien zum Speichern und Verarbeiten von Daten, wie Hadoop, hervorbrachte). Jetzt werden gewöhnliche Objekte in Websites umgewandelt. Zum Beispiel Autos: Vernetzte und autonome Fahrzeuge werden projiziert, um vier Terabyte (TB) Daten pro Tag zu generieren (Krzanich 2016). Darüber hinaus wird dieser IoT-Boom durch ein Zusammentreffen von Trends in Informationssystemen, z.B. der Miniaturisierung von Sensoren wie Lidar (Lichterkennungs- und Entfernungssensor für autonome Autos (NOAA 2020)), Gerätetechnologie, z. B. Edge Computing, und einem neuen 5G angetrieben Mobilfunkstandard, bestärkt.

Di H15 Fig1
Abbildung 1: Das Produktivitätsproblem in Data Analytics

Das Problem: Daten sind nicht messbar

Ein wesentlicher Mechanismus zur Freigabe von Datenwerten ist die Analytik. Für Webseiten waren Tools wie Google Analytics (Urchin) nötig, um vom Website-Tracking zu profitieren und Werbebudgets anzuziehen. Bei Google Analytics handelt es sich hauptsächlich um deskriptive Analysen. Aufeinanderfolgende Stufen der prädiktiven und präskriptiven Analytik liefern jedoch weitaus mehr Wert (McKinsey 2018, Gartner 2018b). Beispiele umfassen Produktempfehlungen unter Verwendung von maschinellem Lernen als Verstärker des Mundpropaganda-Marketings (z. B. bei Amazon und Netflix); und die Anwendung von Deep-Learning- oder neuronalen Netzwerkmethoden in vielen Bereichen zur Erkennung von Text (Stimmungsanalyse), Bild (automatische Kennzeichenerkennung, ALPR), Video (autonome Fahrzeuge) und Spracherkennung (Amazons virtueller Assistent von Alexa). Trotz des Medienrummels zeigt ein kurzer Blick auf die Zeit, die in Datenanalyseprojekten verbracht wurde, ein großes Problem.

Bad Economics: 20/80-Regel statt 80/20-Regel 

Unternehmen sind von Datenbanken zu Data Warehouses und jetzt zu Data Lakes gewechselt (Porter & Heppelmann 2015). Und sie scheinen in Daten zu ertrinken (Deep Dive in Datenmessprobleme: „Daten: Wie werden sie gemessen?“, Link). Wenn „Zeit ist Geld“, wie es einer der Gründerväter der Vereinigten Staaten (Franklin 1749) zu sagen pflegte, stimmt, dann ist die Datenanalyse eine Katastrophe. Der Literatur zufolge werden heute mehr als 80% des Zeitbudgets eines Datenanalyseprojekts für die Datenverarbeitung und -analyse aufgewendet – nicht etwa mit Algorithmen (Press 2016, Vollenweider 2016). Dies würde das 80/20 Pareto-Prinzip, einen Eckpfeiler der Geschäftseffizienz, auf den Kopf stellen (z. B. Neuman, M. E. 2005). Abbildung 1 zeigt die Produktivitätskrise in der Datenanalyse. Wir haben unsere eigene Analysen mit Umfragen durchgeführt. Wir erkennen an, dass Umfragen oft eine schwache Methode sind, um ein Argument zu stützen. Umfragen sind beliebt, weil sie schnell und einfach sind, aber die Ergebnisse sind häufig schlecht und irreführend. Die Probleme mit Umfragen reichen von der Datenbeschaffung (fragwürdige Repräsentativität, miserable Antwortraten usw.) und dem Design (Verzerrung der Erhebungsinstrumente, führende oder mehrdeutige Fragen, unzureichende Antwortoptionen usw.), bis hin zur Interpretation und Extrapolation der Ergebnisse (mangelnde statistische Signifikanz, Bewertungsinkonsistenzen usw.). In Anbetracht dieser Umfragetücken haben wir bei unseren Umfragen besonderen Wert auf Vertreter und einfache, eindeutige Fragen, gelegt. Unsere Stichprobe ist eine willkürliche Stichprobe, die jedoch ausgewählt wurde, um ihre Repräsentativität zu maximieren. Da unser Fokus auf der Datenanalyse in der Wirtschaft liegt, wurden unsere Daten bei datenwissenschaftlichen Veranstaltungen gesammelt, die sich speziell an Datenexperten in der Wirtschaft richteten – und nicht an ein akademisches oder forschendes Publikum. Abbildung 2 zeigt unsere Umfrageergebnisse, Fragen und Ergebnisse.

Di H15 Fig2
Abbildung 2: Data Analytics Produktivität

Datenexperten bestätigen das Problem in unserer Umfrage. Wenn ein Analyseprojekt in die drei Phasen (a) Datenverarbeitung, (b) Analysemodellierung und -bewertung und (c) Bereitstellung unterteilt ist, werden Timeshares von 48%, 32% bzw. 20% angegeben (n = 66). Die Implikationen sind eindeutig: Damit Datenanalyse erfolgreich ist, muss das Problem der Datenproduktivität gelöst werden. Andere Branchen bieten Hinweise auf eine Lösung. Zum Beispiel die Automobilindustrie: Die Datenverarbeitung für KI bleibt handgemacht und wird nach Maß gefertigt, genau wie Autos, bevor Henry Ford die Autoherstellung industrialisierte. Gottlieb Daimler erfand das Auto 1886, aber es war Henry Ford, der etwa 20 Jahre später das moderne Autogeschäft erfand (Womak et al. 1990). Er entwickelte die Autoherstellung von einer handgemachten Angelegenheit zur Massenproduktion.

Wie hat Ford das Problem gelöst? 

Henry Ford hat den Automobilbau von der Handarbeit zur Massenproduktion weiterentwickelt. Er erfand das Autogeschäft mit Fabriken. In einer Fabrik geht es um Automatisierung und Produktivierung. Die Automatisierung ist offensichtlich. Das bewegliche Montageband ist wahrscheinlich das sichtbarste und auffälligste Merkmal. Weniger offensichtlich ist jedoch, dass Ford für eine funktionierende Automatisierung die Austauschbarkeit von Teilen kritisch forderte, was wiederum Metriken erforderte (Clark und Fujimoto 1991). Die Teile mussten nach genauen Messungen hergestellt werden, damit alle Kopien eines Teils ähnlich waren, um sie ohne langwierige Kalibrierungs- und Umrüstungsarbeiten an den Autos anzubringen, die schnell vom Band laufen. Der Maschinenbau führte den Begriff der Toleranz als „die zulässige Schwankungsbreite bei der Einhaltung eines bestimmten Maßes bei der Bearbeitung eines Teils“ ein (Webster 2019). Teile wurden in Konstruktionszeichnungen oder „Blaupausen“ spezifiziert („specced“) und dann innerhalb präziser Toleranzen hergestellt, um sie austauschbar zu machen. Die Herausforderungen bei den Daten beziehen sich sowohl auf die Messung als auch auf die Automatisierung (Crosby & Schlueter Langdon, 2019). Ab 2020 sind die Datenattribute weiterhin qualitativ und subjektiv (für neue Qualitätsmetriken siehe „Daten: Quantität oder Qualität?“, Link). Erste Lösungen für die Datenproduktivität und Automatisierung  unter „Datenfabriken für Datenprodukte“ (Link).

Quellen

Clark, K. B., and T. Fujimoto. 1991. Product Development Performance: Strategy, Organization, and Management in the World Auto Industry. Harvard Business School Press: Boston, MA

Crosby, L., and C. Schlueter Langdon. 2019. Data as a Product to be Managed. Marketing News, American Marketing Association (April 24th), link

Franklin, B. 1748. Advice to a Young Tradesman. Printed in George Fisher, The American Instructor: or Young Man’s Best Companion. … The Ninth Edition Revised and Corrected. Philadelphia: Printed by B. Franklin and D. Hall, at the New-Printing-Office, in Market-Street, pp. 375–7, link

2018a. Gartner Top 10 Strategic Technology Trends for 2019 (October 15th), link

2018b. Gartner Forecasts Worldwide Public Cloud Revenue to Grow 17.3 Percent in 2019 (September 12th), link

Krzanich, B. 2016. Data is the New Oil in the Future of Automated Driving. Intel Newsroom (November 15th), link

McKinsey Global Institute. 2018. Notes from the AI frontier – Insights from hundreds of use cases. McKinsey & Company (April), link

McKinsey & Company. 2016. Monetizing car data. Advanced Industries Report (September), link

Newman, M.E. 2005. Power laws, Pareto Distributions, and Zipf’s law. Contemporary Physics 46(5): 323–351

NOAA, National Oceanic and Atmospheric Administration. 2020. What is LIDAR?, link

Porter, M. E., and J. E. Heppelmann. 2015. How Smart, Connected Products Are Transforming Companies. Harvard Business Review (October), link

Press, G. 2016. Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Forbes (March 23th)

Vollenweider, M. 2016. Mind+Machine: A Decision Model for Optimization and Implementing Analytics. John Wiley & Sons: Hoboken, NJ

Wall, M. 2019. Tech trends 2019: The end of truth as we know it? BBC (April 1st), link

Womack, J. D. Jones, and D. Roos. 1990. The Machine That Changed the World: The Story of Lean Production. Free Press, Simon & Schuster: New York, NY

Chris S. Langdon
Chris S. Langdon

Business Lead, Data Analytics Executive, Catena-X Product Manager

Weiterlesen