Erfolg mit „Small Data“ durch spezialisierte Analysen

Meist besuchte Erkenntnisse

Die Datenanalyse befindet sich in einem großen Dilemma: Auf der einen Seite hat das Management hohe Erwartungen, auf der anderen Seite kämpfen die Datenwissenschaftler mit einer großen Datenproduktivitätskrise, denn es wird zu viel Zeit mit der Datenverarbeitung verbracht (siehe „Data is broken“, Link). 

Zwei Datenprobleme: Fehlende Datenfabrik für Big Data und Herausforderungen mit Small Data

Betrachten wir die Datenkrise genauer: Big Data wird oft missverstanden. Einige ausgewählte KI-Anwendungen, wie z.B. Deep Learning mit Methoden auf der Basis neuronaler Netzwerke und Tools wie TensorFlow, benötigen große Mengen an Daten. Zu den wichtigsten Anwendungen gehört die Texterkennung (Stimmungsanalyse), Bilder (automatische Nummernschilderkennung, ALPR), Video (Self-Driving-Car) und Sprache (Amazons Alexa Virtual Assistant). Das Problem: Die Verarbeitung von Rohdaten zu KI-fähigen Daten ist manuell, auf Anfrage gefertigt und lässt sich nicht gut skalieren. Je mehr Daten benötigt werden, desto größer wird das Produktivitätsproblem. Eine Lösung wäre hier der Aufbau einer Datenfabrik. Allerdings benötigt man nicht unbedingt Big Data, um KI-Erfolge zu erzielen. Denn in Small Data befindet sich ebenso viel „Gold“  doch der Abbau erfordert Analysen, die speziell für Small Data entwickelt wurden.
Die Stichproben können klein sein, weil (a) in der Vergangenheit niemand die Notwendigkeit sah, zusätzliche Daten zu erfassen, (b) die Datenerfassung schwierig und daher teuer und begrenzt ist, oder (c) die richtigen Daten von Natur aus knapp sind. Man denke beispielsweise an die Erkennung von Anomalien und die prädiktive Wartung – beides beliebte Datenanalyseanwendungen. Das Problem ist nicht ein Mangel an historischen Daten. Vielmehr ist das Problem aus einem wesentlichen Bestandteil: Ein Ereignis wird als Anomalie bezeichnet, weil sein Auftreten ungewöhnlich und selten ist (Webster 2020). Bei einem Defekt pro Jahr stellen selbst Daten aus 10 Jahren, eine Stichprobe von nur 10 Datenpunkten dar. Es gibt nur 10 „Signale“, der Rest ist „Rauschen“ (Silver 2012). Was lässt sich ab n = 10 prognostizieren und wie verlässlich kann es sein? Beispielsweise verstehen wir beim Roulette intuitiv, dass es keine Anomalie ist, 8 rote Punkte aus einer Serie von 10 Spins zu erhalten. dennoch würden 80% der roten Punkte in einer Probe von 100 Spins, die zehnmal größer ist, als Anomalie betrachtet werden, wenn wir in der Wahrscheinlichkeitstheorie der Menge der großen Zahlen (LLN) folgen. Wir bezeichnen diese kleinen Stichprobenmöglichkeiten als „Small Data“, was nicht mit dem Begriff „Small Data“, als Synonym für ein kleines Datenprojekt oder eine Dateninitiative im kleinen Maßstab verwechselt werden sollte (Redman & Hoerl 2019).

Edge Computing: More Small Data

Da weitere Trends, wie z.B. Edge-Computing (ein wichtiger Trend in der Gartner-Hype-Zyklus-Analyse) erwartet werden, ist es keine Option Small Data zu ignorieren (Gartner 2019). Edge-Computing drängt die Analyse näher an die Datenquelle und aus der Cloud heraus in ein Gerät am Rande der Cloud, wie z.B. einen Sensor oder die elektronischen Steuergeräte (ECU) eines Fahrzeugs. Edge-Computing dient der Geschwindigkeit und Kosteneinsparung. Es geht darum, ähnliche Ergebnisse mit viel weniger Daten (the data found at the edge) und weniger Berechnungen (niedrig-parametrische Algorithmen) zu erzielen, um Datentransfer und Rechenleistung zu sparen und so Latenz und Stromverbrauch (Batterielaufzeit) zu minimieren. Wie kann man also mit weniger Daten umgehen?

Bad News, Good News 

Die schlechte Nachricht: Ein schwieriges medizinisches Problem verlangt einen guten Arzt; ebenso verlangt Small Data einen guten Datenwissenschaftler. Die Auswahl des richtigen Medikaments erfordert einen erfahrenen Arzt, der die Symptome gut analysieren kann und Kenntnisse über die Diagnose verfügt. Die gute Nachricht: Durch neue Tools konnten in letzter Zeit der KI große Fortschritte mit der Analyse von Small Data erzielt werden. Ein solches Tool verbessert die Ergebnisse bei stark unausgewogenen Stichproben, bei denen die Daten einer Klasse (Mehrheit), eine andere Klasse (Minderheit), bei weitem übertrifft. Beispiel: Marketing to „Minorities“: Mitigating Class Imbalance Problems with Majority Voting Ensemble Learning (Link).

Quellen

Gartner. 2019. 5 Trends Appear on the Gartner Hype Cycle for Emerging Technologieslink

Redman, R.C., and R.W. Hoerl. 2019. Most Analytics Projects Don’t Require Much Data. Harvard Business Review Online (October 3rd), link

 Silver, Nate. 2012. The Signal and the Noise: The Art and Science of Prediction. Penguin Books: New York, NY 

 

Chris S. Langdon
Chris S. Langdon

Business Lead, Data Analytics Executive, Catena-X Product Manager

Weiterlesen