Daten: Quantität oder Qualität?

Meist besuchte Erkenntnisse

Jeder umsichtige Investor wägt Investitionen sorgfältig ab. In der Datenwissenschaft sind Daten ein wichtiger Bestandteil, und jeder umsichtige Datenwissenschaftler muss bei Daten eine Entscheidung treffen. Wir haben führende Datenexperten gefragt: Wie geben Sie den nächsten US-Dollar aus: Für mehr Daten (Quantität) oder für bessere Daten (Qualität)? 

Di H14 Fig1
Abbildung 1: Daten Quantität oder Qualität? 

Die Antwort ist glasklar: Qualität schlägt Quantität. So weit, so gut. Wenn wir jedoch tiefer graben und herausfinden möchten, wie sich dieses Ergebnis in die Praxis umsetzen lässt, geht plötzlich jegliche Klarheit verloren. Getreu dem Motto von Peter Drucker „Was man nicht messen kann, kann man nicht managen., lautet die nächste Frage: Wie misst man die Datenmenge und wie misst man die Datenqualität? Auch hier haben wir dieselben Datenexperten befragt. 

Di H14 Fig2
Abbildung 2: Wie wird Datenqualität gemessen?

Diesmal geht Klarheit verloren. In der Tat bestätigen die Ergebnisse das Geheimnis um die Messung der Datenqualität.

Warum Datenqualität wichtig ist

Die Community der Datenwissenschafter bestätigt das alte Sprichwort von „Garbage In, Garbage Out; Müll rein, Müll raus“ (GIGO): „Dirty Data“ wird laut einer Umfrage mit 16.000 Antworten als das häufigste Problem für Arbeitnehmer in der Datenwissenschaft angesehen (Kaggle 2017). Bei der Datenanalyse werden alle Erkenntnisse aus den Daten extrahiert. Es ist daher unbedingt notwendig sicherzustellen, dass alle verwendeten Rohdaten die Informationen enthalten, die für die Einsicht erforderlich sind. Eine Analogie ist Eisenerz: Für Eisen braucht man Gesteine, die so reich an Eisenoxiden sind, dass metallisches Eisen gewonnen werden kann. Ohne Eisenoxid wäre ein Gestein einfach ein Gestein, kein Eisenerz.  

Trotz der Bedeutung der Datenqualität wurden kaum Fortschritte bei der Operationalisierung dieser Erkenntnisse erzielt. In der Literatur werden Konzepte wie die „3 Vs“ von Volumen (Volume), Geschwindigkeit (Velocity) und Vielfalt (Variety) verwendet (McAfee & Brynjolfsson 2012). Weitere Vs werden hinzugefügt, wie Variabilität (Variability) und Wert (Value) (z. B. Yin & Kaynak 2015). Aus operativer Sicht und unter dem Gesichtspunkt der analytischen Anwendung sind die Vs jedoch konzeptionell und qualitativ geblieben. Die Vs können vielleicht für eine erste Beurteilung, möglicherweise für einen Vortest, wie eine erste Auswahl von Triage-Typ-Daten, nützlich sein. Um jedoch die Ergebnisse in Bezug auf die Leistung einzuschätzen, die Wahrscheinlichkeit von Effekten (x verbessert y), die Größe von Effekten (x verbessert y um ein Vielfaches) und die Signifikanz (Verbesserungen sind real, nicht zufällig) abzuschätzen, enthalten die Vs zu wenige Informationen. 

Quality Scoring-Lösung

Quality Scoring könnte Qualität überschaubarer machen (Crosby & Schlueter Langdon 2019, Schlueter Langdon & Sikora 2019). Es würde Datenwissenschaftler und Management helfen bessere Investitionsentscheidungen treffen. Quality Scoring ist sogar bereits ein etabliertes Geschäft – aber noch nicht mit Daten. Als Verbraucher sind die meisten von uns wahrscheinlich mit Verbraucherberichten (USA) („Stiftung Warentest“ in Deutschland) vertraut, in denen Verbraucherprodukte getestet und bewertet werden. Autokäufer prüfen vermutlich die Qualitätsbewertungen von J.D. Power aus der anfänglichen Qualitätsstudie (IQS) und der Fahrzeugzuverlässigkeitsstudie (VDS, Probleme nach 3 Jahren) des Anbieters; Käufer von Eigenheimen sind besorgt über Kredit-Scores (FICO in den USA, SCHUFA in Deutschland) und mit Kredit-Scoring-Agenturen wie Equifax vertraut, wie Moody’s (Aa1) und Standard & Poor’s (AA +). 

Quellen

Crosby, L., and C. Schlueter Langdon. 2019. Data as a Product to be Managed. Marketing News, American Marketing Association (April 24th), link

Kaggle. 2017. The State of Data Science & Machine Learning, Link

McAffee, A., and E. Brynjolfsson. 2012. Big Data: The Management Revolution. Harvard Business Review (October): 60-68

Schlueter Langdon, C., and R. Sikora. 2019. Creating Data Factories for Data Products. Proceedings of 18th Workshop on E-Business, ICIS Munich, Germany

Yin, S., and O. Kaynak. 2015. Big Data for Modern Industry: Challenges and Trends. Proceedings of IEEE 103(2): 143-146 

Chris S. Langdon
Chris S. Langdon

Business Lead, Data Analytics Executive, Catena-X Product Manager

Weiterlesen