AutomotiveIT hat in einem Spezialbeitrag „Aufräumen mit KI-Experten“ Experten zum Thema KI befragt. Prof. Dr. Christoph Schlueter Langdon vom Telekom Data Intelligence Hub erläutert die drei Schritte zum KI-Erfolg und stellt auf die besondere Bedeutung von Kausalität statt Korrelation ab.
Der richtige Kern: Hypothesen und Kausalität statt Korrelation und Zufall
„,Ohne eine Hypothese über einen Zusammenhang zwischen Ursache und Wirkung brächten Fishing-Expeditionen wenig. […] Die Statistik liefert nur Korrelationen, keine Kausalität. Ein Beispiel: Gesundheit und Wirtschaftsleistung sind positiv korreliert, aber wo soll der nächste Euro investiert werden: in Gesundheit oder Wirtschaftswachstum?‘, erklärt Schlueter Langdon.“
Schritt 1: Der richtige Start – Fokussierung durch Fragestellung. „Wichtig beim Start ist, ein Problem auf eine Fragestellung zu konkretisieren, die man mit der Datenanalyse beantworten will.“ Dazu müssen die Datenwissenschaftler vor Beginn der Analyse Einsicht in Arbeitsläufe erhalten, um zu verstehen welcher Schritt eines Prozesses mit KI optimiert werden soll. Erst dann kann das gewünschte Ergebnis definiert und die entsprechenden Modelle entwickelt werden. In den meisten Unternehmen scheitert dieser Schritt an Silo-Denken unter den Abteilungen und fehlenden Informationen für die Datenwissenschafter.
Schritt 2: Das Kausalmodell und Hypothesen. „Dann geht es um die weitere Fokussierung durch Hypothesenbildung und Ableitung eines sogenannten Kausalmodells. ,Wenn sich das Kausalmodell nicht auf einer Serviette skizzieren lässt, dann sollte man erst gar nicht weitermachen‘, konstatiert Schlueter Langdon.“ Denn nur durch definieren der für den zu optimierenden Prozessschritt relevanten Ereignisse, können aus der Menge an Daten die richtigen Daten entnommen und den Problemen mit der Datenwirtschaft getrotzt werden (für mehr Informationen hierzu, siehe „Data is broken“, Link).
Schritt 3: Die richtigen Daten zum Verhindern von GIGO. „Erst danach werden die richtigen Daten identifiziert, vorbereitet und schließlich analysiert. Ein weiterer eherner Grundsatz beim Einstieg in KI lautet: Alle Informationen zur Beantwortung der Frage müssen in den Daten enthalten sein, sonst droht GIGO (Garbage In, Garbage Out, siehe unseren Artikel „Datenpools für KI“, Link). ‚Kein Roheisen ohne Eisenerz im Gestein: Auch bei Daten muss vorher sichergestellt werden, dass daraus überhaupt Rückschlüsse auf das Problem möglich sind‘, so der Data- Science-Experte.“
Ohne Datenqualität keine Deep Learning Ergebnisse
„‚Gerade bei Neural Networks hängt die Güte der Ergebnisse fast ausschließlich von der Qualität der Trainingsdaten ab‘, erklärt der Data Science Experte. So entscheidet beispielsweise in sogenannten Convolutional Neural Networks (CNNs) unmittelbar die Güte der Beschriftung (Labeling) über eine erfolgreiche Analyse von Bildern. ‚Die Beschreibung der Trainingsdaten muss für jedes Objekt sehr granular sein‘, stellt der Experte fest.“
Dieser Artikel basiert auf einen längeren Beitrag in der Fachzeitschrift AutomotiveIT: Link