3 Ebenen von Datenproblemen

Mär,25
2019

Meist besuchte Erkenntnisse

Der Telekom Data Intelligence Hub befasst sich mit mehreren Kernfragen der Wertschöpfung aus Daten. „Die Probleme mit Daten lassen sich in drei Ebenen unterteilen. Die technische Ebene mit der Frage, wie man die richtigen Daten erhält, die Prozessebene mit Fragen der Prozessqualität und -sicherheit und dann die rechtliche Ebene – einschließlich der Datensouveränität.“

Rohdaten sind keine „AI-Ready“ Datenprodukten

„Es wäre sinnvoll, Daten als Produkt zu verstehen und die üblichen Mechanismen darauf anzuwenden: von der Produktentwicklung über das Marketing bis zum Vertrieb“ (Kurzer Hintergrund zu „Data as a Product“ von Crosby & Langdon in Marketing News der American Marketing Association, Link). Große Industrieunternehmen wie BMW, Daimler und Volkswagen kennen bereits das eine große Geheimnis mit Daten: Daten von Sensoren sind Rohdaten, sie sind nicht bereit für die Anwendungen in künstlicher Intelligenz (KI). Stattdessen müssen Rohdaten verfeinert werden, um sie in KI-fähige Daten oder ein „Datenprodukt“ zu verwandeln. Wie jeder erfahrene Datenwissenschaftler bestätigen kann: Diese Veredelung kann sehr umfangreich, zeitaufwendig und damit teuer sein. Und was das Datenvolumen betrifft, so hat die Party gerade erst begonnen. Neue Technologien wie Internet of Things (IoT)-Sensoren und der 5G-Mobilfunkstandard werden weiteres Datenwachstum auslösen. Wenn man schon heute damit kämpft, wird es nicht besser werden. Die Datenveredelung erfordert Automatisierung und Skalierbarkeit, um Datenprodukte erschwinglich zu machen, oder kurz gesagt, sie erfordert Datenfabriken (mehr dazu in unserem Artikel „Datenfabriken für Datenprodukte“, Link). Hier setzt der Data Intelligence Hub an. Es bietet eine umfangreiche Auswahl an Datenaufbereitungs- und Analysetools – und das alles in der Cloud, um sofort skalierbar zu sein.

Korrelation ist keine Kausalität

„Entgegen der landläufigen Meinung reicht es nicht aus, große Datenmengen mit KI-Tools zu durchsuchen … Keines der Werkzeuge von KI und Machine Learning bietet Kausalität, nur Korrelation.“ Gefordert sind die richtigen Daten. Um zu verstehen, was die richtigen Daten sind, sollte zunächst eine Kausalanalyse mit Fachleuten durchgeführt werden, um die wichtigsten Kausalfaktoren herauszufiltern, die wiederum den Datenbedarf definieren. Trotz großer Mengen an Rohdaten können die richtigen Daten überraschenderweise recht spärlich sein. Viele KI-Anwendungen, wie z.B. die vorausschauende Wartung oder das autonome Fahren, können mehr Daten erfordern, als innerhalb einer einzelnen Abteilung oder eines Unternehmens verfügbar sind. „Auch hier kann der Data Intelligence Hub hilfreich sein, da er noch kleineren Unternehmen mehrere Möglichkeiten bietet: Daten bündeln, teilen und aggregieren… Ein horizontaler Pool wird beispielsweise von einem Maschinenhersteller erstellt, der die Betriebsdaten seiner Produkte Kunden-übergreifend auswertet.“

Von offenen Datenstandards profitieren

Bisher waren nur wenige Unternehmen bereit, sich an diesen Arten von Datenpools und Sharing zu beteiligen. Was fehlt, sind Austauschoptionen mit Data-Governance-Mechanismen, die ein Gleichgewicht zwischen der Notwendigkeit des Schutzes der eigenen Daten und der Weitergabe an andere herstellen. Auch hier kann der Data Intelligence Hub helfen. Es wurde eine erste Konnektorlösung entwickelt. Anstatt eine proprietäre Lösung zu entwickeln oder das Rad neu zu erfinden, hat der Data Intelligence Hub eine offene Lösung implementiert: „Unsere Kunden profitieren von Data Governance auf Basis von Blueprints der Fraunhofer-Institute.“ Der DIH Connector basiert auf dem Referenzarchitekturmodell (RAM) der International Dataspaces Association (IDSA 2019) (Mehr dazu in „T-Systems ist die #1“, Link). IDSA ist ein Zusammenschluss von Industriepartnern, der gegründet wurde, um Data Governance-Architekturlösungen zu fördern, die auf Forschungsarbeiten des deutschen Fraunhofer-Instituts mit Unterstützung der Bundesregierung basieren (Fraunhofer 2015). Zu den Mitgliedern gehören Automobilhersteller wie Volkswagen, Lieferanten wie Bosch und traditionelle Informationstechnologiespezialisten wie IBM.

Ohne Datenaustausch keine intermodale Mobilität

Eine wichtige Anwendungsdomäne, die einen umfangreichen Datenaustausch und -pooling erfordert, ist der Bereich der neuen, zukünftigen oder intelligenten Mobilität. Vor allem im städtischen Umfeld scheint der traditionelle, auto-basierte Ansatz einen kritischen Punkt erreicht zu haben, was Staus, Unfälle und Luftverschmutzung betrifft. Die Lösungen umfassen intermodalen Transport, dynamisches Verkehrsmanagement und sogar autonome Shuttles – alle erfordern eine datenanalytische Optimierung, die wiederum Daten von vielen verschiedenen Quellen und Eigentümern erfordert (wir hatten dazu bereits in „Space Race“ geschrieben, Link).

Dieser Artikel basiert auf einem längeren Beitrag in der Fachzeitschrift „Technik und Wirtschaft für die deutsche Industrie: Die Produktion“: Link