Datapools für KI: Mehr von den richtigen Daten

Meist besuchte Erkenntnisse

Die erste Erfolgsregel bei der Datenanalyse und künstlichen Intelligenz (KI) besteht darin, (a) die richtigen Daten und diese (b) in der richtigen Menge zu verwenden, da KI nur dann Erkenntnisse gewinnen kann, wenn die dafür benötigten Informationen auch in den Daten enthalten sind – und je mehr von den Daten mit dem richtigen Informationsgehalt, desto besser. Ist es beispielsweise das Ziel, den Ausfall einer Maschine zu prognostizieren, dann sollten alle Dateneingaben zum Erstellen der Trainingsdaten für den Algorithmus so viele Fehlerereignisse wie möglich enthalten. Ansonsten ist gilt „Müll rein, Müll raus“, „Garbage in, Garbage out“ (GIGO).

Erst das Richtige tun 

Künstliche Intelligenz (KI) „ernährt sich“ von Daten. Insbesondere neuronale Netze und Deep Learning, wie TensorFlow, sind unersättlich. Doch trotz ihrer Bedeutung werden Daten oft stiefmütterlich behandelt. In der Regel wird bei der Planung eines neuen Datenanalyseprojekts erst über alles andere gesprochen: über die Qualifikation der Datenwissenschaftler, die richtigen Tools, Termine und natürlich das Budget. Auch deshalb wird am Ende die meiste Zeit eines Datenanalyseprojekts (Meßbereich von 50% bis <80%) für die Suche, Erfassung und Verfeinerung von Daten aufgewendet (siehe „Data is broken“, Link). Um Zeit und Geld zu sparen, sollte der Datenbedarf im Voraus festgelegt werden, um entsprechende Datenpools anzulegen.

Datenpools anlegen 

Nur sehr wenige Unternehmen werden in der Lage sein, die umfangreichen Datenmengen zu sammeln, die Datenanalyse-Pioniere benötigen, um Erfolgsgeschichten mit Daten zu schreiben, wie z.B. Amazon, Facebook und Google. Ein Trick, um das Spielfeld auszugleichen, ist die Zusammenarbeit mit anderen und die gemeinsame Erstellung von Datenpools. Daten können dabei auf verschiedene Art gesammelt werden:
(a) vertikal, entlang den sequentiellen Phasen einer Lieferkette (z. B. um die voraussichtliche Ankunftszeit einer Lieferung vorherzusagen)
(b) horizontal, für z.B. einen bestimmten Maschinentyp über alle Benutzer und Industrien hinweg (um beispielsweise Ausfälle vorherzusagen und die Betriebszeit zu verbessern), indem diese „übereinandergestapelt“ werden, um „Daten-Sandwiches“ zu erstellen. Ein Beispiel ist das Überlagern von Straßenkarten mit Daten über Fahrzeugverkehr, Personenverkehr, Wetterbedingungen und Ereignisinformationen zur Vorhersage von Verkehrsströmen.

Gepoolte Daten erfordern Data Governance 

Dennoch, als Datenwissenschaftler stoßen wir häufiger auf dieses Problem: Unzureichende Mengen an guten Daten. Das Zusammenführen von Daten aus verschiedenen Quellen könnte die Lösung sein und in einem aktuellen Interview mit t3n sprach sich sogar Bundesminister Altmaier für europaweite Datenpools aus (Link). Doch bis vor kurzem war es schwierig, Daten mit anderen zu bündeln. Ein zentrales Anliegen war die Datenverwaltung und die Fähigkeit, diese effektiv zu verwalten. „Die Frage der Datensouveränität ist für unsere Wettbewerbsfähigkeit von entscheidender Bedeutung“, resümiert Bundesminister Altmaier. 

Die International Dataspaces Assoziation (IDSA, Link) hat auf diese Herausforderung reagiert und einen Entwurf für eine Data Governance-Architektur erstellt, der Datenpools und Daten-Sandwiches über Unternehmensgrenzen hinweg ermöglicht, ohne die Verwaltung der Data Governance zu beeinträchtigen. IDSA definiert Data Governance als „die Fähigkeit einer natürlichen oder juristischen Person, sich in Bezug auf ihre Daten vollständig selbst zu bestimmen“ (IDSA Reference Architecture Mode 3.0, Seite 9). IDSA ist ein Branchenverband, der zur Förderung von Data Governance-Architekturlösungen auf der Grundlage von Untersuchungen des deutschen Fraunhofer-Instituts mit Mitteln der Bundesregierung gegründet wurde (Fraunhofer-Initiative für sicheren Datenraum, 2015). Heute gehören Automobilhersteller wie Volkswagen, Zulieferer wie Bosch und traditionelle Spezialisten für Informations- und Kommunikationstechnologie wie IBM und die Deutsche Telekom dazu. 

Quellen

IDSA Blog. 2019. Why Data Matters (June), link

IDSA Blog. 2019. How to do the right thing first and create data pools (July), link

IDSA Blog. 2019. German Federal Minister Altmaier Advocating Data Pools (August), link

The Wall Street Journal. 2019. Germany Backs European Cloud Project to Avoid Dependence on U.S. Technology (September 24th), link

Der Tagesspiegel. 2019. Der schwere Weg zur Europa-Cloud (August 2nd), link

T3n. 2019. Wirtschaftsminister Peter Altmaier: Wir ­brauchen einen Datenpool für ­Europa (May 29th), link 

Chris S. Langdon
Chris S. Langdon

Business Lead, Data Analytics Executive, Catena-X Product Manager

Weiterlesen