Cloudera veröffentlicht die Data Science Workbench, um Data Science und Machine-Learning-Aufgaben im Unternehmen zu beschleunigen. Die Workbench ist ein Self-Service Tool für Data Scientists und unterstützt mit den derzeit leistungsstärksten Technologien beim Erstellen, Skalieren und Einsetzen von Machine Learning und Advanced-Analystics-Lösungen.
Die Cloudera Data Science Workbench (CDSW), deren Beta-Version zur Hadoop World 2017 in San Jose angekündigt wurde, kann über einen Webbrowser abgerufen werden und ermöglicht Data Scientists ihre bevorzugten Open-Source-Bibliotheken und Sprachen in sicheren Umgebungen zu nutzen – darunter R, Python und Scala. Mehrere Deeplearning Frameworks wie BigDL lassen sich in die Workbench integrieren. Dies hilft Data Scientists, Deeplearning-Bibliotheken auf CPUs besser zu nutzen, ohne in zusätzliche Hardware zu investieren.
Vorteile der Cloudera Data Science Workbench
Mit CDSW können Data Scientists:
- R, Python oder Scala auf dem Cluster über einem Webbrowser nutzen
- Bibliotheken und Frameworks in isolierten Projektumgebungen installieren
- direkt auf Daten in sicheren Clustern mit Spark und Impala zugreifen
- Einblicke mit dem Team teilen und somit reproduzierbare, kollaborative Forschung fördern
- Automatisierung und Überwachung von Datenpipelines durch eingebautes Job-scheduling ermöglichen
IT-Profis können hingegen:
- Datenwissenschaftler ermöglichen zu arbeiten, wie und wann sie wollen
- von der Out-of-the-Box-Unterstützung für die volle Plattform-Sicherheit, besonders durch Kerberos, profitieren
- CDSW in der Cloud oder On-premise ausführen
Architektur der Cloudera Data Science Workbench
Diese Vorteile werden durch die zugrundeliegende Architektur der CDSW erreicht. Die Workbench läuft auf einem oder mehreren dedizierten Gateway-Hosts auf einem CDH-Cluster. Der Cloudera Management Agent sorgt dafür, dass die Cloudera Data Science Workbench die Bibliotheken und die notwendigen Konfigurationen für den sicheren Zugriff auf den CDH-Cluster hat. Durch die Verwendung von Docker-Containern können Data Scientists mit ihren bevorzugten Tools und Bibliotheken isolierte Benutzer-Workloads ausführen. Isolierte CPUs und Speicher sorgen auch für eine zuverlässige und skalierbare Ausführung in einer Multi-Tenant-Umgebung. Jeder Docker-Container bietet ein virtualisiertes Gateway, um sicher auf Cloudera-Hadoop-Dienste wie HDFS, Spark 2, Hive und Impala zuzugreifen. Die CDSW ist in Master- und Worker-Knoten unterteilt. Jede Installation startet mit einem Master-Knoten, der alle kritischen persistenten und zustandsbehafteten Daten überwacht. Worker-Knoten können entfernt oder hinzugefügt werden, um die Gesamtkapazität zu erhöhen. Um alle diese Container über mehrere Knoten transparent zu verwalten, verwendet das CDSW Kubernetes, ein Container-Orchestrierungssystem.
T-Systems Data Science Workstation
Die CDSW wird in Kombination mit der Cloudera-Hadoop-Distribution auf der Open Telekom Cloud, Microsoft Azure und T-Systems Bare Metal Offering erhältlich sein.
Neben dem CDSW bietet T-Systems eine Data Science Workstation an. Im Gegensatz zu der CDSW, die für Produktionsumgebungen gemacht ist, deckt die Data Science Workstation alle Funktionalitäten ab, die bei der Entwicklung und dem Testen von Big Data Usecases oder Proof of Concepts benötigt werden. Die Workstation ist für kleine Datenmengen gedacht und kann eigenständig oder in Kombination mit anderen PaaS Services aus dem T-Systems AppAgile Container Repository eingesetzt werden. Es ist auch möglich, die Workstation auf T-Systems vCloud, Open Telekom Cloud, Microsoft Azure und zukünftig auf Bare Metal einzusetzen.
Die Workstation umfasst alle relevanten Technologien und Tools aus dem Hadoop Ökosystem wie HDFS, Map Reduce 2, Hue, Hive und Spark mit Unterstützung für Python, R und Scala. Diese Tools sind mit den neuesten Versionen aus dem Apache-Projekt verfügbar, was ein großer Vorteil gegenüber den Hadoop-Distributionen ist.
Mit dem CDSW und der Data Science Workstation ist T-Systems in der Lage, Kunden zu bedienen, die mit der Erforschung von Big Data und Analytics beginnen, sowie Kunden, die eine Umgebung benötigen, die sich produktiv einsetzen lässt.
Happy Data
Sven Löffler