Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Die Zukunft ist da und Technologien der künstlichen Intelligenz und des maschinellen Lernens werden bereits erfolgreich von Ihren Lieblingsgeschäften, Transportunternehmen und sogar Putenfarmen eingesetzt.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Und wenn es etwas gibt, dann gibt es auch schon etwas darüber im Internet... ein offenes Projekt! Erfahren Sie, wie Open Data Hub Ihnen dabei hilft, neue Technologien zu skalieren und Herausforderungen bei der Implementierung zu vermeiden.

Trotz aller Vorteile von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) haben Unternehmen oft Schwierigkeiten, diese Technologien zu skalieren. Die Hauptprobleme in diesem Fall sind normalerweise die folgenden:

  • Informationsaustausch und Zusammenarbeit – Es ist fast unmöglich, Informationen mühelos auszutauschen und in schnellen Iterationen zusammenzuarbeiten.
  • Datenzugriff – Für jede Aufgabe muss es neu und manuell erstellt werden, was viel Zeit in Anspruch nimmt.
  • Zugang auf Anfrage – Es gibt keine Möglichkeit, bei Bedarf Zugriff auf Tools und Plattformen für maschinelles Lernen sowie auf die Computerinfrastruktur zu erhalten.
  • Produktion – Modelle verbleiben im Prototypenstadium und werden nicht zur industriellen Nutzung gebracht.
  • Verfolgen und erklären Sie KI-Ergebnisse – Reproduzierbarkeit, Verfolgung und Erklärung von KI/ML-Ergebnissen sind schwierig.

Wenn diese Probleme nicht angegangen werden, wirken sie sich negativ auf die Geschwindigkeit, Effizienz und Produktivität wertvoller Datenwissenschaftler aus. Dies führt zu Frustration und Enttäuschung bei der Arbeit und führt dazu, dass die Geschäftserwartungen in Bezug auf KI/ML zunichte gemacht werden.

Die Verantwortung für die Lösung dieser Probleme liegt bei IT-Spezialisten, die den Datenanalysten – genau so etwas wie die Cloud – zur Verfügung stellen müssen. Genauer gesagt brauchen wir eine Plattform, die Wahlfreiheit bietet und über einen bequemen und einfachen Zugang verfügt. Gleichzeitig ist es schnell, einfach rekonfigurierbar, bei Bedarf skalierbar und ausfallsicher. Der Aufbau einer solchen Plattform auf Open-Source-Technologien trägt dazu bei, eine Anbieterbindung zu vermeiden und einen langfristigen strategischen Vorteil im Hinblick auf die Kostenkontrolle zu wahren.

Ähnliches geschah vor einigen Jahren in der Anwendungsentwicklung und führte zur Entstehung von Microservices, Hybrid Clouds, IT-Automatisierung und agilen Prozessen. Um all dies zu bewältigen, greifen IT-Experten auf Container, Kubernetes und offene Hybrid-Clouds zurück.

Diese Erfahrung wird nun genutzt, um Al's Herausforderungen zu beantworten. Aus diesem Grund entwickeln IT-Experten Plattformen, die auf Containern basieren, die Erstellung von KI/ML-Diensten innerhalb agiler Prozesse ermöglichen, Innovationen beschleunigen und mit Blick auf die Hybrid Cloud entwickelt werden.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Wir beginnen mit dem Aufbau einer solchen Plattform mit Red Hat OpenShift, unserer containerisierten Kubernetes-Plattform für die Hybrid Cloud, die über ein schnell wachsendes Ökosystem von Software- und Hardware-ML-Lösungen (NVIDIA, H2O.ai, Starburst, PerceptiLabs usw.) verfügt. Einige Kunden von Red Hat, wie die BMW Group, ExxonMobil und andere, haben bereits containerisierte ML-Toolchains und DevOps-Prozesse auf der Plattform und ihrem Ökosystem implementiert, um ihre ML-Architekturen in die Produktion zu bringen und die Arbeit von Datenanalysten zu beschleunigen.

Ein weiterer Grund, warum wir das Open Data Hub-Projekt ins Leben gerufen haben, besteht darin, ein Beispiel einer Architektur zu demonstrieren, die auf mehreren Open-Source-Softwareprojekten basiert, und zu zeigen, wie der gesamte Lebenszyklus einer ML-Lösung basierend auf der OpenShift-Plattform implementiert werden kann.

Öffnen Sie das Data Hub-Projekt

Hierbei handelt es sich um ein Open-Source-Projekt, das innerhalb der entsprechenden Entwicklungsgemeinschaft entwickelt wird und einen vollständigen Operationszyklus – vom Laden und Umwandeln der Ausgangsdaten bis hin zur Generierung, Schulung und Wartung eines Modells – bei der Lösung von KI-/ML-Problemen mithilfe von Containern und Kubernetes auf OpenShift implementiert Plattform. Dieses Projekt kann als Referenzimplementierung betrachtet werden, als Beispiel für den Aufbau einer offenen KI/ML-as-a-Service-Lösung auf Basis von OpenShift und verwandten Open-Source-Tools wie Tensorflow, JupyterHub, Spark und anderen. Es ist wichtig zu beachten, dass Red Hat selbst dieses Projekt zur Bereitstellung seiner KI/ML-Dienste nutzt. Darüber hinaus lässt sich OpenShift in wichtige Software- und Hardware-ML-Lösungen von NVIDIA, Seldon, Starbust und anderen Anbietern integrieren, sodass Sie Ihre eigenen Systeme für maschinelles Lernen einfacher erstellen und ausführen können.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Das Open Data Hub-Projekt konzentriert sich auf die folgenden Kategorien von Benutzern und Anwendungsfällen:

  • Datenanalyst, der eine Lösung zur Umsetzung von ML-Projekten benötigt, organisiert wie eine Cloud mit Self-Service-Funktionen.
  • Datenanalyst, der eine maximale Auswahl an den neuesten Open-Source-KI/ML-Tools und -Plattformen benötigt.
  • Datenanalyst, der beim Training von Modellen Zugriff auf Datenquellen benötigt.
  • Datenanalyst, der Zugriff auf Rechenressourcen (CPU, GPU, Speicher) benötigt.
  • Datenanalyst, der die Fähigkeit benötigt, mit Kollegen zusammenzuarbeiten und die Arbeit zu teilen, Feedback zu erhalten und Verbesserungen in schneller Iteration vorzunehmen.
  • Ein Datenanalyst, der mit Entwicklern (und Entwicklungsteams) interagieren möchte, damit seine ML-Modelle und Arbeitsergebnisse in die Produktion gehen.
  • Dateningenieur, der einem Datenanalysten Zugriff auf eine Vielzahl von Datenquellen ermöglichen und dabei die gesetzlichen und Sicherheitsanforderungen einhalten muss.
  • IT-Systemadministrator/-betreiber, der die Fähigkeit benötigt, den Lebenszyklus (Installation, Konfiguration, Upgrade) von Open-Source-Komponenten und -Technologien mühelos zu steuern. Wir brauchen auch entsprechende Management- und Quoteninstrumente.

Das Open Data Hub-Projekt vereint eine Reihe von Open-Source-Tools, um einen vollständigen Zyklus von KI/ML-Operationen zu implementieren. Als Hauptarbeitstool für die Datenanalyse kommt hier Jupyter Notebook zum Einsatz. Das Toolkit erfreut sich heute bei Datenwissenschaftlern großer Beliebtheit und Open Data Hub ermöglicht ihnen die einfache Erstellung und Verwaltung von Jupyter Notebook-Arbeitsbereichen mithilfe des integrierten JupyterHub. Neben der Erstellung und dem Import von Jupyter-Notebooks enthält das Open Data Hub-Projekt auch eine Reihe vorgefertigter Notebooks in Form einer AI Library.

Diese Bibliothek ist eine Sammlung von Open-Source-Komponenten und -Lösungen für maschinelles Lernen für gängige Szenarien, die das Rapid Prototyping vereinfachen. JupyterHub ist in das RBAC-Zugriffsmodell von OpenShift integriert, wodurch Sie vorhandene OpenShift-Konten verwenden und Single Sign-On implementieren können. Darüber hinaus bietet JupyterHub eine benutzerfreundliche Benutzeroberfläche namens Spawner, über die der Benutzer die Menge der Rechenressourcen (CPU-Kerne, Speicher, GPU) für das ausgewählte Jupyter-Notebook einfach konfigurieren kann.

Nachdem der Datenanalyst den Laptop erstellt und konfiguriert hat, kümmert sich der Kubernetes-Scheduler, der Teil von OpenShift ist, um alle anderen Anliegen. Benutzer können lediglich ihre Experimente durchführen, die Ergebnisse ihrer Arbeit speichern und teilen. Darüber hinaus können fortgeschrittene Benutzer direkt von Jupyter-Notebooks aus auf die OpenShift-CLI-Shell zugreifen, um Kubernetes-Primitive wie Job oder OpenShift-Funktionen wie Tekton oder Knative zu nutzen. Alternativ können Sie hierfür auch die praktische Benutzeroberfläche von OpenShift nutzen, die als „OpenShift-Webkonsole“ bezeichnet wird.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Im nächsten Schritt ermöglicht Open Data Hub die Verwaltung von Datenpipelines. Hierzu wird ein Ceph-Objekt verwendet, das als S3-kompatibler Objektdatenspeicher bereitgestellt wird. Mit Apache Spark können Sie Daten aus externen Quellen oder dem integrierten Ceph S3-Speicher streamen und vorläufige Datentransformationen durchführen. Apache Kafka bietet eine erweiterte Verwaltung von Datenpipelines (wo Daten mehrfach geladen werden können, sowie Datentransformations-, Analyse- und Persistenzvorgänge).

Der Datenanalyst hat also auf die Daten zugegriffen und ein Modell erstellt. Jetzt hat er den Wunsch, die erzielten Ergebnisse mit Kollegen oder Anwendungsentwicklern zu teilen und ihnen sein Modell auf den Prinzipien eines Dienstes zur Verfügung zu stellen. Dafür ist ein Inferenzserver erforderlich, und Open Data Hub verfügt über einen solchen Server, er heißt Seldon und ermöglicht die Veröffentlichung des Modells als RESTful-Dienst.

Irgendwann gibt es auf dem Seldon-Server mehrere solcher Modelle, und es besteht die Notwendigkeit, deren Verwendung zu überwachen. Um dies zu erreichen, bietet Open Data Hub eine Sammlung relevanter Metriken und eine Reporting-Engine basierend auf den weit verbreiteten Open-Source-Monitoring-Tools Prometheus und Grafana. Dadurch erhalten wir Feedback zur Überwachung des Einsatzes von KI-Modellen, insbesondere im Produktionsumfeld.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Auf diese Weise bietet Open Data Hub einen Cloud-ähnlichen Ansatz über den gesamten KI/ML-Lebenszyklus hinweg, vom Datenzugriff und der Datenaufbereitung bis hin zum Modelltraining und der Produktion.

Alles zusammensetzen

Nun stellt sich die Frage, wie man das alles für den OpenShift-Administrator organisieren kann. Und hier kommt ein spezieller Kubernetes-Betreiber für Open Data Hub-Projekte ins Spiel.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Dieser Betreiber verwaltet die Installation, Konfiguration und den Lebenszyklus des Open Data Hub-Projekts, einschließlich der Bereitstellung der oben genannten Tools wie JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus und Grafana. Das Open Data Hub-Projekt finden Sie in der OpenShift-Webkonsole im Abschnitt „Community-Operatoren“. Somit kann der OpenShift-Administrator festlegen, dass die entsprechenden OpenShift-Projekte als „Open Data Hub-Projekt“ kategorisiert werden. Dies erfolgt einmalig. Anschließend meldet sich der Datenanalyst über die OpenShift-Webkonsole in seinem Projektbereich an und sieht, dass der entsprechende Kubernetes-Operator installiert und für seine Projekte verfügbar ist. Anschließend erstellt er mit einem Klick eine Open Data Hub-Projektinstanz und hat sofort Zugriff auf die oben beschriebenen Tools. Und das alles kann im Hochverfügbarkeits- und Fehlertoleranzmodus konfiguriert werden.

Das Open Data Hub-Projekt ist eine offene Plattform für maschinelles Lernen, die auf Red Hat OpenShift basiert

Wenn Sie das Open Data Hub-Projekt selbst ausprobieren möchten, beginnen Sie mit Installationsanleitung und Einführungs-Tutorial. Technische Details zur Open Data Hub-Architektur finden Sie hier hier, Projektentwicklungspläne – hier. Für die Zukunft planen wir, eine zusätzliche Integration mit Kubeflow zu implementieren, eine Reihe von Problemen mit der Datenregulierung und -sicherheit zu lösen und auch die Integration mit den regelbasierten Systemen Drools und Optaplanner zu organisieren. Äußern Sie Ihre Meinung und werden Sie Teilnehmer des Projekts Öffnen Sie den Daten-Hub auf der Seite möglich Gemeinschaft.

Um es noch einmal zusammenzufassen: Ernsthafte Skalierungsherausforderungen hindern Unternehmen daran, das volle Potenzial von künstlicher Intelligenz und maschinellem Lernen auszuschöpfen. Red Hat OpenShift wird seit langem erfolgreich zur Lösung ähnlicher Probleme in der Softwareindustrie eingesetzt. Das innerhalb der Open-Source-Entwicklergemeinschaft implementierte Open Data Hub-Projekt bietet eine Referenzarchitektur für die Organisation eines vollständigen Zyklus von KI/ML-Operationen auf Basis der OpenShift-Hybrid-Cloud. Wir haben einen klaren und durchdachten Plan für die Entwicklung dieses Projekts und legen großen Wert darauf, rund um das Projekt eine aktive und fruchtbare Community für die Entwicklung offener KI-Lösungen auf der OpenShift-Plattform aufzubauen.

Source: habr.com

Kommentar hinzufügen