Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

De toekomst is aangebroken en technologieën voor kunstmatige intelligentie en machinaal leren worden al met succes gebruikt door uw favoriete winkels, transportbedrijven en zelfs kalkoenboerderijen.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

En als er iets bestaat, dan staat er al iets over op internet... een open project! Ontdek hoe Open Data Hub u helpt nieuwe technologieën op te schalen en implementatieproblemen te vermijden.

Met alle voordelen van kunstmatige intelligentie (AI) en machine learning (ML) hebben organisaties vaak moeite met het opschalen van deze technologieën. De belangrijkste problemen in dit geval zijn meestal de volgende:

  • Informatie-uitwisseling en samenwerking – het is bijna onmogelijk om moeiteloos informatie uit te wisselen en in snelle iteraties samen te werken.
  • Toegang tot data – voor elke taak moet het opnieuw en handmatig worden gebouwd, wat veel tijd kost.
  • Toegang op aanvraag – er is geen manier om on-demand toegang te krijgen tot tools en platforms voor machinaal leren, evenals tot de computerinfrastructuur.
  • Productie – modellen blijven in de prototypefase en worden niet voor industrieel gebruik gebruikt.
  • Volg en leg AI-resultaten uit – reproduceerbaarheid, tracking en uitleg van AI/ML-resultaten zijn moeilijk.

Als deze problemen niet worden aangepakt, hebben ze een negatieve invloed op de snelheid, efficiëntie en productiviteit van waardevolle datawetenschappers. Dit leidt tot hun frustratie en teleurstelling in hun werk, en als gevolg daarvan gaan de zakelijke verwachtingen met betrekking tot AI/ML verloren.

De verantwoordelijkheid voor het oplossen van deze problemen ligt bij IT-specialisten, die data-analisten moeten voorzien van - dat klopt, zoiets als de cloud. Meer gedetailleerd hebben we een platform nodig dat keuzevrijheid biedt en gemakkelijke en gemakkelijke toegang biedt. Tegelijkertijd is het snel, eenvoudig herconfigureerbaar, op aanvraag schaalbaar en bestand tegen storingen. Door een dergelijk platform op open source-technologieën te bouwen, wordt de lock-in van leveranciers voorkomen en wordt een strategisch voordeel op de lange termijn behouden op het gebied van kostenbeheersing.

Een paar jaar geleden gebeurde iets soortgelijks in de applicatieontwikkeling en leidde tot de opkomst van microservices, hybride clouds, IT-automatisering en agile processen. Om dit alles het hoofd te bieden, hebben IT-professionals zich tot containers, Kubernetes en open hybride clouds gewend.

Deze ervaring wordt nu toegepast om de uitdagingen van Al te beantwoorden. Daarom bouwen IT-professionals platforms die op containers zijn gebaseerd, die de creatie van AI/ML-diensten binnen agile processen mogelijk maken, innovatie versnellen en zijn gebouwd met het oog op de hybride cloud.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

We gaan een dergelijk platform bouwen met Red Hat OpenShift, ons gecontaineriseerde Kubernetes-platform voor de hybride cloud, dat een snel groeiend ecosysteem van software- en hardware-ML-oplossingen heeft (NVIDIA, H2O.ai, Starburst, PerceptiLabs, enz.). Sommige klanten van Red Hat, zoals BMW Group, ExxonMobil en anderen, hebben al gecontaineriseerde ML-toolchains en DevOps-processen bovenop het platform en zijn ecosysteem geïmplementeerd om hun ML-architecturen in productie te brengen en het werk van data-analisten te versnellen.

Een andere reden waarom we het Open Data Hub-project hebben gelanceerd, is om een ​​voorbeeld te demonstreren van een architectuur gebaseerd op verschillende open source softwareprojecten en om te laten zien hoe de gehele levenscyclus van een ML-oplossing op basis van het OpenShift-platform kan worden geïmplementeerd.

Open Data Hub-project

Dit is een open source-project dat is ontwikkeld binnen de overeenkomstige ontwikkelingsgemeenschap en een volledige cyclus van bewerkingen implementeert - van het laden en transformeren van initiële gegevens tot het genereren, trainen en onderhouden van een model - bij het oplossen van AI / ML-problemen met behulp van containers en Kubernetes op de OpenShift platform. Dit project kan worden beschouwd als een referentie-implementatie, een voorbeeld van hoe een open AI/ML-as-a-service-oplossing kan worden gebouwd op basis van OpenShift en gerelateerde open source-tools zoals Tensorflow, JupyterHub, Spark en anderen. Het is belangrijk op te merken dat Red Hat dit project zelf gebruikt om zijn AI/ML-diensten te leveren. Bovendien kan OpenShift worden geïntegreerd met belangrijke software- en hardware-ML-oplossingen van NVIDIA, Seldon, Starbust en andere leveranciers, waardoor het eenvoudiger wordt om uw eigen machine learning-systemen te bouwen en uit te voeren.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Het Open Data Hub-project richt zich op de volgende categorieën gebruikers en gebruiksscenario's:

  • Data-analist die een oplossing nodig heeft voor het implementeren van ML-projecten, georganiseerd als een cloud met zelfbedieningsfuncties.
  • Data-analist die maximale keuze nodig heeft uit de nieuwste open source AI/ML-tools en -platforms.
  • Data-analist die toegang nodig heeft tot databronnen bij het trainen van modellen.
  • Data-analist die toegang nodig heeft tot computerbronnen (CPU, GPU, geheugen).
  • Data-analist die het vermogen nodig heeft om samen te werken en werk te delen met collega's, feedback te ontvangen en in snelle iteratie verbeteringen aan te brengen.
  • Een data-analist die wil communiceren met ontwikkelaars (en devops-teams) zodat zijn ML-modellen en werkresultaten in productie gaan.
  • Data-ingenieur die een data-analist toegang moet geven tot een verscheidenheid aan gegevensbronnen en tegelijkertijd moet voldoen aan wettelijke en beveiligingsvereisten.
  • IT-systeembeheerder/-operator die de mogelijkheid nodig heeft om moeiteloos de levenscyclus (installatie, configuratie, upgrade) van open source-componenten en -technologieën te controleren. We hebben ook passende beheer- en quota-instrumenten nodig.

Het Open Data Hub-project brengt een reeks open source-tools samen om een ​​volledige cyclus van AI/ML-operaties te implementeren. Jupyter Notebook wordt hier gebruikt als het belangrijkste werkinstrument voor data-analyse. De toolkit is tegenwoordig erg populair onder datawetenschappers en met Open Data Hub kunnen ze eenvoudig Jupyter Notebook-werkruimten maken en beheren met behulp van de ingebouwde JupyterHub. Naast het aanmaken en importeren van Jupyter-notebooks bevat het Open Data Hub-project ook een aantal kant-en-klare notebooks in de vorm van een AI Library.

Deze bibliotheek is een verzameling open-source machine learning-componenten en -oplossingen voor veelvoorkomende scenario's die rapid prototyping vereenvoudigen. JupyterHub is geïntegreerd met het RBAC-toegangsmodel van OpenShift, waarmee u bestaande OpenShift-accounts kunt gebruiken en eenmalige aanmelding kunt implementeren. Daarnaast biedt JupyterHub een gebruiksvriendelijke gebruikersinterface genaamd spawner, waarmee de gebruiker eenvoudig de hoeveelheid computerbronnen (CPU-cores, geheugen, GPU) voor de geselecteerde Jupyter Notebook kan configureren.

Nadat de data-analist de laptop heeft gemaakt en geconfigureerd, worden alle andere zorgen erover afgehandeld door de Kubernetes-planner, die onderdeel is van OpenShift. Gebruikers kunnen alleen hun experimenten uitvoeren, de resultaten van hun werk opslaan en delen. Bovendien hebben geavanceerde gebruikers direct toegang tot de OpenShift CLI-shell rechtstreeks vanuit Jupyter-notebooks om gebruik te maken van Kubernetes-primitieven zoals Job- of OpenShift-functionaliteit zoals Tekton of Knative. Of u kunt hiervoor de handige GUI van OpenShift gebruiken, die de “OpenShift-webconsole” wordt genoemd.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Op weg naar de volgende fase maakt Open Data Hub het mogelijk om datapijplijnen te beheren. Hiervoor wordt een Ceph-object gebruikt, dat als S3-compatibele objectgegevensopslag ter beschikking wordt gesteld. Met Apache Spark kunt u gegevens streamen vanuit externe bronnen of ingebouwde Ceph S3-opslag, en kunt u ook voorlopige gegevenstransformaties uitvoeren. Apache Kafka biedt geavanceerd beheer van gegevenspijplijnen (waar gegevens meerdere keren kunnen worden geladen, evenals gegevenstransformatie-, analyse- en persistentiebewerkingen).

De data-analist heeft dus toegang gekregen tot de gegevens en een model gebouwd. Nu heeft hij de wens om de verkregen resultaten te delen met collega's of applicatieontwikkelaars, en hen zijn model over de principes van een dienst te verstrekken. Hiervoor is een inferentieserver nodig, en Open Data Hub heeft zo'n server, deze heet Seldon en stelt u in staat het model te publiceren als een RESTful-service.

Op een gegeven moment staan ​​er verschillende van dergelijke modellen op de Seldon-server en moet worden gecontroleerd hoe ze worden gebruikt. Om dit te bereiken biedt Open Data Hub een verzameling relevante statistieken en een rapportage-engine op basis van de veelgebruikte open source monitoringtools Prometheus en Grafana. Hierdoor krijgen we feedback om het gebruik van AI-modellen te monitoren, vooral in een productieomgeving.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Op deze manier biedt Open Data Hub een cloudachtige aanpak gedurende de gehele AI/ML-levenscyclus, van gegevenstoegang en -voorbereiding tot modeltraining en productie.

Alles bij elkaar

Nu rijst de vraag hoe dit allemaal te organiseren voor de OpenShift beheerder. En dit is waar een speciale Kubernetes-operator voor Open Data Hub-projecten in het spel komt.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Deze operator beheert de installatie, configuratie en levenscyclus van het Open Data Hub-project, inclusief de inzet van bovengenoemde tools zoals JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus en Grafana. Het Open Data Hub-project is te vinden in de OpenShift-webconsole, in de sectie Community-operators. Zo kan de OpenShift-beheerder opgeven dat de overeenkomstige OpenShift-projecten worden gecategoriseerd als "Open Data Hub-project". Dit wordt één keer gedaan. Hierna logt de data-analist via de OpenShift-webconsole in op zijn projectruimte en ziet dat de bijbehorende Kubernetes-operator geïnstalleerd en beschikbaar is voor zijn projecten. Vervolgens maakt hij met één klik een Open Data Hub-projectinstantie aan en heeft hij direct toegang tot de hierboven beschreven tools. En dit alles kan worden geconfigureerd in de modus voor hoge beschikbaarheid en fouttolerantie.

Het Open Data Hub-project is een open machine learning-platform gebaseerd op Red Hat OpenShift

Als u het Open Data Hub-project zelf wilt uitproberen, begin dan met installatie-instructies en inleidende tutorial. Technische details van de Open Data Hub-architectuur zijn te vinden hier, projectontwikkelingsplannen – hier. In de toekomst zijn we van plan om aanvullende integratie met Kubeflow te implementeren, een aantal problemen met dataregulering en -beveiliging op te lossen en ook integratie met op regels gebaseerde systemen Drools en Optaplanner te organiseren. Geef uw mening en word deelnemer aan het project Datahub openen mogelijk op de pagina gemeenschap.

Samenvattend: ernstige schaaluitdagingen weerhouden organisaties ervan het volledige potentieel van kunstmatige intelligentie en machinaal leren te realiseren. Red Hat OpenShift wordt al lange tijd met succes gebruikt om vergelijkbare problemen in de software-industrie op te lossen. Het Open Data Hub-project, geïmplementeerd binnen de open source-ontwikkelgemeenschap, biedt een referentiearchitectuur voor het organiseren van een volledige cyclus van AI/ML-operaties op basis van de OpenShift hybride cloud. We hebben een duidelijk en doordacht plan voor de ontwikkeling van dit project, en we zijn serieus bezig met het creëren van een actieve en vruchtbare gemeenschap eromheen voor het ontwikkelen van open AI-oplossingen op het OpenShift-platform.

Bron: www.habr.com

Voeg een reactie