Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Framtiden har anlänt, och artificiell intelligens och maskininlärningsteknik används redan framgångsrikt av dina favoritbutiker, transportföretag och till och med kalkonfarmar.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Och om något finns, så finns det redan något om det på Internet... ett öppet projekt! Se hur Open Data Hub hjälper dig skala ny teknik och undvika implementeringsutmaningar.

Med alla fördelarna med artificiell intelligens (AI) och maskininlärning (ML) har organisationer ofta svårt att skala dessa teknologier. De största problemen i det här fallet är vanligtvis följande:

  • Informationsutbyte och samarbete – det är nästan omöjligt att utbyta information utan ansträngning och samarbeta i snabba iterationer.
  • Datatillgång – för varje uppgift måste den byggas på nytt och manuellt, vilket tar mycket tid.
  • Tillgång på begäran – det finns inget sätt att få tillgång till maskininlärningsverktyg och plattform på begäran, såväl som datorinfrastruktur.
  • Produktion – modeller förblir på prototypstadiet och tas inte till industriell användning.
  • Spåra och förklara AI-resultat – reproducerbarhet, spårning och förklaring av AI/ML-resultat är svåra.

Om de inte åtgärdas påverkar dessa problem hastigheten, effektiviteten och produktiviteten hos värdefulla dataforskare negativt. Detta leder till deras frustration, besvikelse i deras arbete, och som ett resultat går företagens förväntningar på AI/ML till spillo.

Ansvaret för att lösa dessa problem faller på IT-specialister, som måste förse dataanalytiker med – det stämmer, ungefär som molnet. Mer detaljerat behöver vi en plattform som ger valfrihet och har bekväm och enkel åtkomst. Samtidigt är den snabb, lätt omkonfigurerbar, skalbar på begäran och motståndskraftig mot fel. Att bygga en sådan plattform på teknologier med öppen källkod hjälper till att undvika leverantörslåsning och bibehålla en långsiktig strategisk fördel när det gäller kostnadskontroll.

För några år sedan hände något liknande inom applikationsutveckling och ledde till uppkomsten av mikrotjänster, hybridmoln, IT-automation och agila processer. För att klara av allt detta har IT-proffs vänt sig till containrar, Kubernetes och öppna hybridmoln.

Denna erfarenhet används nu för att svara på Als utmaningar. Det är därför IT-proffs bygger plattformar som är containerbaserade, möjliggör skapandet av AI/ML-tjänster inom agila processer, accelererar innovation och är byggda med ett öga mot hybridmolnet.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Vi kommer att börja bygga en sådan plattform med Red Hat OpenShift, vår containeriserade Kubernetes-plattform för hybridmolnet, som har ett snabbt växande ekosystem av mjukvara och hårdvara ML-lösningar (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etc.). Några av Red Hats kunder, som BMW Group, ExxonMobil och andra, har redan distribuerat containeriserade ML-verktygskedjor och DevOps-processer ovanpå plattformen och dess ekosystem för att få sina ML-arkitekturer till produktion och påskynda arbetet för dataanalytiker.

En annan anledning till att vi lanserade Open Data Hub-projektet är att visa ett exempel på en arkitektur baserad på flera mjukvaruprojekt med öppen källkod och visa hur man implementerar hela livscykeln för en ML-lösning baserad på OpenShift-plattformen.

Öppna Data Hub Project

Detta är ett projekt med öppen källkod som är utvecklat inom motsvarande utvecklingsgemenskap och implementerar en hel cykel av operationer - från att ladda och transformera initial data till att generera, träna och underhålla en modell - när man löser AI/ML-problem med behållare och Kubernetes på OpenShift plattform. Detta projekt kan betraktas som en referensimplementering, ett exempel på hur man bygger en öppen AI/ML-as-a-service-lösning baserad på OpenShift och relaterade verktyg med öppen källkod som Tensorflow, JupyterHub, Spark och andra. Det är viktigt att notera att Red Hat själv använder detta projekt för att tillhandahålla sina AI/ML-tjänster. Dessutom integrerar OpenShift med nyckellösningar för mjukvara och hårdvara ML från NVIDIA, Seldon, Starbust och andra leverantörer, vilket gör det lättare att bygga och köra dina egna maskininlärningssystem.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Open Data Hub-projektet är fokuserat på följande kategorier av användare och användningsfall:

  • Dataanalytiker som behöver en lösning för att implementera ML-projekt, organiserade som ett moln med självbetjäningsfunktioner.
  • Dataanalytiker som behöver maximalt val från de senaste AI/ML-verktygen och plattformarna med öppen källkod.
  • Dataanalytiker som behöver tillgång till datakällor vid utbildning av modeller.
  • Dataanalytiker som behöver tillgång till datorresurser (CPU, GPU, minne).
  • Dataanalytiker som kräver förmågan att samarbeta och dela arbete med kollegor, få feedback och göra förbättringar i snabb iteration.
  • En dataanalytiker som vill interagera med utvecklare (och utvecklar team) så att hans ML-modeller och arbetsresultat går i produktion.
  • Dataingenjör som behöver förse en dataanalytiker med tillgång till en mängd olika datakällor samtidigt som den uppfyller regulatoriska och säkerhetskrav.
  • IT-systemadministratör/operatör som kräver förmågan att enkelt kontrollera livscykeln (installation, konfiguration, uppgradering) av komponenter och teknologier med öppen källkod. Vi behöver också lämpliga förvaltnings- och kvoteringsverktyg.

Open Data Hub-projektet samlar en rad verktyg med öppen källkod för att implementera en fullständig cykel av AI/ML-operationer. Jupyter Notebook används här som det huvudsakliga arbetsverktyget för dataanalys. Verktygslådan är mycket populär bland dataforskare idag, och Open Data Hub låter dem enkelt skapa och hantera Jupyter Notebook-arbetsytor med den inbyggda JupyterHub. Förutom att skapa och importera Jupyter-anteckningsböcker, innehåller Open Data Hub-projektet även ett antal färdiga anteckningsböcker i form av ett AI-bibliotek.

Det här biblioteket är en samling maskininlärningskomponenter med öppen källkod och lösningar för vanliga scenarier som förenklar snabb prototypframställning. JupyterHub är integrerad med OpenShifts RBAC-åtkomstmodell, som låter dig använda befintliga OpenShift-konton och implementera enkel inloggning. Dessutom erbjuder JupyterHub ett användarvänligt användargränssnitt som kallas spawner, genom vilket användaren enkelt kan konfigurera mängden datorresurser (CPU-kärnor, minne, GPU) för den valda Jupyter Notebook.

Efter att dataanalytikern har skapat och konfigurerat den bärbara datorn, tas alla andra bekymmer om den om hand av Kubernetes-schemaläggaren, som är en del av OpenShift. Användare kan bara utföra sina experiment, spara och dela resultaten av sitt arbete. Dessutom kan avancerade användare få direkt åtkomst till OpenShift CLI-skalet direkt från Jupyters bärbara datorer för att utnyttja Kubernetes primitiver som Job- eller OpenShift-funktioner som Tekton eller Knative. Eller för detta kan du använda OpenShifts bekväma GUI, som kallas "OpenShift-webbkonsolen".

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

För att gå vidare till nästa steg, gör Open Data Hub det möjligt att hantera datapipelines. För detta används ett Ceph-objekt, som tillhandahålls som en S3-kompatibel objektdatalagring. Apache Spark låter dig strömma data från externa källor eller inbyggd Ceph S3-lagring, och låter dig även utföra preliminära datatransformationer. Apache Kafka tillhandahåller avancerad hantering av datapipelines (där data kan laddas flera gånger, såväl som datatransformation, analys och persistensoperationer).

Så dataanalytikern fick tillgång till datan och byggde en modell. Nu har han en önskan att dela resultaten med kollegor eller applikationsutvecklare och förse dem med sin modell på principerna för en tjänst. Detta kräver en inferensserver, och Open Data Hub har en sådan server, den heter Seldon och låter dig publicera modellen som en RESTful-tjänst.

Vid något tillfälle finns det flera sådana modeller på Seldon-servern, och det finns ett behov av att övervaka hur de används. För att uppnå detta erbjuder Open Data Hub en samling relevanta mätvärden och en rapporteringsmotor baserad på de allmänt använda övervakningsverktygen med öppen källkod Prometheus och Grafana. Som ett resultat får vi feedback för att övervaka användningen av AI-modeller, särskilt i en produktionsmiljö.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

På så sätt ger Open Data Hub ett molnliknande tillvägagångssätt genom hela AI/ML-livscykeln, från dataåtkomst och förberedelse till modellutbildning och produktion.

Att sätta allt ihop

Nu uppstår frågan hur man organiserar allt detta för OpenShift-administratören. Och det är här en speciell Kubernetes-operatör för Open Data Hub-projekt kommer in i bilden.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Den här operatören hanterar installationen, konfigurationen och livscykeln för Open Data Hub-projektet, inklusive distributionen av de tidigare nämnda verktygen som JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus och Grafana. Open Data Hub-projektet finns i OpenShift-webbkonsolen, i avsnittet för community-operatörer. Således kan OpenShift-administratören ange att motsvarande OpenShift-projekt kategoriseras som "Open Data Hub-projekt". Detta görs en gång. Efter detta loggar dataanalytikern in på sitt projektutrymme via OpenShift-webbkonsolen och ser att motsvarande Kubernetes-operatör är installerad och tillgänglig för hans projekt. Han skapar sedan en Open Data Hub-projektinstans med ett klick och har omedelbart tillgång till verktygen som beskrivs ovan. Och allt detta kan konfigureras i hög tillgänglighet och feltoleransläge.

Open Data Hub-projektet är en öppen maskininlärningsplattform baserad på Red Hat OpenShift

Om du vill prova Open Data Hub-projektet själv, börja med installationsinstruktioner och inledande handledning. Tekniska detaljer om Open Data Hub-arkitekturen finns här, projektutvecklingsplaner – här. I framtiden planerar vi att implementera ytterligare integration med Kubeflow, lösa ett antal problem med datareglering och säkerhet, och även organisera integration med regelbaserade system Drools och Optaplanner. Uttryck din åsikt och bli en deltagare i projektet Öppna Data Hub möjligt på sidan gemenskap.

För att sammanfatta: Allvarliga skalningsutmaningar hindrar organisationer från att realisera den fulla potentialen av artificiell intelligens och maskininlärning. Red Hat OpenShift har länge använts framgångsrikt för att lösa liknande problem inom mjukvaruindustrin. Open Data Hub-projektet, implementerat inom utvecklingsgemenskapen med öppen källkod, erbjuder en referensarkitektur för att organisera en hel cykel av AI/ML-operationer baserade på hybridmolnet OpenShift. Vi har en tydlig och genomtänkt plan för utvecklingen av detta projekt, och vi menar allvar med att skapa en aktiv och fruktbar gemenskap kring det för att utveckla öppna AI-lösningar på OpenShift-plattformen.

Källa: will.com

Lägg en kommentar