Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Fremtiden er ankommet, og kunstig intelligens og maskinlæringsteknologier bliver allerede med succes brugt af dine yndlingsbutikker, transportvirksomheder og endda kalkunfarme.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Og hvis noget eksisterer, så er der allerede noget om det på internettet... et åbent projekt! Se, hvordan Open Data Hub hjælper dig med at skalere nye teknologier og undgå implementeringsudfordringer.

Med alle fordelene ved kunstig intelligens (AI) og maskinlæring (ML), har organisationer ofte svært ved at skalere disse teknologier. Hovedproblemerne i dette tilfælde er normalt følgende:

  • Informationsudveksling og samarbejde – det er næsten umuligt at udveksle information ubesværet og samarbejde i hurtige iterationer.
  • Dataadgang – for hver opgave skal den bygges nyt og manuelt, hvilket tager meget tid.
  • Adgang efter behov – der er ingen måde at få on-demand adgang til maskinlæringsværktøjer og -platforme samt computerinfrastruktur.
  • Produktion – modeller forbliver på prototypestadiet og bringes ikke til industriel brug.
  • Spor og forklar AI-resultater – reproducerbarhed, sporing og forklaring af AI/ML-resultater er vanskelige.

Hvis de ikke behandles, påvirker disse problemer hastigheden, effektiviteten og produktiviteten hos værdifulde dataforskere negativt. Dette fører til deres frustration, skuffelse over deres arbejde, og som følge heraf går virksomhedens forventninger til AI/ML til spilde.

Ansvaret for at løse disse problemer påhviler IT-specialister, som skal forsyne dataanalytikere med – det er rigtigt, noget i retning af skyen. Mere detaljeret har vi brug for en platform, der giver valgfrihed og har bekvem, nem adgang. Samtidig er den hurtig, let rekonfigurerbar, skalerbar efter behov og modstandsdygtig over for fejl. At bygge en sådan platform på open source-teknologier hjælper med at undgå leverandørlåsning og opretholde en langsigtet strategisk fordel med hensyn til omkostningskontrol.

For et par år siden skete der noget lignende inden for applikationsudvikling og førte til fremkomsten af ​​mikrotjenester, hybridskyer, IT-automatisering og agile processer. For at klare alt dette har it-professionelle vendt sig til containere, Kubernetes og åbne hybridskyer.

Denne erfaring bruges nu til at besvare Als udfordringer. Det er derfor, it-professionelle bygger platforme, der er containerbaserede, muliggør skabelsen af ​​AI/ML-tjenester inden for agile processer, accelererer innovation og er bygget med et øje mod hybridskyen.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Vi begynder at bygge sådan en platform med Red Hat OpenShift, vores containeriserede Kubernetes-platform til hybridskyen, som har et hurtigt voksende økosystem af software- og hardware-ML-løsninger (NVIDIA, H2O.ai, Starburst, PerceptiLabs osv.). Nogle af Red Hats kunder, såsom BMW Group, ExxonMobil og andre, har allerede implementeret containeriserede ML-værktøjskæder og DevOps-processer oven på platformen og dens økosystem for at bringe deres ML-arkitekturer til produktion og fremskynde dataanalytikeres arbejde.

En anden grund til, at vi lancerede Open Data Hub-projektet, er at demonstrere et eksempel på en arkitektur baseret på flere open source-softwareprojekter og vise, hvordan man implementerer hele livscyklussen af ​​en ML-løsning baseret på OpenShift-platformen.

Åbn Data Hub Project

Dette er et open source-projekt, der er udviklet inden for det tilsvarende udviklingsfællesskab og implementerer en fuld cyklus af operationer - fra indlæsning og transformering af indledende data til generering, træning og vedligeholdelse af en model - ved løsning af AI/ML-problemer ved hjælp af containere og Kubernetes på OpenShift platform. Dette projekt kan betragtes som en referenceimplementering, et eksempel på, hvordan man bygger en åben AI/ML-as-a-service-løsning baseret på OpenShift og relaterede open source-værktøjer såsom Tensorflow, JupyterHub, Spark og andre. Det er vigtigt at bemærke, at Red Hat selv bruger dette projekt til at levere sine AI/ML-tjenester. Derudover integrerer OpenShift med nøglesoftware og hardware ML-løsninger fra NVIDIA, Seldon, Starbust og andre leverandører, hvilket gør det nemmere at bygge og køre dine egne machine learning-systemer.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Open Data Hub-projektet er fokuseret på følgende kategorier af brugere og use cases:

  • Dataanalytiker som har brug for en løsning til implementering af ML-projekter, organiseret som en sky med selvbetjeningsfunktioner.
  • Dataanalytiker, der har brug for maksimalt valg fra de nyeste open source AI/ML-værktøjer og -platforme.
  • Dataanalytiker, der har brug for adgang til datakilder ved træning af modeller.
  • Dataanalytiker, der har brug for adgang til computerressourcer (CPU, GPU, hukommelse).
  • Dataanalytiker, der kræver evnen til at samarbejde og dele arbejde med kolleger, modtage feedback og foretage forbedringer i hurtig iteration.
  • En dataanalytiker, der ønsker at interagere med udviklere (og udvikler teams), så hans ML-modeller og arbejdsresultater går i produktion.
  • Dataingeniør, der har brug for at give en dataanalytiker adgang til en række forskellige datakilder, samtidig med at den overholder lovgivnings- og sikkerhedskrav.
  • IT-systemadministrator/-operatør, der kræver evnen til ubesværet at kontrollere livscyklussen (installation, konfiguration, opgradering) af open source-komponenter og -teknologier. Vi har også brug for passende styrings- og kvoteværktøjer.

Open Data Hub-projektet samler en række open source-værktøjer til at implementere en fuld cyklus af AI/ML-operationer. Jupyter Notebook bruges her som det vigtigste arbejdsværktøj til dataanalyse. Værktøjssættet er meget populært blandt dataforskere i dag, og Open Data Hub giver dem mulighed for nemt at oprette og administrere Jupyter Notebook-arbejdsområder ved hjælp af den indbyggede JupyterHub. Udover at oprette og importere Jupyter-notesbøger, indeholder Open Data Hub-projektet også en række færdige notesbøger i form af et AI-bibliotek.

Dette bibliotek er en samling af open source maskinlæringskomponenter og løsninger til almindelige scenarier, der forenkler hurtig prototyping. JupyterHub er integreret med OpenShifts RBAC-adgangsmodel, som giver dig mulighed for at bruge eksisterende OpenShift-konti og implementere single sign-on. Derudover tilbyder JupyterHub en brugervenlig brugergrænseflade kaldet spawner, hvorigennem brugeren nemt kan konfigurere mængden af ​​computerressourcer (CPU-kerner, hukommelse, GPU) for den valgte Jupyter Notebook.

Efter at dataanalytikeren har oprettet og konfigureret den bærbare computer, tages alle andre bekymringer om det af Kubernetes-planlæggeren, som er en del af OpenShift. Brugere kan kun udføre deres eksperimenter, gemme og dele resultaterne af deres arbejde. Derudover kan avancerede brugere få direkte adgang til OpenShift CLI-skallen direkte fra Jupyter-notebooks for at udnytte Kubernetes-primitiver såsom Job- eller OpenShift-funktionalitet såsom Tekton eller Knative. Eller til dette kan du bruge OpenShifts praktiske GUI, som kaldes "OpenShift webkonsollen".

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Går vi videre til næste trin, gør Open Data Hub det muligt at administrere datapipelines. Til dette bruges et Ceph-objekt, som leveres som et S3-kompatibelt objektdatalager. Apache Spark giver dig mulighed for at streame data fra eksterne kilder eller indbygget Ceph S3-lager, og giver dig også mulighed for at udføre foreløbige datatransformationer. Apache Kafka leverer avanceret styring af datapipelines (hvor data kan indlæses flere gange, såvel som datatransformation, analyse og persistensoperationer).

Så dataanalytikeren fik adgang til dataene og byggede en model. Nu har han et ønske om at dele de opnåede resultater med kolleger eller applikationsudviklere og give dem sin model på principperne for en tjeneste. Dette kræver en inferensserver, og Open Data Hub har sådan en server, den hedder Seldon og giver dig mulighed for at udgive modellen som en RESTful service.

På et tidspunkt er der flere sådanne modeller på Seldon-serveren, og der er behov for at overvåge, hvordan de bruges. For at opnå dette tilbyder Open Data Hub en samling af relevante metrics og en rapporteringsmotor baseret på de meget brugte open source-overvågningsværktøjer Prometheus og Grafana. Som et resultat modtager vi feedback for at overvåge brugen af ​​AI-modeller, især i et produktionsmiljø.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

På denne måde giver Open Data Hub en skylignende tilgang gennem hele AI/ML-livscyklussen, fra dataadgang og forberedelse til modeltræning og produktion.

Sætte det hele sammen

Nu opstår spørgsmålet, hvordan man organiserer alt dette for OpenShift-administratoren. Og det er her, en særlig Kubernetes-operatør for Open Data Hub-projekter kommer i spil.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Denne operatør administrerer installationen, konfigurationen og livscyklussen af ​​Open Data Hub-projektet, herunder implementeringen af ​​de førnævnte værktøjer såsom JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus og Grafana. Open Data Hub-projektet kan findes i OpenShift-webkonsollen i sektionen for fællesskabsoperatører. Således kan OpenShift-administratoren angive, at de tilsvarende OpenShift-projekter er kategoriseret som "Open Data Hub-projekt". Dette gøres én gang. Herefter logger dataanalytikeren på sit projektrum gennem OpenShift-webkonsollen og ser, at den tilsvarende Kubernetes-operatør er installeret og tilgængelig for hans projekter. Han opretter derefter en Open Data Hub-projektinstans med et enkelt klik og har straks adgang til værktøjerne beskrevet ovenfor. Og alt dette kan konfigureres i høj tilgængelighed og fejltolerancetilstand.

Open Data Hub-projektet er en åben maskinlæringsplatform baseret på Red Hat OpenShift

Hvis du selv vil prøve Open Data Hub-projektet, så start med installationsvejledning og introduktionsvejledning. Tekniske detaljer om Open Data Hub-arkitekturen kan findes her, projektudviklingsplaner – her. I fremtiden planlægger vi at implementere yderligere integration med Kubeflow, løse en række problemer med dataregulering og sikkerhed og også organisere integration med regelbaserede systemer Drools og Optaplanner. Giv udtryk for din mening og bliv deltager i projektet Åbn Data Hub muligt på siden fællesskab.

For at opsummere: Alvorlige skaleringsudfordringer forhindrer organisationer i at realisere det fulde potentiale af kunstig intelligens og maskinlæring. Red Hat OpenShift er længe blevet brugt med succes til at løse lignende problemer i softwareindustrien. Open Data Hub-projektet, implementeret i open source-udviklingsfællesskabet, tilbyder en referencearkitektur til at organisere en fuld cyklus af AI/ML-operationer baseret på OpenShift-hybridskyen. Vi har en klar og gennemtænkt plan for udviklingen af ​​dette projekt, og vi er seriøse med at skabe et aktivt og frugtbart fællesskab omkring det til udvikling af åbne AI-løsninger på OpenShift-platformen.

Kilde: www.habr.com

Tilføj en kommentar