Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Fremtiden har ankommet, og teknologier for kunstig intelligens og maskinlæring blir allerede vellykket brukt av favorittbutikkene dine, transportselskapene og til og med kalkunfarmer.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Og hvis noe eksisterer, så er det allerede noe om det på Internett... et åpent prosjekt! Se hvordan Open Data Hub hjelper deg med å skalere nye teknologier og unngå implementeringsutfordringer.

Med alle fordelene med kunstig intelligens (AI) og maskinlæring (ML), har organisasjoner ofte problemer med å skalere disse teknologiene. Hovedproblemene i dette tilfellet er vanligvis følgende:

  • Informasjonsutveksling og samarbeid – det er nesten umulig å utveksle informasjon uten problemer og samarbeide i raske iterasjoner.
  • Datatilgang – for hver oppgave må den bygges på nytt og manuelt, noe som tar mye tid.
  • Tilgang på forespørsel – det er ingen måte å få on-demand tilgang til maskinlæringsverktøy og plattform, så vel som datainfrastruktur.
  • Produksjon – Modeller forblir på prototypestadiet og tas ikke til industriell bruk.
  • Spor og forklar AI-resultater – reproduserbarhet, sporing og forklaring av AI/ML-resultater er vanskelig.

Uten behandling påvirker disse problemene hastigheten, effektiviteten og produktiviteten til verdifulle dataforskere negativt. Dette fører til deres frustrasjon, skuffelse i arbeidet deres, og som et resultat går forretningsforventninger angående AI/ML til spille.

Ansvaret for å løse disse problemene faller på IT-spesialister, som må gi dataanalytikere - det stemmer, noe sånt som skyen. Mer detaljert trenger vi en plattform som gir valgfrihet og har praktisk og enkel tilgang. Samtidig er den rask, lett rekonfigurerbar, skalerbar på forespørsel og motstandsdyktig mot feil. Å bygge en slik plattform på åpen kildekode-teknologi bidrar til å unngå leverandørlåsing og opprettholde en langsiktig strategisk fordel når det gjelder kostnadskontroll.

For noen år siden skjedde noe lignende innen applikasjonsutvikling og førte til fremveksten av mikrotjenester, hybridskyer, IT-automatisering og smidige prosesser. For å takle alt dette har IT-fagfolk vendt seg til containere, Kubernetes og åpne hybridskyer.

Denne erfaringen brukes nå for å svare på Als utfordringer. Det er derfor IT-fagfolk bygger plattformer som er containerbaserte, som muliggjør etablering av AI/ML-tjenester innenfor smidige prosesser, akselererer innovasjon og er bygget med et øye mot hybridskyen.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Vi vil begynne å bygge en slik plattform med Red Hat OpenShift, vår containeriserte Kubernetes-plattform for hybridskyen, som har et raskt voksende økosystem av programvare og maskinvare ML-løsninger (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etc.). Noen av Red Hats kunder, som BMW Group, ExxonMobil og andre, har allerede distribuert containeriserte ML-verktøykjeder og DevOps-prosesser på toppen av plattformen og dens økosystem for å bringe ML-arkitekturene deres til produksjon og fremskynde arbeidet til dataanalytikere.

En annen grunn til at vi lanserte Open Data Hub-prosjektet er for å demonstrere et eksempel på en arkitektur basert på flere åpen kildekode-programvareprosjekter og vise hvordan man implementerer hele livssyklusen til en ML-løsning basert på OpenShift-plattformen.

Åpne Data Hub Project

Dette er et åpen kildekode-prosjekt som er utviklet innenfor det tilsvarende utviklingsfellesskapet og implementerer en full syklus av operasjoner – fra lasting og transformering av innledende data til generering, opplæring og vedlikehold av en modell – når man løser AI/ML-problemer ved å bruke containere og Kubernetes på OpenShift plattform. Dette prosjektet kan betraktes som en referanseimplementering, et eksempel på hvordan man bygger en åpen AI/ML-as-a-service-løsning basert på OpenShift og relaterte open source-verktøy som Tensorflow, JupyterHub, Spark og andre. Det er viktig å merke seg at Red Hat selv bruker dette prosjektet til å tilby sine AI/ML-tjenester. I tillegg integreres OpenShift med nøkkelprogramvare og maskinvare ML-løsninger fra NVIDIA, Seldon, Starbust og andre leverandører, noe som gjør det enklere å bygge og kjøre dine egne maskinlæringssystemer.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Open Data Hub-prosjektet er fokusert på følgende kategorier av brukere og brukstilfeller:

  • Dataanalytiker som trenger en løsning for implementering av ML-prosjekter, organisert som en sky med selvbetjeningsfunksjoner.
  • Dataanalytiker som trenger maksimalt valg fra de nyeste AI/ML-verktøyene og plattformene med åpen kildekode.
  • Dataanalytiker som trenger tilgang til datakilder ved opplæring av modeller.
  • Dataanalytiker som trenger tilgang til dataressurser (CPU, GPU, minne).
  • Dataanalytiker som krever evnen til å samarbeide og dele arbeid med kolleger, motta tilbakemeldinger og gjøre forbedringer i rask iterasjon.
  • En dataanalytiker som ønsker å samhandle med utviklere (og utvikle team) slik at hans ML-modeller og arbeidsresultater går i produksjon.
  • Dataingeniør som trenger å gi en dataanalytiker tilgang til en rekke datakilder samtidig som den overholder regulatoriske og sikkerhetskrav.
  • IT-systemadministrator/operatør som krever evnen til uanstrengt å kontrollere livssyklusen (installasjon, konfigurasjon, oppgradering) til komponenter og teknologier med åpen kildekode. Vi trenger også hensiktsmessige styrings- og kvoteverktøy.

Open Data Hub-prosjektet samler en rekke åpen kildekodeverktøy for å implementere en full syklus av AI/ML-operasjoner. Jupyter Notebook brukes her som det viktigste arbeidsverktøyet for dataanalyse. Verktøysettet er mye populært blant dataforskere i dag, og Open Data Hub lar dem enkelt opprette og administrere Jupyter Notebook-arbeidsområder ved hjelp av den innebygde JupyterHub. I tillegg til å lage og importere Jupyter-notatbøker, inneholder Open Data Hub-prosjektet også en rekke ferdige notatbøker i form av et AI-bibliotek.

Dette biblioteket er en samling av åpen kildekode maskinlæringskomponenter og løsninger for vanlige scenarier som forenkler rask prototyping. JupyterHub er integrert med OpenShifts RBAC-tilgangsmodell, som lar deg bruke eksisterende OpenShift-kontoer og implementere enkel pålogging. I tillegg tilbyr JupyterHub et brukervennlig brukergrensesnitt kalt spawner, der brukeren enkelt kan konfigurere mengden dataressurser (CPU-kjerner, minne, GPU) for den valgte Jupyter Notebook.

Etter at dataanalytikeren har opprettet og konfigurert den bærbare datamaskinen, blir alle andre bekymringer om den tatt hånd om av Kubernetes-planleggeren, som er en del av OpenShift. Brukere kan bare utføre sine eksperimenter, lagre og dele resultatene av arbeidet sitt. I tillegg kan avanserte brukere få direkte tilgang til OpenShift CLI-skallet direkte fra Jupyter bærbare PC-er for å utnytte Kubernetes primitiver som Job eller OpenShift funksjonalitet som Tekton eller Knative. Eller for dette kan du bruke OpenShifts praktiske GUI, som kalles "OpenShift-nettkonsollen".

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

For å gå videre til neste trinn, gjør Open Data Hub det mulig å administrere datapipelines. Til dette brukes et Ceph-objekt, som leveres som en S3-kompatibel objektdatalagring. Apache Spark lar deg streame data fra eksterne kilder eller innebygd Ceph S3-lagring, og lar deg også utføre foreløpige datatransformasjoner. Apache Kafka tilbyr avansert styring av datapipelines (hvor data kan lastes inn flere ganger, samt datatransformasjon, analyse og persistensoperasjoner).

Så dataanalytikeren fikk tilgang til dataene og bygde en modell. Nå har han et ønske om å dele de oppnådde resultatene med kolleger eller applikasjonsutviklere, og gi dem sin modell på prinsippene for en tjeneste. Dette krever en inferensserver, og Open Data Hub har en slik server, den heter Seldon og lar deg publisere modellen som en RESTful-tjeneste.

På et tidspunkt finnes det flere slike modeller på Seldon-serveren, og det er behov for å overvåke hvordan de brukes. For å oppnå dette tilbyr Open Data Hub en samling av relevante beregninger og en rapporteringsmotor basert på de mye brukte åpen kildekode-overvåkingsverktøyene Prometheus og Grafana. Som et resultat får vi tilbakemelding for å overvåke bruken av AI-modeller, spesielt i et produksjonsmiljø.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

På denne måten gir Open Data Hub en skylignende tilnærming gjennom hele AI/ML-livssyklusen, fra datatilgang og forberedelse til modellopplæring og produksjon.

Setter alt sammen

Nå oppstår spørsmålet hvordan du organiserer alt dette for OpenShift-administratoren. Og det er her en spesiell Kubernetes-operatør for Open Data Hub-prosjekter kommer inn i bildet.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Denne operatøren administrerer installasjonen, konfigurasjonen og livssyklusen til Open Data Hub-prosjektet, inkludert utrullingen av de nevnte verktøyene som JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus og Grafana. Open Data Hub-prosjektet finner du i OpenShift-nettkonsollen, i delen for fellesskapsoperatører. Dermed kan OpenShift-administratoren spesifisere at de tilsvarende OpenShift-prosjektene er kategorisert som "Open Data Hub-prosjekt". Dette gjøres en gang. Etter dette logger dataanalytikeren på prosjektområdet sitt gjennom OpenShift-nettkonsollen og ser at den tilsvarende Kubernetes-operatøren er installert og tilgjengelig for prosjektene hans. Deretter oppretter han en Open Data Hub-prosjektforekomst med ett klikk og har umiddelbart tilgang til verktøyene beskrevet ovenfor. Og alt dette kan konfigureres i høy tilgjengelighet og feiltoleransemodus.

Open Data Hub-prosjektet er en åpen maskinlæringsplattform basert på Red Hat OpenShift

Hvis du vil prøve Open Data Hub-prosjektet selv, start med installasjonsinstruksjoner og introduksjonsveiledning. Du finner tekniske detaljer om Open Data Hub-arkitekturen her, prosjektutviklingsplaner – her. I fremtiden planlegger vi å implementere ytterligere integrasjon med Kubeflow, løse en rekke problemer med dataregulering og sikkerhet, og også organisere integrasjon med regelbaserte systemer Drools og Optaplanner. Si din mening og bli en deltaker i prosjektet Åpne Data Hub mulig på siden samfunnet.

For å oppsummere: Alvorlige skaleringsutfordringer hindrer organisasjoner i å realisere det fulle potensialet til kunstig intelligens og maskinlæring. Red Hat OpenShift har lenge vært vellykket brukt til å løse lignende problemer i programvareindustrien. Open Data Hub-prosjektet, implementert i utviklingsfellesskapet for åpen kildekode, tilbyr en referansearkitektur for å organisere en full syklus av AI/ML-operasjoner basert på OpenShift-hybridskyen. Vi har en klar og gjennomtenkt plan for utviklingen av dette prosjektet, og vi er seriøse med å skape et aktivt og fruktbart fellesskap rundt det for å utvikle åpne AI-løsninger på OpenShift-plattformen.

Kilde: www.habr.com

Legg til en kommentar