Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Prihodnost je prišla in tehnologije umetne inteligence in strojnega učenja že uspešno uporabljajo vaše najljubše trgovine, transportna podjetja in celo puranje farme.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

In če nekaj obstaja, potem je že nekaj o tem na internetu... odprt projekt! Oglejte si, kako vam Open Data Hub pomaga razširiti nove tehnologije in se izogniti izzivom pri implementaciji.

Z vsemi prednostmi umetne inteligence (AI) in strojnega učenja (ML) imajo organizacije pogosto težave pri prilagajanju teh tehnologij. Glavne težave v tem primeru so običajno naslednje:

  • Izmenjava informacij in sodelovanje – skoraj nemogoče je brez težav izmenjevati informacije in sodelovati v hitrih iteracijah.
  • Dostop do podatkov – za vsako nalogo ga je treba zgraditi na novo in ročno, kar vzame veliko časa.
  • Dostop na zahtevo – ni možnosti za pridobitev dostopa na zahtevo do orodij za strojno učenje in platforme ter računalniške infrastrukture.
  • Proizvodnja – modeli ostanejo v fazi prototipa in se ne prenesejo v industrijsko uporabo.
  • Sledite in pojasnite rezultate AI – ponovljivost, sledenje in razlaga rezultatov AI/ML so težavni.

Če te težave ne obravnavamo, negativno vplivajo na hitrost, učinkovitost in produktivnost dragocenih podatkovnih znanstvenikov. To vodi v njihovo frustracijo, razočaranje nad njihovim delom, posledično pa gredo v nič poslovna pričakovanja glede AI/ML.

Odgovornost za reševanje teh težav je na IT strokovnjakih, ki morajo analitikom zagotoviti podatke - tako je, nekaj podobnega oblaku. Natančneje, potrebujemo platformo, ki daje svobodo izbire in ima priročen in enostaven dostop. Hkrati je hiter, enostavno rekonfigurabilen, razširljiv na zahtevo in odporen na napake. Gradnja takšne platforme na odprtokodnih tehnologijah pomaga preprečiti vezanost na prodajalca in ohranja dolgoročno strateško prednost v smislu nadzora stroškov.

Nekaj ​​podobnega se je pred nekaj leti dogajalo pri razvoju aplikacij in vodilo do pojava mikrostoritev, hibridnih oblakov, IT avtomatizacije in agilnih procesov. Da bi se spopadli z vsem tem, so se IT strokovnjaki obrnili na vsebnike, Kubernetes in odprte hibridne oblake.

Ta izkušnja se zdaj uporablja za odgovor na Alove izzive. Zato strokovnjaki za IT gradijo platforme, ki temeljijo na vsebnikih, omogočajo ustvarjanje storitev AI/ML znotraj agilnih procesov, pospešujejo inovacije in so zgrajene s pogledom na hibridni oblak.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Takšno platformo bomo začeli graditi z Red Hat OpenShift, našo kontejnersko platformo Kubernetes za hibridni oblak, ki ima hitro rastoč ekosistem programskih in strojnih rešitev ML (NVIDIA, H2O.ai, Starburst, PerceptiLabs itd.). Nekatere od strank Red Hat, kot so BMW Group, ExxonMobil in drugi, so že namestile verige orodij ML v kontejnerjih in procese DevOps na vrhu platforme in njenega ekosistema, da bi svoje arhitekture ML prenesli v proizvodnjo in pospešili delo podatkovnih analitikov.

Drugi razlog, da smo zagnali projekt Open Data Hub, je prikazati primer arhitekture, ki temelji na več projektih odprtokodne programske opreme, in pokazati, kako implementirati celoten življenjski cikel rešitve ML, ki temelji na platformi OpenShift.

Open Data Hub Project

To je odprtokodni projekt, ki je razvit znotraj ustrezne razvojne skupnosti in izvaja celoten cikel operacij - od nalaganja in preoblikovanja začetnih podatkov do generiranja, usposabljanja in vzdrževanja modela - pri reševanju težav AI / ML z uporabo vsebnikov in Kubernetes na OpenShift. platforma. Ta projekt se lahko šteje za referenčno izvedbo, primer, kako zgraditi odprto rešitev AI/ML-as-a-service, ki temelji na OpenShift in sorodnih odprtokodnih orodjih, kot so Tensorflow, JupyterHub, Spark in drugi. Pomembno je omeniti, da sam Red Hat uporablja ta projekt za zagotavljanje svojih storitev AI/ML. Poleg tega se OpenShift integrira s ključnimi programskimi in strojnimi rešitvami ML NVIDIA, Seldon, Starbust in drugih prodajalcev, kar olajša izdelavo in izvajanje lastnih sistemov strojnega učenja.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Projekt Open Data Hub je osredotočen na naslednje kategorije uporabnikov in primere uporabe:

  • Podatkovni analitik, ki potrebuje rešitev za izvajanje ML projektov, organiziranih kot oblak s samopostrežnimi funkcijami.
  • Podatkovni analitik, ki potrebuje največjo izbiro med najnovejšimi odprtokodnimi orodji in platformami AI/ML.
  • Podatkovni analitik, ki potrebuje dostop do podatkovnih virov pri usposabljanju modelov.
  • Podatkovni analitik, ki potrebuje dostop do računalniških virov (CPU, GPE, pomnilnik).
  • Podatkovni analitik, ki zahteva sposobnost sodelovanja in deljenja dela s sodelavci, prejemanja povratnih informacij in izboljšav pri hitrem ponavljanju.
  • Podatkovni analitik, ki želi komunicirati z razvijalci (in ekipami devops), tako da gredo njegovi modeli ML in rezultati dela v proizvodnjo.
  • Podatkovni inženir, ki mora podatkovnemu analitiku zagotoviti dostop do različnih virov podatkov, pri tem pa upoštevati regulativne in varnostne zahteve.
  • Skrbnik/operater IT sistema, ki potrebuje sposobnost brez težav nadzorovati življenjski cikel (namestitev, konfiguracija, nadgradnja) odprtokodnih komponent in tehnologij. Potrebujemo tudi ustrezna orodja za upravljanje in kvote.

Projekt Open Data Hub združuje vrsto odprtokodnih orodij za izvajanje celotnega cikla operacij AI/ML. Jupyter Notebook se tukaj uporablja kot glavno delovno orodje za analizo podatkov. Zbirka orodij je danes zelo priljubljena med podatkovnimi znanstveniki in Open Data Hub jim omogoča preprosto ustvarjanje in upravljanje delovnih prostorov Jupyter Notebook z uporabo vgrajenega JupyterHuba. Projekt Open Data Hub poleg ustvarjanja in uvoza zvezkov Jupyter vsebuje tudi številne že pripravljene zvezke v obliki knjižnice AI.

Ta knjižnica je zbirka odprtokodnih komponent strojnega učenja in rešitev za običajne scenarije, ki poenostavljajo hitro izdelavo prototipov. JupyterHub je integriran z modelom dostopa RBAC OpenShift, ki vam omogoča uporabo obstoječih računov OpenShift in implementacijo enotne prijave. Poleg tega JupyterHub ponuja uporabniku prijazen uporabniški vmesnik, imenovan spawner, prek katerega lahko uporabnik enostavno konfigurira količino računalniških virov (jedra CPE, pomnilnik, GPU) za izbrani prenosni računalnik Jupyter.

Ko podatkovni analitik ustvari in konfigurira prenosnik, za vse druge skrbi v zvezi z njim poskrbi načrtovalnik Kubernetes, ki je del OpenShift. Uporabniki lahko samo izvajajo svoje poskuse, shranjujejo in delijo rezultate svojega dela. Poleg tega lahko napredni uporabniki neposredno dostopajo do lupine OpenShift CLI neposredno iz prenosnih računalnikov Jupyter, da izkoristijo primitive Kubernetes, kot je funkcija Job ali OpenShift, kot sta Tekton ali Knative. Za to pa lahko uporabite priročen GUI OpenShift, ki se imenuje »spletna konzola OpenShift«.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Če preidemo na naslednjo stopnjo, Open Data Hub omogoča upravljanje podatkovnih cevovodov. Za to se uporablja objekt Ceph, ki je na voljo kot shramba podatkov objektov, združljiva s S3. Apache Spark vam omogoča pretakanje podatkov iz zunanjih virov ali vgrajenega pomnilnika Ceph S3, prav tako pa vam omogoča izvajanje predhodnih transformacij podatkov. Apache Kafka zagotavlja napredno upravljanje podatkovnih cevovodov (kjer je mogoče podatke naložiti večkrat, kot tudi operacije transformacije podatkov, analize in obstojnosti).

Torej je podatkovni analitik dostopal do podatkov in zgradil model. Zdaj ima željo deliti pridobljene rezultate s sodelavci ali razvijalci aplikacij in jim ponuditi svoj model na principih storitve. To zahteva strežnik sklepanja in Open Data Hub ima tak strežnik, imenuje se Seldon in omogoča objavo modela kot storitve RESTful.

Na neki točki je na strežniku Seldon več takih modelov in treba je spremljati, kako se uporabljajo. Da bi to dosegli, Open Data Hub ponuja zbirko ustreznih meritev in mehanizem za poročanje, ki temelji na široko uporabljenih odprtokodnih orodjih za spremljanje Prometheus in Grafana. Posledično prejmemo povratne informacije za spremljanje uporabe modelov AI, zlasti v proizvodnem okolju.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Na ta način Open Data Hub zagotavlja pristop, podoben oblaku, v celotnem življenjskem ciklu AI/ML, od dostopa do podatkov in priprave do usposabljanja in proizvodnje modela.

Vse skupaj

Zdaj se postavlja vprašanje, kako vse to organizirati za skrbnika OpenShift. In tu nastopi poseben operater Kubernetes za projekte Open Data Hub.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Ta operater upravlja namestitev, konfiguracijo in življenjski cikel projekta Open Data Hub, vključno z uvedbo prej omenjenih orodij, kot so JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus in Grafana. Projekt Open Data Hub najdete v spletni konzoli OpenShift, v razdelku operaterji skupnosti. Tako lahko skrbnik OpenShift določi, da so ustrezni projekti OpenShift kategorizirani kot "projekt Open Data Hub". To se naredi enkrat. Po tem se podatkovni analitik prijavi v svoj projektni prostor prek spletne konzole OpenShift in vidi, da je ustrezni operater Kubernetes nameščen in na voljo za njegove projekte. Nato z enim klikom ustvari instanco projekta Open Data Hub in takoj ima dostop do zgoraj opisanih orodij. In vse to je mogoče konfigurirati v načinu visoke razpoložljivosti in tolerance napak.

Projekt Open Data Hub je odprta platforma za strojno učenje, ki temelji na Red Hat OpenShift

Če želite sami preizkusiti projekt Open Data Hub, začnite z navodila za namestitev in uvodne vadnice. Tehnične podrobnosti o arhitekturi Open Data Hub lahko najdete tukaj, razvojni načrti projekta – tukaj. V prihodnje nameravamo izvesti dodatno integracijo s Kubeflowom, rešiti vrsto težav z regulacijo in varnostjo podatkov ter organizirati integracijo s sistemoma Drools in Optaplanner, ki temeljita na pravilih. Izrazite svoje mnenje in postanite udeleženec projekta Odpri Data Hub možno na strani skupnosti.

Če povzamemo: resni izzivi skaliranja preprečujejo organizacijam, da bi izkoristile celoten potencial umetne inteligence in strojnega učenja. Red Hat OpenShift se že dolgo uspešno uporablja za reševanje podobnih težav v industriji programske opreme. Projekt Open Data Hub, ki se izvaja v okviru odprtokodne razvojne skupnosti, ponuja referenčno arhitekturo za organizacijo celotnega cikla operacij AI/ML na osnovi hibridnega oblaka OpenShift. Imamo jasen in premišljen načrt za razvoj tega projekta in resno nameravamo ustvariti aktivno in plodno skupnost okoli njega za razvoj odprtih rešitev AI na platformi OpenShift.

Vir: www.habr.com

Dodaj komentar