Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Tulevaisuus on saapunut, ja tekoälyä ja koneoppimistekniikoita käyttävät jo menestyksekkäästi suosikkikaupat, kuljetusyritykset ja jopa kalkkunatilat.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Ja jos jotain on olemassa, siitä on jo jotain Internetissä... avoin projekti! Katso, kuinka Open Data Hub auttaa sinua skaalaamaan uusia teknologioita ja välttämään käyttöönoton haasteita.

Kaikilla tekoälyn (AI) ja koneoppimisen (ML) eduilla organisaatioilla on usein vaikeuksia skaalata näitä teknologioita. Tärkeimmät ongelmat tässä tapauksessa ovat yleensä seuraavat:

  • Tiedonvaihto ja yhteistyö – On lähes mahdotonta vaihtaa tietoa vaivattomasti ja tehdä yhteistyötä nopeissa iteraatioissa.
  • Tietojen käyttö – jokaista tehtävää varten se on rakennettava uudelleen ja manuaalisesti, mikä vie paljon aikaa.
  • Pääsy pyynnöstä – koneoppimistyökaluja ja -alustaa sekä laskentainfrastruktuuria ei ole mahdollista saada tilauksesta.
  • Tuotanto – mallit pysyvät prototyyppivaiheessa, eikä niitä viedä teolliseen käyttöön.
  • Seuraa ja selitä tekoälyn tuloksia – AI/ML-tulosten toistettavuus, seuranta ja selittäminen on vaikeaa.

Jos näitä ongelmia ei käsitellä, ne vaikuttavat kielteisesti arvokkaiden datatieteilijöiden nopeuteen, tehokkuuteen ja tuottavuuteen. Tämä johtaa heidän turhautumiseensa, pettymyksiinsä heidän työhönsä, ja sen seurauksena yritysten AI/ML-odotukset menevät hukkaan.

Vastuu näiden ongelmien ratkaisemisesta on IT-asiantuntijoilla, joiden on tarjottava data-analyytikoille - aivan oikein, jotain pilven kaltaista. Tarkemmin sanottuna tarvitsemme alustan, joka antaa valinnanvapauden ja johon on kätevä ja helppo pääsy. Samalla se on nopea, helposti konfiguroitava, tarpeen mukaan skaalautuva ja kestää vikoja. Tällaisen alustan rakentaminen avoimen lähdekoodin tekniikoihin auttaa välttämään toimittajien lukkiutumisen ja säilyttämään pitkän aikavälin strategisen edun kustannusten hallinnassa.

Muutama vuosi sitten jotain vastaavaa tapahtui sovelluskehityksessä, ja se johti mikropalvelujen, hybridipilvien, IT-automaation ja kettereiden prosessien syntymiseen. Selviytyäkseen kaikesta tästä IT-ammattilaiset ovat kääntyneet konttien, Kubernetesin ja avoimien hybridipilvien puoleen.

Tätä kokemusta käytetään nyt vastaamaan Alin haasteisiin. Siksi IT-ammattilaiset rakentavat alustoja, jotka ovat konttipohjaisia, mahdollistavat tekoäly-/ML-palveluiden luomisen ketterissä prosesseissa, nopeuttavat innovaatioita ja jotka on rakennettu hybridipilveä silmällä pitäen.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Aloitamme tällaisen alustan rakentamisen Red Hat OpenShiftillä, konttipohjaisella Kubernetes-alustallamme hybridipilvelle, jolla on nopeasti kasvava ohjelmisto- ja laitteistoekosysteemi ML-ratkaisuista (NVIDIA, H2O.ai, Starburst, PerceptiLabs jne.). Jotkut Red Hatin asiakkaista, kuten BMW Group, ExxonMobil ja muut, ovat jo ottaneet käyttöön ML-työkaluketjuja ja DevOps-prosesseja alustan ja sen ekosysteemin päälle tuodakseen ML-arkkitehtuurinsa tuotantoon ja nopeuttaakseen data-analyytikkojen työtä.

Toinen syy Open Data Hub -projektin käynnistämiseen on esitellä esimerkkiä useisiin avoimen lähdekoodin ohjelmistoprojekteihin perustuvasta arkkitehtuurista ja näyttää, kuinka OpenShift-alustaan ​​perustuvan ML-ratkaisun koko elinkaare voidaan toteuttaa.

Avaa Data Hub -projekti

Tämä on avoimen lähdekoodin projekti, joka on kehitetty vastaavassa kehitysyhteisössä ja toteuttaa täyden toimintasyklin - lähtötietojen lataamisesta ja muuntamisesta mallin luomiseen, harjoittamiseen ja ylläpitoon - kun ratkaistaan ​​AI/ML-ongelmia konteilla ja Kubernetesilla OpenShiftissä. alusta. Tätä projektia voidaan pitää referenssitoteutuksena, esimerkkinä avoimen AI/ML-as-a-service -ratkaisun rakentamisesta OpenShiftin ja niihin liittyvien avoimen lähdekoodin työkalujen kuten Tensorflow, JupyterHub, Spark ja muiden pohjalta. On tärkeää huomata, että Red Hat itse käyttää tätä projektia tarjotakseen AI/ML-palvelujaan. Lisäksi OpenShift integroituu NVIDIA:n, Seldonin, Starbustin ja muiden valmistajien keskeisiin ohjelmisto- ja laitteistopohjaisiin ML-ratkaisuihin, mikä helpottaa omien koneoppimisjärjestelmien rakentamista ja käyttöä.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Open Data Hub -projekti keskittyy seuraaviin käyttäjäluokkiin ja käyttötapauksiin:

  • Dataanalyytikko, joka tarvitsee ratkaisun ML-projektien toteuttamiseen, joka on organisoitu kuin pilvi itsepalvelutoiminnoilla.
  • Dataanalyytikko, joka tarvitsee maksimaalisen valinnanvaraa uusimpien avoimen lähdekoodin AI/ML-työkalujen ja -alustojen joukosta.
  • Dataanalyytikko, joka tarvitsee pääsyn tietolähteisiin malleja harjoitellessaan.
  • Tietoanalyytikko, joka tarvitsee pääsyn laskentaresursseihin (CPU, GPU, muisti).
  • Dataanalyytikko, joka vaatii kykyä tehdä yhteistyötä ja jakaa töitä kollegoiden kanssa, saada palautetta ja tehdä parannuksia nopeaan iteraatioon.
  • Dataanalyytikko, joka haluaa olla vuorovaikutuksessa kehittäjien (ja kehittäjien kanssa), jotta hänen ML-mallinsa ja työtuloksensa siirtyvät tuotantoon.
  • Tietosuunnittelija, jonka on tarjottava tietoanalyytikolle pääsy useisiin tietolähteisiin noudattaen samalla sääntely- ja turvallisuusvaatimuksia.
  • IT-järjestelmänvalvoja/operaattori, joka vaatii kykyä hallita vaivattomasti avoimen lähdekoodin komponenttien ja teknologioiden elinkaarta (asennus, konfigurointi, päivitys). Tarvitsemme myös asianmukaiset hallinta- ja kiintiötyökalut.

Open Data Hub -projekti kokoaa yhteen joukon avoimen lähdekoodin työkaluja toteuttamaan täyden syklin AI/ML-toimintoja. Jupyter Notebookia käytetään tässä tiedonanalytiikan päätyökaluna. Työkalusarja on nykyään laajalti suosittu datatieteilijöiden keskuudessa, ja Open Data Hubin avulla he voivat helposti luoda ja hallita Jupyter Notebook -työtiloja sisäänrakennetun JupyterHubin avulla. Jupyter-muistikirjojen luomisen ja tuomisen lisäksi Open Data Hub -projekti sisältää myös joukon valmiita muistikirjoja tekoälykirjaston muodossa.

Tämä kirjasto on kokoelma avoimen lähdekoodin koneoppimiskomponentteja ja -ratkaisuja yleisiin skenaarioihin, jotka yksinkertaistavat nopeaa prototyyppien luomista. JupyterHub on integroitu OpenShiftin RBAC-käyttömalliin, jonka avulla voit käyttää olemassa olevia OpenShift-tilejä ja ottaa käyttöön kertakirjautumisen. Lisäksi JupyterHub tarjoaa käyttäjäystävällisen käyttöliittymän nimeltä spawner, jonka kautta käyttäjä voi helposti määrittää laskentaresurssien määrän (CPU-ytimet, muisti, GPU) valitulle Jupyter Notebookille.

Kun dataanalyytikko on luonut ja konfiguroinut kannettavan tietokoneen, kaikki muut siihen liittyvät huolenaiheet hoitaa Kubernetes-ajastin, joka on osa OpenShiftiä. Käyttäjät voivat vain suorittaa kokeitaan, tallentaa ja jakaa työnsä tuloksia. Lisäksi kokeneet käyttäjät voivat käyttää OpenShift CLI -kuorta suoraan Jupyter-muistikirjoista hyödyntääkseen Kubernetes-primitiivejä, kuten Job- tai OpenShift-toimintoja, kuten Tekton tai Knative. Tai tähän voit käyttää OpenShiftin kätevää käyttöliittymää, jota kutsutaan nimellä “OpenShift-verkkokonsoli”.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Siirryttäessä seuraavaan vaiheeseen, Open Data Hub mahdollistaa tietoputkien hallinnan. Tätä varten käytetään Ceph-objektia, joka toimitetaan S3-yhteensopivana objektitietovarastona. Apache Spark antaa sinun suoratoistaa tietoja ulkoisista lähteistä tai sisäänrakennetusta Ceph S3 -tallennustilasta, ja voit myös suorittaa alustavia datamuunnoksia. Apache Kafka tarjoaa edistyneen tietoputkien hallinnan (jossa tiedot voidaan ladata useita kertoja, sekä tiedon muunnos-, analysointi- ja pysyvyystoiminnot).

Joten data-analyytikko käytti tietoja ja rakensi mallin. Nyt hänellä on halu jakaa saadut tulokset työtovereiden tai sovelluskehittäjien kanssa ja tarjota heille mallinsa palvelun periaatteista. Tämä vaatii päättelypalvelimen, ja Open Data Hubilla on sellainen palvelin, jonka nimi on Seldon ja jonka avulla voit julkaista mallin RESTful-palveluna.

Seldon-palvelimella on jossain vaiheessa useita tällaisia ​​malleja, ja niiden käyttöä on seurattava. Tämän saavuttamiseksi Open Data Hub tarjoaa kokoelman relevantteja mittareita ja raportointimoottorin, joka perustuu laajalti käytettyihin avoimen lähdekoodin seurantatyökaluihin Prometheus ja Grafana. Tämän seurauksena saamme palautetta tekoälymallien käytön seuraamiseksi erityisesti tuotantoympäristössä.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Tällä tavalla Open Data Hub tarjoaa pilvimäisen lähestymistavan koko AI/ML-elinkaarin ajan datan käytöstä ja valmistelusta mallin koulutukseen ja tuotantoon.

Kokoaminen

Nyt herää kysymys, kuinka järjestää tämä kaikki OpenShift-järjestelmänvalvojalle. Ja tässä tulee peliin erityinen Kubernetes-operaattori Open Data Hub -projekteille.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Tämä operaattori hallitsee Open Data Hub -projektin asennuksen, konfiguroinnin ja elinkaaren, mukaan lukien edellä mainittujen työkalujen, kuten JupyterHubin, Cephin, Sparkin, Kafkan, Seldonin, Prometheuksen ja Grafanan, käyttöönoton. Open Data Hub -projekti löytyy OpenShift-verkkokonsolista, yhteisöoperaattorit-osiosta. Siten OpenShift-järjestelmänvalvoja voi määrittää, että vastaavat OpenShift-projektit luokitellaan "Open Data Hub -projektiksi". Tämä tehdään kerran. Tämän jälkeen dataanalyytikko kirjautuu projektitilaansa OpenShift-verkkokonsolin kautta ja näkee, että vastaava Kubernetes-operaattori on asennettu ja käytettävissä hänen projekteihinsä. Sitten hän luo Open Data Hub -projektiinstanssin yhdellä napsautuksella ja pääsee välittömästi käsiksi yllä kuvattuihin työkaluihin. Ja kaikki tämä voidaan konfiguroida korkean käytettävyyden ja vikasietoisuuden tilaan.

Open Data Hub -projekti on Red Hat OpenShiftiin perustuva avoin koneoppimisalusta

Jos haluat kokeilla Open Data Hub -projektia itse, aloita asennusohjeet ja johdanto-opas. Open Data Hub -arkkitehtuurin tekniset tiedot löytyvät täällä, projektin kehityssuunnitelmat – täällä. Jatkossa aiomme toteuttaa lisäintegraatiota Kubeflow:n kanssa, ratkaista useita tiedonsäätelyyn ja tietoturvaan liittyviä ongelmia sekä järjestää integraation sääntöpohjaisiin järjestelmiin Drools ja Optaplanner. Ilmaise mielipiteesi ja liity projektiin Avaa Data Hub mahdollista sivulla Yhteisö.

Yhteenveto: Vakavat skaalaushaasteet estävät organisaatioita hyödyntämästä tekoälyn ja koneoppimisen kaikkia mahdollisuuksia. Red Hat OpenShiftiä on pitkään käytetty menestyksekkäästi ratkaisemaan samanlaisia ​​ongelmia ohjelmistoteollisuudessa. Avoimen lähdekoodin kehitysyhteisössä toteutettu Open Data Hub -projekti tarjoaa referenssiarkkitehtuurin OpenShift-hybridipilveen perustuvan AI/ML-toimintojen täyden syklin järjestämiseen. Meillä on selkeä ja harkittu suunnitelma tämän projektin kehittämiseksi, ja pyrimme vakavasti luomaan sen ympärille aktiivisen ja hedelmällisen yhteisön kehittämään avoimia tekoälyratkaisuja OpenShift-alustalle.

Lähde: will.com

Lisää kommentti