Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Die toekoms het aangebreek, en kunsmatige intelligensie en masjienleertegnologieë word reeds suksesvol deur jou gunsteling winkels, vervoermaatskappye en selfs kalkoenplase gebruik.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

En as iets bestaan, dan is daar reeds iets daaroor op die internet... 'n oop projek! Kyk hoe Open Data Hub jou help om nuwe tegnologieë te skaal en implementeringsuitdagings te vermy.

Met al die voordele van kunsmatige intelligensie (KI) en masjienleer (ML), sukkel organisasies dikwels om hierdie tegnologieë te skaal. Die hoofprobleme in hierdie geval is gewoonlik die volgende:

  • Inligtingsuitruiling en samewerking – dit is byna onmoontlik om inligting moeiteloos uit te ruil en in vinnige iterasies saam te werk.
  • Data toegang – vir elke taak moet dit nuut en met die hand gebou word, wat baie tyd verg.
  • Toegang op aanvraag – daar is geen manier om toegang op aanvraag tot masjienleergereedskap en -platform, sowel as rekenaarinfrastruktuur te kry nie.
  • Produksie – modelle bly in die prototipe stadium en word nie vir industriële gebruik gebring nie.
  • Volg en verduidelik KI-resultate – reproduceerbaarheid, opsporing en verduideliking van KI/ML-resultate is moeilik.

As dit nie aangespreek word nie, het hierdie probleme 'n negatiewe uitwerking op die spoed, doeltreffendheid en produktiwiteit van waardevolle datawetenskaplikes. Dit lei tot hul frustrasie, teleurstelling in hul werk, en gevolglik gaan sakeverwagtinge ten opsigte van KI/ML tot niet.

Verantwoordelikheid vir die oplossing van hierdie probleme val op IT-spesialiste, wat data-ontleders moet voorsien van - dit is reg, iets soos die wolk. In meer besonderhede het ons 'n platform nodig wat vryheid van keuse gee en gerieflike, maklike toegang het. Terselfdertyd is dit vinnig, maklik herkonfigureerbaar, skaalbaar op aanvraag en bestand teen mislukkings. Om so 'n platform op oopbrontegnologieë te bou, help om verskaffer-insluiting te vermy en 'n langtermyn strategiese voordeel in terme van kostebeheer te handhaaf.

'n Paar jaar gelede het iets soortgelyks in toepassingsontwikkeling gebeur en gelei tot die ontstaan ​​van mikrodienste, hibriede wolke, IT-outomatisering en ratse prosesse. Om dit alles te hanteer, het IT-professionals hulle tot houers, Kubernetes en oop hibriede wolke gewend.

Hierdie ervaring word nou aangewend om Al se uitdagings te beantwoord. Dit is hoekom IT-professionele platforms bou wat op houer gebaseer is, wat die skepping van KI/ML-dienste binne ratse prosesse moontlik maak, innovasie versnel en gebou is met die oog op die hibriede wolk.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Ons sal so 'n platform begin bou met Red Hat OpenShift, ons Kubernetes-platform vir die hibriede wolk, wat 'n vinnig groeiende ekosisteem van sagteware en hardeware ML-oplossings het (NVIDIA, H2O.ai, Starburst, PerceptiLabs, ens.). Sommige van Red Hat se klante, soos BMW Group, ExxonMobil en ander, het reeds ML-gereedskapskettings en DevOps-prosesse in 'n houer ontplooi bo-op die platform en sy ekosisteem om hul ML-argitekture na produksie te bring en die werk van data-ontleders te bespoedig.

Nog 'n rede waarom ons die Open Data Hub-projek van stapel gestuur het, is om 'n voorbeeld van 'n argitektuur te demonstreer wat gebaseer is op verskeie oopbronsagtewareprojekte en wys hoe om die hele lewensiklus van 'n ML-oplossing gebaseer op die OpenShift-platform te implementeer.

Maak Data Hub-projek oop

Dit is 'n oopbronprojek wat binne die ooreenstemmende ontwikkelingsgemeenskap ontwikkel word en 'n volledige siklus van bedrywighede implementeer - van die laai en transformasie van aanvanklike data tot die generering, opleiding en instandhouding van 'n model - wanneer AI / ML-probleme opgelos word deur gebruik te maak van houers en Kubernetes op die OpenShift platform. Hierdie projek kan as 'n verwysingsimplementering beskou word, 'n voorbeeld van hoe om 'n oop AI/ML-as-'n-diens-oplossing te bou gebaseer op OpenShift en verwante oopbronnutsgoed soos Tensorflow, JupyterHub, Spark en ander. Dit is belangrik om daarop te let dat Red Hat self hierdie projek gebruik om sy KI/ML-dienste te verskaf. Boonop integreer OpenShift met sleutelsagteware en hardeware ML-oplossings van NVIDIA, Seldon, Starbust en ander verskaffers, wat dit makliker maak om jou eie masjienleerstelsels te bou en te bestuur.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Die Open Data Hub-projek is gefokus op die volgende kategorieë gebruikers en gebruiksgevalle:

  • Data-ontleder wat 'n oplossing benodig vir die implementering van ML-projekte, georganiseer soos 'n wolk met selfdiensfunksies.
  • Data-ontleder wat maksimum keuse benodig van die nuutste oopbron AI/ML-gereedskap en -platforms.
  • Data-ontleder wat toegang tot databronne benodig wanneer modelle opgelei word.
  • Data-ontleder wat toegang tot rekenaarhulpbronne (CPU, GPU, geheue) benodig.
  • Data-ontleder wat die vermoë benodig om saam te werk en werk met kollegas te deel, terugvoer te ontvang en verbeterings in vinnige iterasie aan te bring.
  • 'n Data-ontleder wat interaksie met ontwikkelaars wil hê (en spanne ontplooi) sodat sy ML-modelle en werkresultate in produksie gaan.
  • Data-ingenieur wat aan 'n data-ontleder toegang tot 'n verskeidenheid databronne moet verskaf terwyl aan regulatoriese en sekuriteitsvereistes voldoen word.
  • IT-stelseladministrateur/operateur wat die vermoë vereis om die lewensiklus (installasie, konfigurasie, opgradering) van oopbronkomponente en -tegnologie moeiteloos te beheer. Ons benodig ook toepaslike bestuurs- en kwota-instrumente.

Die Open Data Hub-projek bring 'n reeks oopbronnutsgoed bymekaar om 'n volledige siklus van KI/ML-bedrywighede te implementeer. Jupyter Notebook word hier gebruik as die belangrikste werkinstrument vir data-analise. Die gereedskapstel is vandag wyd gewild onder datawetenskaplikes, en Open Data Hub stel hulle in staat om Jupyter Notebook-werkruimtes maklik te skep en te bestuur deur die ingeboude JupyterHub te gebruik. Benewens die skep en invoer van Jupyter-notaboeke, bevat die Open Data Hub-projek ook 'n aantal klaargemaakte notaboeke in die vorm van 'n KI-biblioteek.

Hierdie biblioteek is 'n versameling oopbron-masjienleerkomponente en oplossings vir algemene scenario's wat vinnige prototipering vereenvoudig. JupyterHub is geïntegreer met OpenShift se RBAC-toegangsmodel, wat jou toelaat om bestaande OpenShift-rekeninge te gebruik en enkelaanmelding te implementeer. Boonop bied JupyterHub 'n gebruikersvriendelike gebruikerskoppelvlak genaamd spawner, waardeur die gebruiker maklik die hoeveelheid rekenaarhulpbronne (CPU-kerns, geheue, GPU) vir die geselekteerde Jupyter Notebook kan instel.

Nadat die data-ontleder die skootrekenaar geskep en gekonfigureer het, word alle ander bekommernisse daaroor versorg deur die Kubernetes-skeduleerder, wat deel is van OpenShift. Gebruikers kan slegs hul eksperimente uitvoer, die resultate van hul werk stoor en deel. Boonop kan gevorderde gebruikers direk toegang tot die OpenShift CLI-dop direk vanaf Jupyter-notaboeke kry om Kubernetes-primitiewe soos Job- of OpenShift-funksionaliteit soos Tekton of Knative te benut. Of hiervoor kan jy OpenShift se gerieflike GUI gebruik, wat die “OpenShift-webkonsole” genoem word.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Gaan voort na die volgende fase, Open Data Hub maak dit moontlik om datapyplyne te bestuur. Hiervoor word 'n Ceph-objek gebruik, wat voorsien word as 'n S3-versoenbare objekdataberging. Apache Spark laat jou toe om data vanaf eksterne bronne of ingeboude Ceph S3-berging te stroom, en laat jou ook toe om voorlopige datatransformasies uit te voer. Apache Kafka bied gevorderde bestuur van datapyplyne (waar data verskeie kere gelaai kan word, sowel as datatransformasie, -analise en volhardingsoperasies).

Dus, die data-ontleder het toegang tot die data gekry en 'n model gebou. Nou het hy 'n begeerte om die resultate wat verkry is met kollegas of toepassingsontwikkelaars te deel, en hulle te voorsien van sy model oor die beginsels van 'n diens. Dit vereis 'n afleidingsbediener, en Open Data Hub het so 'n bediener, dit word Seldon genoem en laat jou toe om die model as 'n RESTvolle diens te publiseer.

Op 'n stadium is daar verskeie sulke modelle op die Seldon-bediener, en daar is 'n behoefte om te monitor hoe hulle gebruik word. Om dit te bereik, bied Open Data Hub 'n versameling relevante maatstawwe en 'n verslagdoening-enjin gebaseer op die wyd gebruikte oopbron-moniteringsinstrumente Prometheus en Grafana. Gevolglik ontvang ons terugvoer om die gebruik van KI-modelle te monitor, veral in 'n produksie-omgewing.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Op hierdie manier bied Open Data Hub 'n wolkagtige benadering deur die hele KI/ML-lewensiklus, van datatoegang en voorbereiding tot modelopleiding en -produksie.

Om dit alles saam te voeg

Nou ontstaan ​​die vraag hoe om dit alles vir die OpenShift-administrateur te organiseer. En dit is waar 'n spesiale Kubernetes-operateur vir Open Data Hub-projekte ter sprake kom.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

Hierdie operateur bestuur die installering, konfigurasie en lewensiklus van die Open Data Hub-projek, insluitend die ontplooiing van die voorgenoemde nutsmiddels soos JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus en Grafana. Die Open Data Hub-projek kan gevind word in die OpenShift-webkonsole, in die gemeenskapsoperateursafdeling. Die OpenShift-administrateur kan dus spesifiseer dat die ooreenstemmende OpenShift-projekte as "Open Data Hub-projek" gekategoriseer word. Dit word een keer gedoen. Hierna meld die data-ontleder by sy projekspasie aan deur die OpenShift-webkonsole en sien dat die ooreenstemmende Kubernetes-operateur geïnstalleer en beskikbaar is vir sy projekte. Hy skep dan 'n Open Data Hub-projekinstansie met een klik en het onmiddellik toegang tot die gereedskap wat hierbo beskryf word. En dit alles kan in hoë beskikbaarheid en fouttoleransie-modus gekonfigureer word.

Die Open Data Hub-projek is 'n oop masjienleerplatform gebaseer op Red Hat OpenShift

As jy die Open Data Hub-projek self wil probeer, begin met installasie-instruksies en inleidende handleiding. Tegniese besonderhede van die Open Data Hub-argitektuur kan gevind word hier, projekontwikkelingsplanne – hier. In die toekoms beplan ons om bykomende integrasie met Kubeflow te implementeer, 'n aantal probleme met dataregulering en sekuriteit op te los, en ook integrasie met reëls-gebaseerde stelsels Drools en Optaplanner te organiseer. Druk jou mening en word 'n deelnemer aan die projek Maak Data Hub oop moontlik op die bladsy gemeenskap.

Om saam te vat: Ernstige skaaluitdagings verhoed organisasies om die volle potensiaal van kunsmatige intelligensie en masjienleer te verwesenlik. Red Hat OpenShift is lank reeds suksesvol gebruik om soortgelyke probleme in die sagteware-industrie op te los. Die Open Data Hub-projek, geïmplementeer binne die oopbron-ontwikkelingsgemeenskap, bied 'n verwysingsargitektuur vir die organisering van 'n volledige siklus van AI/ML-bedrywighede gebaseer op die OpenShift-hibriedwolk. Ons het 'n duidelike en deurdagte plan vir die ontwikkeling van hierdie projek, en ons is ernstig daaroor om 'n aktiewe en vrugbare gemeenskap rondom dit te skep vir die ontwikkeling van oop KI-oplossings op die OpenShift-platform.

Bron: will.com

Voeg 'n opmerking