It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

De takomst is oankaam, en technologyen foar keunstmjittige yntelliginsje en masine learen wurde al mei súkses brûkt troch jo favorite winkels, ferfierbedriuwen en sels kalkoenbuorkerijen.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

En as der wat bestiet, dan stiet der al wat oer op ynternet... in iepen projekt! Sjoch hoe't Open Data Hub jo helpt om nije technologyen te skaaljen en ymplemintaasjeútdagings te foarkommen.

Mei alle foardielen fan keunstmjittige yntelliginsje (AI) en masine learen (ML), hawwe organisaasjes faaks muoite om dizze technologyen te skaaljen. De wichtichste problemen yn dit gefal binne meastentiids de folgjende:

  • Ynformaasje útwikseling en gearwurking - it is hast ûnmooglik om ynformaasje sûnder muoite út te wikseljen en gear te wurkjen yn rappe iteraasjes.
  • Gegevens tagong - foar elke taak moat it nij en mei de hân boud wurde, wat in protte tiid kostet.
  • Tagong op oanfraach - d'r is gjin manier om tagong op oanfraach te krijen ta ark en platfoarm foar masine learen, lykas ek komputerynfrastruktuer.
  • Produksje - modellen bliuwe yn it prototypestadium en wurde net foar yndustrieel gebrûk brocht.
  • Track en ferklearje AI-resultaten - reproducibility, tracking en útlis fan AI / ML resultaten binne lestich.

Unadressearre litte dizze problemen negatyf beynfloedzje de snelheid, effisjinsje en produktiviteit fan weardefolle gegevenswittenskippers. Dit liedt ta har frustraasje, teloarstelling yn har wurk, en as gefolch geane saaklike ferwachtings oangeande AI / ML te fergriemen.

Ferantwurdlikens foar it oplossen fan dizze problemen falt op IT-spesjalisten, dy't gegevensanalisten moatte leverje - dat is krekt, sa'n ding as de wolk. Yn mear detail hawwe wy in platfoarm nedich dat frijheid fan kar jout en handige, maklike tagong hat. Tagelyk is it fluch, maklik reconfigurable, scalable op fraach en resistint foar mislearrings. It bouwen fan sa'n platfoarm op iepen boarne-technologyen helpt te foarkommen dat ferkeaper lock-in is en in strategysk foardiel op lange termyn behâldt yn termen fan kostenkontrôle.

In pear jier lyn barde wat ferlykber yn applikaasjeûntwikkeling en late ta it ûntstean fan mikrotsjinsten, hybride wolken, IT-automatisearring en agile prosessen. Om dit alles te behanneljen, hawwe IT-professionals har wend oan konteners, Kubernetes en iepen hybride wolken.

Dizze ûnderfining wurdt no tapast om de útdagings fan Al te beantwurdzjen. Dêrom bouwe IT-professionals platfoarms dy't kontenerbasearre binne, it meitsjen fan AI / ML-tsjinsten ynskeakelje binnen agile prosessen, fersnelle ynnovaasje, en binne boud mei it each op 'e hybride wolk.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

Wy sille begjinne mei it bouwen fan sa'n platfoarm mei Red Hat OpenShift, ús containerized Kubernetes-platfoarm foar de hybride wolk, dy't in rap groeiende ekosysteem hat fan software en hardware ML-oplossingen (NVIDIA, H2O.ai, Starburst, PerceptiLabs, ensfh.). Guon fan Red Hat's klanten, lykas BMW Group, ExxonMobil en oaren, hawwe al kontenerisearre ML-arkketten en DevOps-prosessen ynset boppe op it platfoarm en har ekosysteem om har ML-arsjitektueren nei produksje te bringen en it wurk fan gegevensanalisten te fersnellen.

In oare reden dat wy it Open Data Hub-projekt lansearre hawwe is om in foarbyld te demonstrearjen fan in arsjitektuer basearre op ferskate iepen boarne softwareprojekten en sjen te litten hoe't jo de heule libbenssyklus fan in ML-oplossing kinne ymplementearje basearre op it OpenShift-platfoarm.

Iepenje Data Hub Project

Dit is in iepen boarne-projekt dat is ûntwikkele binnen de oerienkommende ûntwikkelingsmienskip en ymplemintearret in folsleine syklus fan operaasjes - fan it laden en transformearjen fan inisjele gegevens oant it generearjen, trainen en ûnderhâlden fan in model - by it oplossen fan AI / ML-problemen mei konteners en Kubernetes op 'e OpenShift perron. Dit projekt kin wurde beskôge as in referinsje-ymplemintaasje, in foarbyld fan hoe't jo in iepen AI / ML-as-a-service-oplossing bouwe kinne basearre op OpenShift en relatearre iepen boarne-ark lykas Tensorflow, JupyterHub, Spark en oaren. It is wichtich om te notearjen dat Red Hat sels dit projekt brûkt om har AI / ML-tsjinsten te leverjen. Derneist yntegreart OpenShift mei wichtige software en hardware ML-oplossingen fan NVIDIA, Seldon, Starbust en oare leveransiers, wêrtroch it makliker is om jo eigen masine-learsystemen te bouwen en út te fieren.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

It Open Data Hub-projekt is rjochte op de folgjende kategoryen fan brûkers en gebrûksgefallen:

  • Data analyst dy't in oplossing nedich hat foar it útfieren fan ML-projekten, organisearre as in wolk mei selsbestjoeringsfunksjes.
  • Data Analyst dy't maksimale kar nedich hat fan 'e lêste iepen boarne AI / ML-ark en platfoarms.
  • Gegevensanalyst dy't tagong nedich hat ta gegevensboarnen by training fan modellen.
  • Gegevensanalyst dy't tagong nedich hat ta kompjûterboarnen (CPU, GPU, ûnthâld).
  • Data Analyst dy't de mooglikheid fereasket om gear te wurkjen en wurk te dielen mei kollega's, feedback te ûntfangen en ferbetteringen te meitsjen yn rappe iteraasje.
  • In data-analist dy't mei ûntwikkelders ynteraksje wol (en teams devopst) sadat syn ML-modellen en wurkresultaten yn produksje gean.
  • Data-yngenieur dy't in gegevensanalytiker tagong moat jaan ta in ferskaat oan gegevensboarnen, wylst se foldogge oan regeljouwing en feiligenseasken.
  • IT-systeembehearder / -operator dy't de mooglikheid fereasket om de libbenssyklus (ynstallaasje, konfiguraasje, upgrade) fan iepen boarne-komponinten en technologyen sûnder muoite te kontrolearjen. Wy hawwe ek passende behear- en kwota-ark nedich.

It Open Data Hub-projekt bringt in oanbod fan iepen boarne-ark byinoar om in folsleine syklus fan AI / ML-operaasjes út te fieren. Jupyter Notebook wurdt hjir brûkt as it wichtichste wurkynstrumint foar gegevensanalytyk. De toolkit is hjoed wiid populêr ûnder gegevenswittenskippers, en Open Data Hub lit se maklik Jupyter Notebook-wurkromten meitsje en beheare mei de ynboude JupyterHub. Neist it oanmeitsjen en ymportearjen fan Jupyter-notebooks, befettet it Open Data Hub-projekt ek in oantal ready-made notebooks yn 'e foarm fan in AI-bibleteek.

Dizze bibleteek is in kolleksje fan komponinten foar iepen boarne masine-learen en oplossingen foar mienskiplike senario's dy't rappe prototyping ferienfâldigje. JupyterHub is yntegrearre mei OpenShift's RBAC-tagongsmodel, wêrtroch jo besteande OpenShift-akkounts kinne brûke en single sign-on implementearje. Dêrnjonken biedt JupyterHub in brûkerfreonlike brûkersynterface neamd spawner, wêrmei't de brûker it bedrach fan komputerboarnen (CPU-kearnen, ûnthâld, GPU) maklik ynstelle kin foar de selektearre Jupyter Notebook.

Nei't de gegevensanalist de laptop oanmakket en konfigurearret, wurde alle oare soargen deroer fersoarge troch de Kubernetes-planner, dy't diel útmakket fan OpenShift. Brûkers kinne allinich har eksperiminten útfiere, de resultaten fan har wurk opslaan en diele. Derneist kinne avansearre brûkers direkt tagong krije ta de OpenShift CLI-shell direkt fan Jupyter-notebooks om Kubernetes-primitiven te benutten lykas Job- of OpenShift-funksjonaliteit lykas Tekton of Knative. Of hjirfoar kinne jo de handige GUI fan OpenShift brûke, dy't de "OpenShift-webkonsole" hjit.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

Trochgean nei de folgjende poadium, Open Data Hub makket it mooglik om gegevenspipelines te behearjen. Dêrfoar wurdt in Ceph-objekt brûkt, dat wurdt foarsjoen as in S3-kompatibele objektgegevensopslach. Apache Spark leveret gegevensstreaming fan eksterne boarnen as ynboude Ceph S3-opslach, en lit jo ek foarriedige gegevenstransformaasjes útfiere. Apache Kafka leveret avansearre behear fan gegevenspipelines (wêr't gegevens meardere kearen kinne wurde laden, lykas gegevenstransformaasje, analyse en persistinsjeoperaasjes).

Dat, de gegevensanalist hat tagong ta de gegevens en boude in model. No hat hy in winsk om te dielen de resultaten krigen mei kollega's of applikaasje-ûntwikkelders, en foarsjen se mei syn model op de prinsipes fan in tsjinst. Dit fereasket in inference tsjinner, en Open Data Hub hat sa'n tsjinner, it hjit Seldon en kinne jo publisearje it model as in RESTful tsjinst.

Op in stuit binne d'r ferskate sokke modellen op 'e Seldon-tsjinner, en der is needsaak om te kontrolearjen hoe't se wurde brûkt. Om dit te berikken biedt Open Data Hub in samling relevante metriken en in rapportaazjemotor basearre op de breed brûkte iepen boarne-monitoring-ark Prometheus en Grafana. As gefolch krije wy feedback om it gebrûk fan AI-modellen te kontrolearjen, benammen yn in produksjeomjouwing.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

Op dizze manier biedt Open Data Hub in wolkachtige oanpak troch de heule AI / ML-libbenssyklus, fan gegevenstagong en tarieding oant modeltraining en produksje.

It alles opnimme

No komt de fraach hoe't jo dit alles organisearje foar de OpenShift-behearder. En dit is wêr't in spesjale Kubernetes-operator foar Open Data Hub-projekten yn spiel komt.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

Dizze operator beheart de ynstallaasje, konfiguraasje en libbenssyklus fan it Open Data Hub-projekt, ynklusyf de ynset fan de neamde ark lykas JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus en Grafana. It Open Data Hub-projekt is te finen yn 'e OpenShift-webkonsole, yn' e seksje fan mienskipsoperators. Sa kin de OpenShift-behearder oantsjutte dat de oerienkommende OpenShift-projekten wurde kategorisearre as "Open Data Hub-projekt". Dit wurdt ien kear dien. Hjirnei logt de gegevensanalist yn syn projektromte fia de OpenShift-webkonsole en sjocht dat de korrespondearjende Kubernetes-operator ynstalleare en beskikber is foar syn projekten. Hy makket dan in Open Data Hub-projekteksimplaar mei ien klik en hat fuortendaliks tagong ta de hjirboppe beskreaune ark. En dit alles kin wurde ynsteld yn hege beskikberens en fouttolerânsje modus.

It Open Data Hub-projekt is in iepen masine-learplatfoarm basearre op Red Hat OpenShift

As jo ​​​​it Open Data Hub-projekt foar josels wolle besykje, begjin dan mei ynstallaasje ynstruksjes en ynliedende tutorial. Technyske details fan 'e Open Data Hub-arsjitektuer kinne fûn wurde hjir, projektûntwikkelingsplannen - hjir. Yn 'e takomst planje wy ekstra yntegraasje mei Kubeflow út te fieren, in oantal problemen op te lossen mei gegevensregeling en feiligens, en organisearje ek yntegraasje mei regelbasearre systemen Drools en Optaplanner. Druk jo miening út en wurde dielnimmer oan it projekt Iepenje Data Hub mooglik op de side mienskip.

Om opnij te meitsjen: Serieuze útdagings foar skaalfergrutting foarkomme dat organisaasjes it folsleine potensjeel fan keunstmjittige yntelliginsje en masine learen realisearje. Red Hat OpenShift is al lang mei súkses brûkt om ferlykbere problemen yn 'e softwaresektor op te lossen. It Open Data Hub-projekt, ymplementearre binnen de iepen boarne-ûntwikkelingsmienskip, biedt in referinsjearsjitektuer foar it organisearjen fan in folsleine syklus fan AI / ML-operaasjes basearre op de OpenShift hybride wolk. Wy hawwe in dúdlik en trochtocht plan foar de ûntwikkeling fan dit projekt, en wy binne serieus oer it meitsjen fan in aktive en fruchtbere mienskip om it hinne foar it ûntwikkeljen fan iepen AI-oplossingen op it OpenShift-platfoarm.

Boarne: www.habr.com

Add a comment