Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

E ardhmja ka ardhur dhe teknologjitë e inteligjencës artificiale dhe të mësimit të makinerive tashmë po përdoren me sukses nga dyqanet tuaja të preferuara, kompanitë e transportit dhe madje edhe fermat e gjelit të detit.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Dhe nëse diçka ekziston, atëherë tashmë ka diçka në lidhje me të në internet ... një projekt i hapur! Shihni se si Open Data Hub ju ndihmon të shkallëzoni teknologjitë e reja dhe të shmangni sfidat e zbatimit.

Me të gjitha avantazhet e inteligjencës artificiale (AI) dhe mësimit të makinerive (ML), organizatat shpesh kanë vështirësi në shkallëzimin e këtyre teknologjive. Problemet kryesore në këtë rast janë zakonisht si më poshtë:

  • Shkëmbimi dhe bashkëpunimi i informacionit – është pothuajse e pamundur të shkëmbesh informacion pa mundim dhe të bashkëpunosh në përsëritje të shpejta.
  • Qasja në të dhëna – për çdo detyrë duhet të ndërtohet sërish dhe me dorë, gjë që kërkon shumë kohë.
  • Qasje sipas kërkesës – nuk ka asnjë mënyrë për të marrë akses sipas kërkesës në mjetet dhe platformën e mësimit të makinerisë, si dhe në infrastrukturën kompjuterike.
  • Prodhimi – modelet mbeten në fazën e prototipit dhe nuk sillen në përdorim industrial.
  • Ndiqni dhe shpjegoni rezultatet e AI – Riprodhueshmëria, gjurmimi dhe shpjegimi i rezultateve të AI/ML janë të vështira.

Nëse nuk trajtohen, këto probleme ndikojnë negativisht në shpejtësinë, efikasitetin dhe produktivitetin e shkencëtarëve të vlefshëm të të dhënave. Kjo çon në zhgënjimin e tyre, zhgënjimin në punën e tyre dhe si rezultat, pritshmëritë e biznesit në lidhje me AI/ML shkojnë dëm.

Përgjegjësia për zgjidhjen e këtyre problemeve bie mbi specialistët e IT-së, të cilët duhet t'u ofrojnë analistëve të të dhënave - kjo është e drejtë, diçka si cloud. Më në detaje, ne kemi nevojë për një platformë që jep lirinë e zgjedhjes dhe ka akses të përshtatshëm e të lehtë. Në të njëjtën kohë, është i shpejtë, lehtësisht i rikonfigurueshëm, i shkallëzueshëm sipas kërkesës dhe rezistent ndaj dështimeve. Ndërtimi i një platforme të tillë në teknologjitë me burim të hapur ndihmon në shmangien e mbylljes së shitësve dhe ruajtjen e një avantazhi strategjik afatgjatë në drejtim të kontrollit të kostos.

Disa vite më parë, diçka e ngjashme po ndodhte në zhvillimin e aplikacioneve dhe çoi në shfaqjen e mikroshërbimeve, reve hibride, automatizimit të TI-së dhe proceseve të shkathëta. Për të përballuar gjithë këtë, profesionistët e IT-së i janë drejtuar kontejnerëve, Kubernetes dhe reve hibride të hapura.

Kjo përvojë tani po zbatohet për t'iu përgjigjur sfidave të Al. Kjo është arsyeja pse profesionistët e IT-së po ndërtojnë platforma që bazohen në kontejnerë, mundësojnë krijimin e shërbimeve AI/ML brenda proceseve të shkathëta, përshpejtojnë inovacionin dhe ndërtohen me një sy drejt resë hibride.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Ne do të fillojmë ndërtimin e një platforme të tillë me Red Hat OpenShift, platformën tonë të kontejneruar Kubernetes për renë hibride, e cila ka një ekosistem në rritje të shpejtë të zgjidhjeve ML të softuerit dhe harduerit (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etj.). Disa nga klientët e Red Hat, si BMW Group, ExxonMobil dhe të tjerë, kanë vendosur tashmë zinxhirë mjetesh ML të kontejneruar dhe procese DevOps në krye të platformës dhe ekosistemit të saj për të sjellë arkitekturat e tyre ML në prodhim dhe për të përshpejtuar punën e analistëve të të dhënave.

Një arsye tjetër që kemi nisur projektin Open Data Hub është të demonstrojmë një shembull të një arkitekture të bazuar në disa projekte softuerësh me burim të hapur dhe të tregojmë se si të zbatojmë të gjithë ciklin jetësor të një zgjidhjeje ML bazuar në platformën OpenShift.

Open Data Hub Project

Ky është një projekt me burim të hapur që zhvillohet brenda komunitetit përkatës të zhvillimit dhe zbaton një cikël të plotë operacionesh - nga ngarkimi dhe transformimi i të dhënave fillestare deri te gjenerimi, trajnimi dhe mirëmbajtja e një modeli - kur zgjidhni problemet e AI / ML duke përdorur kontejnerë dhe Kubernetes në OpenShift platformë. Ky projekt mund të konsiderohet si një zbatim referencë, një shembull se si të ndërtohet një zgjidhje e hapur AI/ML-si-një shërbim bazuar në OpenShift dhe mjetet përkatëse me burim të hapur si Tensorflow, JupyterHub, Spark dhe të tjerë. Është e rëndësishme të theksohet se vetë Red Hat e përdor këtë projekt për të ofruar shërbimet e saj AI/ML. Përveç kësaj, OpenShift integrohet me zgjidhjet kryesore ML të softuerit dhe harduerit nga NVIDIA, Seldon, Starbust dhe shitës të tjerë, duke e bërë më të lehtë ndërtimin dhe ekzekutimin e sistemeve tuaja të mësimit të makinerive.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Projekti Open Data Hub është fokusuar në kategoritë e mëposhtme të përdoruesve dhe rastet e përdorimit:

  • Analist i të dhënave që ka nevojë për një zgjidhje për zbatimin e projekteve ML, të organizuar si një re me funksione vetë-shërbimi.
  • Analist i të dhënave që ka nevojë për zgjedhje maksimale nga mjetet dhe platformat më të fundit me burim të hapur AI/ML.
  • Analist i të dhënave i cili ka nevojë për qasje në burimet e të dhënave gjatë trajnimit të modeleve.
  • Analist i të dhënave që ka nevojë për qasje në burimet kompjuterike (CPU, GPU, memorie).
  • Analist i të dhënave që kërkon aftësinë për të bashkëpunuar dhe ndarë punën me kolegët, për të marrë reagime dhe për të bërë përmirësime në përsëritjen e shpejtë.
  • Një analist i të dhënave që dëshiron të ndërveprojë me zhvilluesit (dhe zhvillon ekipet) në mënyrë që modelet e tij të ML dhe rezultatet e punës të shkojnë në prodhim.
  • Inxhinier i të dhënave i cili duhet t'i sigurojë një analisti të dhënash qasje në një shumëllojshmëri burimesh të dhënash duke respektuar kërkesat rregullatore dhe të sigurisë.
  • Administrator/operator i sistemit të TI-së i cili kërkon aftësinë për të kontrolluar pa mundim ciklin e jetës (instalimi, konfigurimi, përmirësimi) i komponentëve dhe teknologjive me burim të hapur. Ne kemi nevojë gjithashtu për mjetet e duhura të menaxhimit dhe kuotave.

Projekti Open Data Hub bashkon një sërë mjetesh me burim të hapur për të zbatuar një cikël të plotë të operacioneve AI/ML. Jupyter Notebook përdoret këtu si mjeti kryesor i punës për analitikën e të dhënave. Paketa e veglave është gjerësisht e popullarizuar në mesin e shkencëtarëve të të dhënave sot, dhe Open Data Hub u lejon atyre të krijojnë dhe menaxhojnë me lehtësi hapësirat e punës të Jupyter Notebook duke përdorur JupyterHub-in e integruar. Përveç krijimit dhe importimit të fletoreve Jupyter, projekti Open Data Hub përmban gjithashtu një numër fletoresh të gatshme në formën e një Biblioteke AI.

Kjo bibliotekë është një koleksion i komponentëve dhe zgjidhjeve të mësimit të makinerive me burim të hapur për skenarë të zakonshëm që thjeshtojnë prototipin e shpejtë. JupyterHub është i integruar me modelin e aksesit RBAC të OpenShift, i cili ju lejon të përdorni llogaritë ekzistuese OpenShift dhe të zbatoni një hyrje të vetme. Për më tepër, JupyterHub ofron një ndërfaqe përdoruesi miqësore të quajtur spawner, përmes së cilës përdoruesi mund të konfigurojë lehtësisht sasinë e burimeve kompjuterike (bërthama CPU, memorie, GPU) për Notebook-in e zgjedhur Jupyter.

Pasi analisti i të dhënave krijon dhe konfiguron laptopin, të gjitha shqetësimet e tjera në lidhje me të kujdesen nga programuesi Kubernetes, i cili është pjesë e OpenShift. Përdoruesit mund të kryejnë vetëm eksperimentet e tyre, të ruajnë dhe të ndajnë rezultatet e punës së tyre. Për më tepër, përdoruesit e avancuar mund të hyjnë drejtpërdrejt në guaskën OpenShift CLI direkt nga fletoret e Jupyter për të shfrytëzuar primitivet e Kubernetes si funksionet Job ose OpenShift si Tekton ose Knative. Ose për këtë mund të përdorni GUI-në e përshtatshme të OpenShift, e cila quhet "OpenShift web console".

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Duke kaluar në fazën tjetër, Open Data Hub bën të mundur menaxhimin e tubacioneve të të dhënave. Për këtë, përdoret një objekt Ceph, i cili ofrohet si një ruajtje e të dhënave të objektit të pajtueshëm me S3. Apache Spark ju lejon të transmetoni të dhëna nga burime të jashtme ose ruajtja e integruar e Ceph S3, dhe gjithashtu ju lejon të kryeni transformime paraprake të të dhënave. Apache Kafka ofron një menaxhim të avancuar të tubacioneve të të dhënave (ku të dhënat mund të ngarkohen disa herë, si dhe operacione të transformimit, analizës dhe qëndrueshmërisë së të dhënave).

Pra, analisti i të dhënave iu qaset të dhënave dhe ndërtoi një model. Tani ai ka një dëshirë të ndajë rezultatet e marra me kolegët ose zhvilluesit e aplikacioneve dhe t'u sigurojë atyre modelin e tij mbi parimet e një shërbimi. Kjo kërkon një server konkluzion, dhe Open Data Hub ka një server të tillë, ai quhet Seldon dhe ju lejon të publikoni modelin si një shërbim RESTful.

Në një moment, ka disa modele të tilla në serverin Seldon, dhe ekziston nevoja për të monitoruar se si ato përdoren. Për të arritur këtë, Open Data Hub ofron një koleksion metrikash përkatëse dhe një motor raportimi të bazuar në mjetet e monitorimit me burim të hapur Prometheus dhe Grafana të përdorur gjerësisht. Si rezultat, ne marrim reagime për të monitoruar përdorimin e modeleve të AI, veçanërisht në një mjedis prodhimi.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Në këtë mënyrë, Open Data Hub ofron një qasje të ngjashme me cloud gjatë gjithë ciklit jetësor të AI/ML, nga qasja dhe përgatitja e të dhënave deri te trajnimi dhe prodhimi i modeleve.

Duke i bashkuar të gjitha

Tani lind pyetja se si të organizohen të gjitha këto për administratorin OpenShift. Dhe këtu hyn në lojë një operator i veçantë Kubernetes për projektet Open Data Hub.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Ky operator menaxhon instalimin, konfigurimin dhe ciklin e jetës së projektit Open Data Hub, duke përfshirë vendosjen e mjeteve të lartpërmendura si JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus dhe Grafana. Projekti Open Data Hub mund të gjendet në tastierën e internetit OpenShift, në seksionin e operatorëve të komunitetit. Kështu, administratori OpenShift mund të specifikojë që projektet përkatëse OpenShift të kategorizohen si "projekt OpenShift Hub". Kjo bëhet një herë. Pas kësaj, analisti i të dhënave regjistrohet në hapësirën e projektit të tij përmes tastierës së internetit OpenShift dhe sheh që operatori përkatës Kubernetes është i instaluar dhe i disponueshëm për projektet e tij. Ai më pas krijon një shembull të projektit Open Data Hub me një klikim dhe menjëherë ka akses në mjetet e përshkruara më sipër. Dhe e gjithë kjo mund të konfigurohet në modalitetin e disponueshmërisë së lartë dhe të tolerancës së gabimeve.

Projekti Open Data Hub është një platformë e hapur e mësimit të makinerive e bazuar në Red Hat OpenShift

Nëse dëshironi të provoni vetë projektin Open Data Hub, filloni me udhëzimet e instalimit dhe tutorial hyrës. Mund të gjenden detaje teknike të arkitekturës Open Data Hub këtu, planet e zhvillimit të projektit – këtu. Në të ardhmen, ne planifikojmë të zbatojmë integrim shtesë me Kubeflow, të zgjidhim një sërë çështjesh me rregullimin dhe sigurinë e të dhënave, si dhe të organizojmë integrimin me sistemet e bazuara në rregulla Drools dhe Optaplanner. Shprehni mendimin tuaj dhe bëhuni pjesëmarrës në projekt Hapni qendrën e të dhënave e mundur në faqe komunitetit.

Për të përmbledhur: Sfidat serioze të shkallëzimit po i pengojnë organizatat të realizojnë potencialin e plotë të inteligjencës artificiale dhe mësimit të makinerive. Red Hat OpenShift është përdorur prej kohësh me sukses për të zgjidhur probleme të ngjashme në industrinë e softuerit. Projekti Open Data Hub, i zbatuar brenda komunitetit të zhvillimit me burim të hapur, ofron një arkitekturë referimi për organizimin e një cikli të plotë të operacioneve AI/ML bazuar në renë hibride OpenShift. Ne kemi një plan të qartë dhe të menduar për zhvillimin e këtij projekti dhe jemi seriozë për krijimin e një komuniteti aktiv dhe të frytshëm rreth tij për zhvillimin e zgjidhjeve të hapura të AI në platformën OpenShift.

Burimi: www.habr.com

Shto një koment