La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

La estonteco alvenis, kaj artefarita inteligenteco kaj maŝinlernado teknologioj jam estas sukcese uzataj de viaj plej ŝatataj vendejoj, transportkompanioj kaj eĉ meleagraj bienoj.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Kaj se io ekzistas, tiam jam estas io pri tio en la Interreto... malfermita projekto! Vidu kiel Open Data Hub helpas vin grimpi novajn teknologiojn kaj eviti efektivigajn defiojn.

Kun ĉiuj avantaĝoj de artefarita inteligenteco (AI) kaj maŝinlernado (ML), organizoj ofte havas malfacilecon grimpi ĉi tiujn teknologiojn. La ĉefaj problemoj en ĉi tiu kazo estas kutime la sekvaj:

  • Informa interŝanĝo kaj kunlaboro – estas preskaŭ neeble interŝanĝi informojn senpene kaj kunlabori en rapidaj ripetoj.
  • Aliro al datumoj – por ĉiu tasko ĝi devas esti konstruita denove kaj permane, kio postulas multan tempon.
  • Aliro laŭ postulo - ne estas maniero akiri laŭpetan aliron al maŝinlernado iloj kaj platformo, same kiel komputika infrastrukturo.
  • Produktado - modeloj restas en la prototipa stadio kaj ne estas alportitaj al industria uzo.
  • Spuri kaj klarigu AI-rezultojn - reproduktebleco, spurado kaj klarigo de AI/ML-rezultoj estas malfacilaj.

Lasitaj netraktitaj, ĉi tiuj problemoj negative influas la rapidecon, efikecon kaj produktivecon de valoraj datumsciencistoj. Ĉi tio kondukas al ilia frustriĝo, seniluziiĝo en ilia laboro, kaj kiel rezulto, komercaj atendoj pri AI/ML malŝpariĝas.

Respondeco por solvi ĉi tiujn problemojn falas sur IT-specialistoj, kiuj devas provizi datumajn analizistojn - ĝuste, io kiel la nubo. Pli detale, ni bezonas platformon kiu donas liberecon de elekto kaj havas oportunan, facilan aliron. Samtempe, ĝi estas rapida, facile reagordebla, skalebla laŭ postulo kaj imuna al misfunkciadoj. Konstrui tian platformon sur malfermfontaj teknologioj helpas eviti vendiston-enŝlosadon kaj konservi longperspektivan strategian avantaĝon laŭ kostkontrolo.

Antaŭ kelkaj jaroj, io simila okazis en aplikaĵa disvolviĝo kaj kaŭzis la aperon de mikroservoj, hibridaj nuboj, IT-aŭtomatigo kaj lertaj procezoj. Por trakti ĉion ĉi, IT-profesiuloj turnis sin al ujoj, Kubernetes kaj malfermitaj hibridaj nuboj.

Ĉi tiu sperto nun estas aplikata por respondi la defiojn de Al. Tial IT-profesiuloj konstruas platformojn kiuj estas ujo-bazitaj, ebligas la kreadon de AI/ML-servoj ene de lertaj procezoj, akcelas novigon kaj estas konstruitaj kun okulo al la hibrida nubo.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Ni komencos konstrui tian platformon kun Red Hat OpenShift, nia kontenerigita Kubernetes-platformo por la hibrida nubo, kiu havas rapide kreskantan ekosistemon de programaro kaj aparataro ML-solvoj (NVIDIA, H2O.ai, Starburst, PerceptiLabs, ktp.). Iuj el la klientoj de Red Hat, kiel BMW Group, ExxonMobil kaj aliaj, jam deplojis konteneritajn ML-ilĉenojn kaj DevOps-procezojn sur la platformo kaj ĝia ekosistemo por alporti siajn ML-arkitekturojn al produktado kaj akceli la laboron de datumaj analizistoj.

Alia kialo, ke ni lanĉis la Open Data Hub-projekton, estas montri ekzemplon de arkitekturo bazita sur pluraj malfermfontaj programaj projektoj kaj montri kiel efektivigi la tutan vivociklon de ML-solvo bazita sur la platformo OpenShift.

Projekto pri Open Data Hub

Ĉi tio estas malfermfonta projekto, kiu estas disvolvita ene de la responda evolukomunumo kaj efektivigas plenan ciklon de operacioj - de ŝarĝo kaj transformado de komencaj datumoj ĝis generado, trejnado kaj konservado de modelo - kiam oni solvas AI / ML-problemojn uzante ujojn kaj Kubernetes sur la OpenShift. platformo. Ĉi tiu projekto povas esti konsiderata referenca efektivigo, ekzemplo de kiel konstrui malferman solvon de AI/ML-as-a-service bazita sur OpenShift kaj rilataj malfermfontaj iloj kiel Tensorflow, JupyterHub, Spark kaj aliaj. Gravas noti, ke Red Hat mem uzas ĉi tiun projekton por provizi siajn servojn AI/ML. Krome, OpenShift integriĝas kun ŝlosilaj programaroj kaj aparataj ML-solvoj de NVIDIA, Seldon, Starbust kaj aliaj vendistoj, faciligante konstrui kaj funkcii viajn proprajn maŝinlernajn sistemojn.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

La projekto Open Data Hub estas koncentrita sur la sekvaj kategorioj de uzantoj kaj uzkazoj:

  • Datuma analizisto, kiu bezonas solvon por efektivigi ML-projektojn, organizitajn kiel nubo kun memservaj funkcioj.
  • Datuma Analizisto, kiu bezonas maksimuman elekton de la plej novaj malfermfontaj AI/ML-iloj kaj platformoj.
  • Datuma analizisto, kiu bezonas aliron al datumfontoj dum trejnado de modeloj.
  • Analizisto de datumoj, kiu bezonas aliron al komputikaj rimedoj (CPU, GPU, memoro).
  • Datuma Analizisto, kiu postulas la kapablon kunlabori kaj kunhavigi laboron kun kolegoj, ricevi reagojn kaj fari plibonigojn en rapida ripeto.
  • Datuma analizisto, kiu volas interagi kun programistoj (kaj devops-teamoj) por ke liaj ML-modeloj kaj laborrezultoj eniru en produktadon.
  • Datuma inĝeniero, kiu devas provizi datuman analiziston per aliro al diversaj datumfontoj dum plenumado de reguligaj kaj sekurecaj postuloj.
  • IT-sistemadministranto/funkciigisto, kiu postulas la kapablon senpene kontroli la vivociklon (instalado, agordo, ĝisdatigo) de malfermfontaj komponantoj kaj teknologioj. Ni ankaŭ bezonas taŭgajn administrajn kaj kvotajn ilojn.

La projekto Open Data Hub kunigas gamon da malfermfontaj iloj por efektivigi plenan ciklon de AI/ML-operacioj. Jupyter Notebook estas uzata ĉi tie kiel la ĉefa laborilo por datuma analizo. La ilaro estas vaste populara inter datumsciencistoj hodiaŭ, kaj Open Data Hub permesas al ili facile krei kaj administri Jupyter Notebook laborspacojn uzante la enkonstruitan JupyterHub. Krom krei kaj importi Jupyter-kajeroj, la projekto Open Data Hub ankaŭ enhavas kelkajn pretajn notlibrojn en la formo de AI-Biblioteko.

Ĉi tiu biblioteko estas kolekto de malfermfontaj maŝinlernantaj komponentoj kaj solvoj por oftaj scenaroj, kiuj simpligas rapidan prototipadon. JupyterHub estas integrita kun la RBAC-alira modelo de OpenShift, kiu ebligas al vi uzi ekzistantajn OpenShift-kontojn kaj efektivigi ununuran ensaluti. Krome, JupyterHub ofertas uzant-amikan uzantinterfacon nomatan spawner, per kiu la uzanto povas facile agordi la kvanton da komputikaj rimedoj (CPU-kernoj, memoro, GPU) por la elektita Jupyter Notebook.

Post kiam la datuma analizisto kreas kaj agordas la tekkomputilon, ĉiuj aliaj zorgoj pri ĝi estas prizorgataj de la planilo de Kubernetes, kiu estas parto de OpenShift. Uzantoj povas nur efektivigi siajn eksperimentojn, konservi kaj dividi la rezultojn de sia laboro. Aldone, progresintaj uzantoj povas rekte aliri la OpenShift CLI-ŝelon rekte de Jupyter kajeroj por utiligi Kubernetes-primitivojn kiel Job aŭ OpenShift-funkciecon kiel Tekton aŭ Knative. Aŭ por tio vi povas uzi la oportunan GUI de OpenShift, kiu nomiĝas la "OpenShift retkonzolo".

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Pasante al la sekva etapo, Open Data Hub ebligas administri datumajn duktojn. Por tio, Ceph-objekto estas uzata, kiu estas provizita kiel S3-kongrua objekta datumstokado. Apache Spark provizas datumojn fluantajn de eksteraj fontoj aŭ enkonstruitan Ceph S3-stokadon, kaj ankaŭ ebligas al vi fari antaŭajn datumajn transformojn. Apache Kafka disponigas altnivelan administradon de datumduktoj (kie datumoj povas esti ŝarĝitaj plurfoje, same kiel datumtransformo, analizo, kaj persistaj operacioj).

Do, la datuma analizisto aliris la datumojn kaj konstruis modelon. Nun li deziras dividi la rezultojn akiritajn kun kolegoj aŭ programistoj de aplikaĵoj, kaj provizi al ili sian modelon laŭ la principoj de servo. Ĉi tio postulas inferencan servilon, kaj Open Data Hub havas tian servilon, ĝi nomiĝas Seldon kaj permesas vin publikigi la modelon kiel RESTful-servo.

En iu momento, ekzistas pluraj tiaj modeloj sur la Seldon-servilo, kaj necesas kontroli kiel ili estas uzataj. Por atingi tion, Open Data Hub ofertas kolekton de koncernaj metrikoj kaj raportmotoron bazitan sur la vaste uzataj malfermfontaj monitoraj iloj Prometheus kaj Grafana. Kiel rezulto, ni ricevas komentojn por kontroli la uzon de AI-modeloj, precipe en produktadmedio.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Tiamaniere, Open Data Hub disponigas nub-similan aliron tra la tuta vivociklo de AI/ML, de datuma aliro kaj preparo ĝis modela trejnado kaj produktado.

Kunmetante ĉion

Nun ŝprucas la demando kiel organizi ĉion ĉi por la administranto de OpenShift. Kaj ĉi tie eniras speciala operaciisto de Kubernetes por projektoj de Open Data Hub.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Ĉi tiu funkciigisto administras la instaladon, agordon kaj vivociklon de la projekto Open Data Hub, inkluzive de la disfaldiĝo de la menciitaj iloj kiel JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus kaj Grafana. La projekto Open Data Hub troveblas en la retkonzolo OpenShift, en la sekcio de komunumaj funkciigistoj. Tiel, la administranto de OpenShift povas specifi, ke la respondaj OpenShift-projektoj kategoriiĝas kiel "Projekto Open Data Hub". Ĉi tio estas farita unufoje. Post ĉi tio, la datuma analizisto ensalutas sian projektan spacon per la retkonzolo OpenShift kaj vidas, ke la responda Kubernetes-funkciigisto estas instalita kaj disponebla por siaj projektoj. Li tiam kreas projekton de Open Data Hub per unu klako kaj tuj havas aliron al la iloj priskribitaj supre. Kaj ĉio ĉi povas esti agordita en alta havebleco kaj faŭltoleremo reĝimo.

La projekto Open Data Hub estas malferma maŝinlernado platformo bazita sur Red Hat OpenShift

Se vi ŝatus provi la projekton Open Data Hub por vi mem, komencu instalinstrukciojn kaj enkondukan lernilon. Teknikaj detaloj de la Open Data Hub-arkitekturo troveblas tie, projektevoluoplanoj - tie. En la estonteco, ni planas efektivigi plian integriĝon kun Kubeflow, solvi kelkajn problemojn kun datuma reguligo kaj sekureco, kaj ankaŭ organizi integriĝon kun reguloj bazitaj en sistemoj Drools kaj Optaplanner. Esprimu vian opinion kaj fariĝu partoprenanto en la projekto Malferma Datuma Nabo ebla sur la paĝo komunumo.

Resume: Gravaj defioj pri skalo malhelpas organizojn realigi la plenan potencialon de artefarita inteligenteco kaj maŝinlernado. Red Hat OpenShift delonge estas sukcese uzata por solvi similajn problemojn en la programara industrio. La projekto Open Data Hub, efektivigita ene de la malfermfonta evolukomunumo, ofertas referencan arkitekturon por organizi plenan ciklon de AI/ML-operacioj bazitaj sur la hibrida nubo OpenShift. Ni havas klaran kaj pripenseman planon por la disvolviĝo de ĉi tiu projekto, kaj ni serioze volas krei aktivan kaj fruktodonan komunumon ĉirkaŭ ĝi por disvolvi malfermajn AI-solvojn sur la platformo OpenShift.

fonto: www.habr.com

Aldoni komenton