„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Ateitis atėjo, o dirbtinį intelektą ir mašininio mokymosi technologijas jau sėkmingai naudoja jūsų mėgstamos parduotuvės, transporto įmonės ir net kalakutų fermos.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

O jei kas nors egzistuoja, vadinasi, internete jau kažkas apie tai yra... atviras projektas! Sužinokite, kaip „Open Data Hub“ padeda išplėsti naujas technologijas ir išvengti diegimo iššūkių.

Turėdamos visus dirbtinio intelekto (AI) ir mašininio mokymosi (ML) pranašumus, organizacijoms dažnai sunku pritaikyti šias technologijas. Pagrindinės problemos šiuo atveju dažniausiai yra šios:

  • Keitimasis informacija ir bendradarbiavimas – beveik neįmanoma be pastangų keistis informacija ir bendradarbiauti atliekant greitas iteracijas.
  • Prieiga prie duomenų – kiekvienai užduočiai ją reikia kurti iš naujo ir rankiniu būdu, o tai užima daug laiko.
  • Prieiga pagal poreikį – nėra galimybės pagal pareikalavimą gauti mašininio mokymosi įrankių ir platformos, taip pat skaičiavimo infrastruktūros.
  • Gamyba – modeliai lieka prototipų stadijoje ir nenaudojami pramoniniam naudojimui.
  • Stebėkite ir paaiškinkite AI rezultatus – sunku atkurti, sekti ir paaiškinti AI/ML rezultatus.

Neišspręstos šios problemos neigiamai veikia vertingų duomenų mokslininkų greitį, efektyvumą ir produktyvumą. Tai sukelia jų nusivylimą, nusivylimą savo darbu ir dėl to verslo lūkesčiai dėl AI / ML nueina perniek.

Atsakomybė už šių problemų sprendimą tenka IT specialistams, kurie turi pateikti duomenų analitikams – tai tiesa, kažką panašaus į debesį. Išsamiau, mums reikia platformos, kuri suteikia pasirinkimo laisvę ir turi patogią, lengvą prieigą. Tuo pačiu metu jis yra greitas, lengvai perkonfigūruojamas, keičiamas pagal poreikį ir atsparus gedimams. Tokios platformos kūrimas naudojant atvirojo kodo technologijas padeda išvengti pardavėjų užsiblokavimo ir išlaikyti ilgalaikį strateginį pranašumą išlaidų kontrolės srityje.

Prieš keletą metų kažkas panašaus vyko kuriant programas ir paskatino mikropaslaugų, hibridinių debesų, IT automatizavimo ir judrių procesų atsiradimą. Norėdami susidoroti su visa tai, IT specialistai kreipėsi į konteinerius, Kubernetes ir atvirus hibridinius debesis.

Ši patirtis dabar taikoma sprendžiant Al iššūkius. Štai kodėl IT profesionalai kuria platformas, kurios yra pagrįstos konteineriais, leidžia kurti AI/ML paslaugas judriuose procesuose, spartina inovacijas ir yra kuriamos atsižvelgiant į hibridinį debesį.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Pradėsime kurti tokią platformą su Red Hat OpenShift – mūsų konteinerizuota Kubernetes platforma hibridiniam debesiui, kuri turi sparčiai augančią programinės ir techninės ML sprendimų ekosistemą (NVIDIA, H2O.ai, Starburst, PerceptiLabs ir kt.). Kai kurie „Red Hat“ klientai, tokie kaip BMW Group, ExxonMobil ir kiti, platformoje ir jos ekosistemoje jau įdiegė konteinerines ML įrankių grandines ir „DevOps“ procesus, kad savo ML architektūras pradėtų gaminti ir paspartintų duomenų analitikų darbą.

Kita priežastis, kodėl pradėjome Open Data Hub projektą – parodyti architektūros pavyzdį, pagrįstą keliais atvirojo kodo programinės įrangos projektais, ir parodyti, kaip įgyvendinti visą OpenShift platforma pagrįsto ML sprendimo gyvavimo ciklą.

Atidarykite duomenų centro projektą

Tai atvirojo kodo projektas, sukurtas atitinkamoje kūrimo bendruomenėje ir įgyvendinantis visą operacijų ciklą – nuo ​​pradinių duomenų įkėlimo ir transformavimo iki modelio generavimo, mokymo ir priežiūros – sprendžiant AI / ML problemas naudojant konteinerius ir „Kubernetes“ naudojant „OpenShift“ platforma. Šis projektas gali būti laikomas etaloniniu įgyvendinimu, pavyzdžiu, kaip sukurti atvirą AI/ML-as-a-service sprendimą, pagrįstą OpenShift ir susijusiais atvirojo kodo įrankiais, tokiais kaip Tensorflow, JupyterHub, Spark ir kt. Svarbu pažymėti, kad pati Red Hat naudoja šį projektą AI/ML paslaugoms teikti. Be to, „OpenShift“ integruojamas su pagrindiniais NVIDIA, Seldon, Starbust ir kitų tiekėjų programinės ir techninės įrangos ML sprendimais, todėl lengviau kurti ir valdyti savo mašininio mokymosi sistemas.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

„Open Data Hub“ projektas orientuotas į šias vartotojų kategorijas ir naudojimo atvejus:

  • Duomenų analitikas, kuriam reikia ML projektų įgyvendinimo sprendimo, organizuoto kaip debesis su savitarnos funkcijomis.
  • Duomenų analitikas, kuriam reikia didžiausio pasirinkimo iš naujausių atvirojo kodo AI/ML įrankių ir platformų.
  • Duomenų analitikas, kuriam reikia prieigos prie duomenų šaltinių treniruojant modelius.
  • Duomenų analitikas, kuriam reikia prieigos prie skaičiavimo išteklių (CPU, GPU, atminties).
  • Duomenų analitikas, kuriam reikia gebėjimo bendradarbiauti ir dalytis darbu su kolegomis, gauti atsiliepimų ir tobulinti greitą iteraciją.
  • Duomenų analitikas, norintis bendrauti su kūrėjais (ir kuriančių komandų), kad jo ML modeliai ir darbo rezultatai būtų pradėti gaminti.
  • Duomenų inžinierius, kuriam reikia suteikti duomenų analitikui prieigą prie įvairių duomenų šaltinių, laikantis teisės aktų ir saugumo reikalavimų.
  • IT sistemų administratorius/operatorius, kuriam reikalinga galimybė be vargo valdyti atvirojo kodo komponentų ir technologijų gyvavimo ciklą (diegti, konfigūruoti, atnaujinti). Mums taip pat reikia atitinkamų valdymo ir kvotų priemonių.

„Open Data Hub“ projektas sujungia daugybę atvirojo kodo įrankių, kad būtų galima įgyvendinti visą AI/ML operacijų ciklą. Jupyter Notebook čia naudojamas kaip pagrindinis duomenų analizės įrankis. Įrankių rinkinys šiandien yra labai populiarus tarp duomenų mokslininkų, o „Open Data Hub“ leidžia jiems lengvai kurti ir valdyti „Jupyter Notebook“ darbo sritis naudojant integruotą „JupyterHub“. Be „Jupyter“ bloknotų kūrimo ir importavimo, „Open Data Hub“ projekte taip pat yra daugybė paruoštų užrašų knygelių AI bibliotekos pavidalu.

Ši biblioteka yra atvirojo kodo mašininio mokymosi komponentų ir sprendimų, skirtų įprastiems scenarijams, rinkinys, kuris supaprastina greitą prototipų kūrimą. „JupyterHub“ yra integruotas su „OpenShift“ RBAC prieigos modeliu, kuris leidžia naudoti esamas „OpenShift“ paskyras ir įdiegti vienkartinį prisijungimą. Be to, JupyterHub siūlo patogią vartotojo sąsają, vadinamą spawner, per kurią vartotojas gali lengvai konfigūruoti pasirinkto Jupyter Notebook skaičiavimo resursų (procesoriaus branduolių, atminties, GPU) kiekį.

Duomenų analitikui sukūrus ir sukonfigūravus nešiojamąjį kompiuterį, visais kitais su juo susijusiais klausimais rūpinasi Kubernetes planavimo priemonė, kuri yra OpenShift dalis. Vartotojai gali tik atlikti savo eksperimentus, išsaugoti ir dalytis savo darbo rezultatais. Be to, pažengę vartotojai gali tiesiogiai pasiekti „OpenShift“ CLI apvalkalą tiesiai iš „Jupyter“ nešiojamųjų kompiuterių, kad panaudotų „Kubernetes“ primityvus, pvz., „Job“ arba „OpenShift“ funkcijas, pvz., „Tekton“ ar „Knative“. Arba tam galite naudoti patogią „OpenShift“ GUI, kuri vadinama „OpenShift žiniatinklio konsole“.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Pereinant į kitą etapą, „Open Data Hub“ leidžia valdyti duomenų srautus. Tam naudojamas Ceph objektas, kuris pateikiamas kaip su S3 suderinama objekto duomenų saugykla. „Apache Spark“ leidžia srautiniu būdu perduoti duomenis iš išorinių šaltinių arba integruotos „Ceph S3“ saugyklos, taip pat leidžia atlikti išankstines duomenų transformacijas. „Apache Kafka“ teikia pažangų duomenų srautų valdymą (kur duomenis galima įkelti kelis kartus, taip pat duomenų transformavimo, analizės ir išlikimo operacijas).

Taigi duomenų analitikas pasiekė duomenis ir sukūrė modelį. Dabar jis turi noro pasidalinti gautais rezultatais su kolegomis ar programų kūrėjais ir pateikti jiems savo modelį pagal paslaugos principus. Tam reikalingas išvadų serveris, o Open Data Hub turi tokį serverį, jis vadinamas Seldon ir leidžia paskelbti modelį kaip RESTful paslaugą.

Tam tikru momentu Seldon serveryje yra keli tokie modeliai, todėl reikia stebėti, kaip jie naudojami. Norėdami tai pasiekti, „Open Data Hub“ siūlo atitinkamų metrikų rinkinį ir ataskaitų teikimo variklį, pagrįstą plačiai naudojamais atvirojo kodo stebėjimo įrankiais „Prometheus“ ir „Grafana“. Todėl gauname grįžtamąjį ryšį, kad galėtume stebėti AI modelių naudojimą, ypač gamybinėje aplinkoje.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Tokiu būdu „Open Data Hub“ teikia į debesį panašų požiūrį per visą AI/ML gyvavimo ciklą – nuo ​​prieigos prie duomenų ir paruošimo iki modelio mokymo ir gamybos.

Visa tai kartu

Dabar kyla klausimas, kaip visa tai organizuoti „OpenShift“ administratoriui. Ir čia pradeda veikti specialus „Kubernetes“ operatorius, skirtas „Open Data Hub“ projektams.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Šis operatorius valdo „Open Data Hub“ projekto diegimą, konfigūravimą ir gyvavimo ciklą, įskaitant pirmiau minėtų įrankių, tokių kaip „JupyterHub“, „Ceph“, „Spark“, „Kafka“, „Seldon“, „Prometheus“ ir „Grafana“, diegimą. „Open Data Hub“ projektą galite rasti „OpenShift“ žiniatinklio konsolėje, bendruomenės operatorių skiltyje. Taigi „OpenShift“ administratorius gali nurodyti, kad atitinkami „OpenShift“ projektai būtų priskirti kategorijai „Open Data Hub projektas“. Tai daroma vieną kartą. Po to duomenų analitikas prisijungia prie savo projekto erdvės per „OpenShift“ žiniatinklio konsolę ir mato, kad atitinkamas „Kubernetes“ operatorius yra įdiegtas ir pasiekiamas jo projektams. Tada jis vienu spustelėjimu sukuria „Open Data Hub“ projekto egzempliorių ir iš karto turi prieigą prie anksčiau aprašytų įrankių. Ir visa tai galima konfigūruoti aukšto pasiekiamumo ir atsparumo gedimams režimu.

„Open Data Hub“ projektas yra atvira mašininio mokymosi platforma, pagrįsta „Red Hat OpenShift“.

Jei norite patys išbandyti Open Data Hub projektą, pradėkite nuo montavimo instrukcijos ir įvadinė pamoka. Galima rasti techninės informacijos apie Open Data Hub architektūrą čia, projekto plėtros planai – čia. Ateityje planuojame įdiegti papildomą integraciją su Kubeflow, išspręsti daugybę duomenų reguliavimo ir saugumo problemų, taip pat organizuoti integraciją su taisyklėmis pagrįstomis sistemomis Drools ir Optaplanner. Išreikškite savo nuomonę ir tapkite projekto dalyviu Atidarykite duomenų centrą galima puslapyje bendruomenė.

Apibendrinant: rimti mastelio keitimo iššūkiai trukdo organizacijoms išnaudoti visą dirbtinio intelekto ir mašininio mokymosi potencialą. Red Hat OpenShift jau seniai sėkmingai naudojamas sprendžiant panašias problemas programinės įrangos pramonėje. „Open Data Hub“ projektas, įgyvendintas atvirojo kodo kūrimo bendruomenėje, siūlo orientacinę architektūrą, skirtą organizuoti visą AI/ML operacijų ciklą, pagrįstą „OpenShift“ hibridiniu debesiu. Turime aiškų ir apgalvotą šio projekto plėtros planą ir rimtai siekiame sukurti aktyvią ir vaisingą bendruomenę, kuri sukurtų atvirus dirbtinio intelekto sprendimus „OpenShift“ platformoje.

Šaltinis: www.habr.com

Добавить комментарий