Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Nākotne ir pienākusi, un mākslÄ«go intelektu un maŔīnmācÄ«Å”anās tehnoloÄ£ijas jau veiksmÄ«gi izmanto jÅ«su iecienÄ«tākie veikali, transporta uzņēmumi un pat tÄ«taru fermas.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Un ja kaut kas eksistē, tad internetā jau kaut kas par to ir... atklāts projekts! Skatiet, kā Open Data Hub palÄ«dz paplaÅ”ināt jaunas tehnoloÄ£ijas un izvairÄ«ties no ievieÅ”anas problēmām.

Ar visām mākslÄ«gā intelekta (AI) un maŔīnmācÄ«Å”anās (ML) priekÅ”rocÄ«bām organizācijām bieži ir grÅ«tÄ«bas pielāgot Ŕīs tehnoloÄ£ijas. Galvenās problēmas Å”ajā gadÄ«jumā parasti ir Ŕādas:

  • Informācijas apmaiņa un sadarbÄ«ba ā€“ ir gandrÄ«z neiespējami bez piepÅ«les apmainÄ«ties ar informāciju un sadarboties ātrās iterācijās.
  • Piekļuve datiem ā€“ katram uzdevumam tas ir jāveido no jauna un manuāli, kas aizņem daudz laika.
  • Piekļuve pēc pieprasÄ«juma ā€“ nav iespējams pēc pieprasÄ«juma iegÅ«t piekļuvi maŔīnmācÄ«bas rÄ«kiem un platformai, kā arÄ« skaitļoÅ”anas infrastruktÅ«rai.
  • RažoÅ”ana ā€“ modeļi paliek prototipa stadijā un netiek nodoti rÅ«pnieciskai lietoÅ”anai.
  • Izsekojiet un izskaidrojiet AI rezultātus ā€“ AI/ML rezultātu reproducējamÄ«ba, izsekoÅ”ana un izskaidroÅ”ana ir sarežģīta.

Ja Ŕīs problēmas netiek risinātas, tās negatÄ«vi ietekmē vērtÄ«go datu zinātnieku ātrumu, efektivitāti un produktivitāti. Tas noved pie viņu neapmierinātÄ«bas, vilÅ”anās darbā, un rezultātā biznesa cerÄ«bas attiecÄ«bā uz AI/ML tiek zaudētas.

AtbildÄ«ba par Å”o problēmu risināŔanu gulstas uz IT speciālistiem, kuriem ir jānodroÅ”ina datu analÄ«tiÄ·i ā€“ tieÅ”i tā, kaut kas lÄ«dzÄ«gs mākonim. SÄ«kāk, mums ir nepiecieÅ”ama platforma, kas nodroÅ”ina izvēles brÄ«vÄ«bu un kurai ir ērta, viegla piekļuve. Tajā paŔā laikā tas ir ātrs, viegli pārkonfigurējams, mērogojams pēc pieprasÄ«juma un izturÄ«gs pret kļūmēm. Šādas platformas izveide uz atvērtā pirmkoda tehnoloÄ£ijām palÄ«dz izvairÄ«ties no pārdevēja bloÄ·Ä“Å”anas un saglabāt ilgtermiņa stratēģiskās priekÅ”rocÄ«bas izmaksu kontroles ziņā.

Pirms dažiem gadiem kaut kas lÄ«dzÄ«gs notika lietojumprogrammu izstrādē un noveda pie mikropakalpojumu, hibrÄ«dmākoņu, IT automatizācijas un veiklu procesu raÅ”anās. Lai ar to visu tiktu galā, IT speciālisti ir pievērsuÅ”ies konteineriem, Kubernetes un atvērtajiem hibrÄ«dmākoņiem.

Šī pieredze tagad tiek izmantota, lai atbildētu uz Al izaicinājumiem. Tāpēc IT profesionāļi veido platformas, kas ir balstītas uz konteineriem, ļauj izveidot AI/ML pakalpojumus elastīgos procesos, paātrina inovācijas un ir veidotas, ņemot vērā hibrīdmākoni.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Mēs sāksim veidot Ŕādu platformu, izmantojot Red Hat OpenShift, mÅ«su konteinerizēto Kubernetes platformu hibrÄ«dam mākonim, kurā ir strauji augoÅ”a programmatÅ«ras un aparatÅ«ras ML risinājumu ekosistēma (NVIDIA, H2O.ai, Starburst, PerceptiLabs utt.). Daži Red Hat klienti, piemēram, BMW Group, ExxonMobil un citi, platformas un tās ekosistēmas augÅ”pusē jau ir izvietojuÅ”i konteinerizētas ML rÄ«ku ķēdes un DevOps procesus, lai ieviestu savu ML arhitektÅ«ru ražoÅ”anā un paātrinātu datu analÄ«tiÄ·u darbu.

Vēl viens iemesls, kāpēc mēs uzsākām Open Data Hub projektu, ir parādīt arhitektūras piemēru, kura pamatā ir vairāki atvērtā pirmkoda programmatūras projekti, un parādīt, kā ieviest visu uz OpenShift platformu balstīta ML risinājuma dzīves ciklu.

Open Data Hub projekts

Å is ir atvērtā koda projekts, kas tiek izstrādāts attiecÄ«gajā izstrādes kopienā un Ä«steno pilnu darbÄ«bu ciklu - no sākotnējo datu ielādes un pārveidoÅ”anas lÄ«dz modeļa Ä£enerÄ“Å”anai, apmācÄ«bai un uzturÄ“Å”anai -, risinot AI / ML problēmas, izmantojot konteinerus un Kubernetes uz OpenShift. platforma. Å o projektu var uzskatÄ«t par atsauces ievieÅ”anu, piemēru, kā izveidot atvērtu AI/ML-as-a-service risinājumu, kura pamatā ir OpenShift un saistÄ«tie atvērtā pirmkoda rÄ«ki, piemēram, Tensorflow, JupyterHub, Spark un citi. Ir svarÄ«gi atzÄ«mēt, ka pati Red Hat izmanto Å”o projektu, lai nodroÅ”inātu savus AI/ML pakalpojumus. Turklāt OpenShift integrējas ar galvenajiem programmatÅ«ras un aparatÅ«ras ML risinājumiem no NVIDIA, Seldon, Starbust un citiem piegādātājiem, atvieglojot savu maŔīnmācÄ«Å”anās sistēmu izveidi un darbināŔanu.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Open Data Hub projekts ir vērsts uz Ŕādām lietotāju kategorijām un lietoÅ”anas gadÄ«jumiem:

  • Datu analÄ«tiÄ·is, kuram nepiecieÅ”ams risinājums ML projektu Ä«stenoÅ”anai, organizēts kā mākonis ar paÅ”apkalpoÅ”anās funkcijām.
  • Datu analÄ«tiÄ·is, kuram nepiecieÅ”ama maksimāla izvēle no jaunākajiem atvērtā pirmkoda AI/ML rÄ«kiem un platformām.
  • Datu analÄ«tiÄ·is, kuram, apmācot modeļus, nepiecieÅ”ama piekļuve datu avotiem.
  • Datu analÄ«tiÄ·is, kuram nepiecieÅ”ama piekļuve skaitļoÅ”anas resursiem (CPU, GPU, atmiņa).
  • Datu analÄ«tiÄ·is, kuram nepiecieÅ”ama spēja sadarboties un dalÄ«ties darbā ar kolēģiem, saņemt atsauksmes un veikt uzlabojumus ātrā iterācijā.
  • Datu analÄ«tiÄ·is, kurÅ” vēlas sadarboties ar izstrādātājiem (un izstrādātāju komandām), lai viņa ML modeļi un darba rezultāti nonāktu ražoÅ”anā.
  • Datu inženieris, kuram jānodroÅ”ina datu analÄ«tiÄ·im piekļuve dažādiem datu avotiem, vienlaikus ievērojot normatÄ«vās un droŔības prasÄ«bas.
  • IT sistēmas administrators/operators, kuram nepiecieÅ”ama spēja bez piepÅ«les kontrolēt atvērtā pirmkoda komponentu un tehnoloÄ£iju dzÄ«ves ciklu (instalÄ“Å”ana, konfigurÄ“Å”ana, jaunināŔana). Mums ir vajadzÄ«gi arÄ« atbilstoÅ”i pārvaldÄ«bas un kvotu instrumenti.

Open Data Hub projekts apvieno atvērtā pirmkoda rÄ«ku klāstu, lai Ä«stenotu pilnu AI/ML darbÄ«bu ciklu. Jupyter Notebook Å”eit tiek izmantots kā galvenais datu analÄ«zes darba rÄ«ks. RÄ«ku komplekts mÅ«sdienās ir plaÅ”i populārs datu zinātnieku vidÅ«, un Open Data Hub ļauj viņiem viegli izveidot un pārvaldÄ«t Jupyter Notebook darbvietas, izmantojot iebÅ«vēto JupyterHub. Papildus Jupyter piezÄ«mju grāmatiņu izveidei un importÄ“Å”anai Open Data Hub projektā ir arÄ« vairākas gatavas piezÄ«mju grāmatiņas AI bibliotēkas veidā.

Å Ä« bibliotēka ir atvērtā koda maŔīnmācÄ«Å”anās komponentu un risinājumu kolekcija izplatÄ«tiem scenārijiem, kas vienkārÅ”o ātru prototipu izveidi. JupyterHub ir integrēts OpenShift RBAC piekļuves modelÄ«, kas ļauj izmantot esoÅ”os OpenShift kontus un ieviest vienreizējo pierakstÄ«Å”anos. Turklāt JupyterHub piedāvā lietotājam draudzÄ«gu lietotāja interfeisu, ko sauc par spawner, ar kura palÄ«dzÄ«bu lietotājs var viegli konfigurēt skaitļoÅ”anas resursu apjomu (CPU kodoli, atmiņa, GPU) atlasÄ«tajam Jupyter piezÄ«mjdatoram.

Pēc tam, kad datu analÄ«tiÄ·is ir izveidojis un konfigurējis klēpjdatoru, visas pārējās ar to saistÄ«tās problēmas risina Kubernetes plānotājs, kas ir daļa no OpenShift. Lietotāji var tikai veikt savus eksperimentus, saglabāt un kopÄ«got sava darba rezultātus. Turklāt pieredzējuÅ”i lietotāji var tieÅ”i piekļūt OpenShift CLI apvalkam tieÅ”i no Jupyter piezÄ«mjdatoriem, lai izmantotu Kubernetes primitÄ«vus, piemēram, Job vai OpenShift funkcionalitāti, piemēram, Tekton vai Knative. Vai arÄ« Å”im nolÅ«kam varat izmantot OpenShift ērto GUI, ko sauc par ā€œOpenShift tÄ«mekļa konsoliā€.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Pārejot uz nākamo posmu, Open Data Hub ļauj pārvaldÄ«t datu cauruļvadus. Å im nolÅ«kam tiek izmantots Ceph objekts, kas tiek nodroÅ”ināts kā ar S3 saderÄ«ga objekta datu krātuve. Apache Spark ļauj straumēt datus no ārējiem avotiem vai iebÅ«vētās Ceph S3 krātuves, kā arÄ« ļauj veikt provizoriskas datu transformācijas. Apache Kafka nodroÅ”ina uzlabotu datu cauruļvadu pārvaldÄ«bu (kur datus var ielādēt vairākas reizes, kā arÄ« datu pārveidoÅ”anas, analÄ«zes un noturÄ«bas darbÄ«bas).

Tātad datu analÄ«tiÄ·is piekļuva datiem un izveidoja modeli. Tagad viņam ir vēlme iegÅ«tajos rezultātos dalÄ«ties ar kolēģiem vai aplikāciju izstrādātājiem un sniegt viņiem savu modeli par pakalpojuma principiem. Tam nepiecieÅ”ams secinājumu serveris, un Open Data Hub ir Ŕāds serveris, to sauc par Seldon un ļauj publicēt modeli kā RESTful pakalpojumu.

Kādā brÄ«dÄ« Seldon serverÄ« ir vairāki Ŕādi modeļi, un ir jāuzrauga, kā tie tiek izmantoti. Lai to panāktu, Open Data Hub piedāvā atbilstoÅ”u metrikas kolekciju un atskaiÅ”u programmu, kuras pamatā ir plaÅ”i izmantoti atvērtā koda uzraudzÄ«bas rÄ«ki Prometheus un Grafana. Rezultātā mēs saņemam atsauksmes, lai uzraudzÄ«tu AI modeļu izmantoÅ”anu, jo Ä«paÅ”i ražoÅ”anas vidē.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Tādā veidā Open Data Hub nodroÅ”ina mākoņiem lÄ«dzÄ«gu pieeju visā AI/ML dzÄ«ves ciklā, sākot no datu piekļuves un sagatavoÅ”anas lÄ«dz modeļu apmācÄ«bai un ražoÅ”anai.

Viss kopā

Tagad rodas jautājums, kā to visu organizēt OpenShift administratoram. Un Å”eit tiek izmantots Ä«paÅ”s Kubernetes operators Open Data Hub projektiem.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Å is operators pārvalda Open Data Hub projekta instalÄ“Å”anu, konfigurÄ“Å”anu un dzÄ«ves ciklu, tostarp iepriekÅ” minēto rÄ«ku, piemēram, JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus un Grafana, izvietoÅ”anu. Open Data Hub projektu var atrast OpenShift tÄ«mekļa konsolē, kopienas operatoru sadaļā. Tādējādi OpenShift administrators var norādÄ«t, ka atbilstoÅ”ie OpenShift projekti tiek klasificēti kā "Open Data Hub projekts". Tas tiek darÄ«ts vienu reizi. Pēc tam datu analÄ«tiÄ·is piesakās savā projektu telpā, izmantojot OpenShift tÄ«mekļa konsoli, un redz, ka ir instalēts un pieejams viņa projektiem atbilstoÅ”ais Kubernetes operators. Pēc tam viņŔ ar vienu klikŔķi izveido Open Data Hub projekta instanci un nekavējoties var piekļūt iepriekÅ” aprakstÄ«tajiem rÄ«kiem. Un to visu var konfigurēt augstas pieejamÄ«bas un kļūdu tolerances režīmā.

Open Data Hub projekts ir atvērta maŔīnmācÄ«Å”anās platforma, kuras pamatā ir Red Hat OpenShift

Ja vēlaties pats izmēģināt Open Data Hub projektu, sāciet ar uzstādÄ«Å”anas instrukcijas un ievada apmācÄ«ba. Open Data Hub arhitektÅ«ras tehnisko informāciju var atrast Å”eit, projektu attÄ«stÄ«bas plāni ā€“ Å”eit. Nākotnē plānojam ieviest papildu integrāciju ar Kubeflow, atrisināt vairākas problēmas ar datu regulÄ“Å”anu un droŔību, kā arÄ« organizēt integrāciju ar uz noteikumiem balstÄ«tām sistēmām Drools un Optaplanner. Izsaki savu viedokli un kļūsti par projekta dalÄ«bnieku Atveriet datu centru iespējams lapā kopiena.

Rezumējot: Nopietnas mērogoÅ”anas problēmas neļauj organizācijām pilnÄ«bā izmantot mākslÄ«gā intelekta un maŔīnmācÄ«Å”anās potenciālu. Red Hat OpenShift jau sen ir veiksmÄ«gi izmantots lÄ«dzÄ«gu problēmu risināŔanai programmatÅ«ras industrijā. Open Data Hub projekts, kas Ä«stenots atvērtā pirmkoda izstrādes kopienā, piedāvā atsauces arhitektÅ«ru pilna AI/ML darbÄ«bu cikla organizÄ“Å”anai, pamatojoties uz OpenShift hibrÄ«da mākoni. Mums ir skaidrs un pārdomāts Ŕī projekta attÄ«stÄ«bas plāns, un mēs nopietni domājam par aktÄ«vas un auglÄ«gas kopienas izveidi ap to, lai izstrādātu atvērtus AI risinājumus OpenShift platformā.

Avots: www.habr.com

Pievieno komentāru