Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Budúcnosť prišla a technológie umelej inteligencie a strojového učenia už úspešne využívajú vaše obľúbené obchody, dopravné spoločnosti a dokonca aj morčacie farmy.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

A ak niečo existuje, tak už je o tom niečo na internete... otvorený projekt! Pozrite sa, ako vám Open Data Hub pomáha škálovať nové technológie a vyhnúť sa problémom s implementáciou.

So všetkými výhodami umelej inteligencie (AI) a strojového učenia (ML) majú organizácie často problémy so škálovaním týchto technológií. Hlavné problémy v tomto prípade sú zvyčajne nasledovné:

  • Výmena informácií a spolupráca – je takmer nemožné vymieňať si informácie bez námahy a spolupracovať v rýchlych iteráciách.
  • Prístup k údajom – pre každú úlohu ho treba postaviť nanovo a ručne, čo zaberie veľa času.
  • Prístup na požiadanie – neexistuje spôsob, ako získať na požiadanie prístup k nástrojom a platforme strojového učenia, ako aj k počítačovej infraštruktúre.
  • Výroba – modely zostávajú vo fáze prototypu a nie sú určené na priemyselné využitie.
  • Sledujte a vysvetľujte výsledky AI – reprodukovateľnosť, sledovanie a vysvetlenie výsledkov AI/ML sú náročné.

Ak sa tieto problémy neriešia, negatívne ovplyvňujú rýchlosť, efektivitu a produktivitu vedcov s cennými údajmi. To vedie k ich frustrácii, sklamaniu z ich práce a výsledkom je, že obchodné očakávania týkajúce sa AI/ML idú nazmar.

Zodpovednosť za riešenie týchto problémov padá na IT špecialistov, ktorí musia dátovým analytikom poskytnúť – teda niečo ako cloud. Podrobnejšie, potrebujeme platformu, ktorá dáva slobodu výberu a má pohodlný a jednoduchý prístup. Zároveň je rýchly, ľahko rekonfigurovateľný, škálovateľný na požiadanie a odolný voči poruchám. Vybudovanie takejto platformy na technológiách s otvoreným zdrojovým kódom pomáha vyhnúť sa zablokovaniu dodávateľov a udržať si dlhodobú strategickú výhodu z hľadiska kontroly nákladov.

Pred pár rokmi sa niečo podobné dialo vo vývoji aplikácií a viedlo to k vzniku mikroslužieb, hybridných cloudov, automatizácie IT a agilných procesov. Aby to všetko zvládli, IT profesionáli sa obrátili na kontajnery, Kubernetes a otvorené hybridné cloudy.

Táto skúsenosť sa teraz používa pri riešení Alových výziev. To je dôvod, prečo IT profesionáli budujú platformy, ktoré sú založené na kontajneroch, umožňujú vytváranie služieb AI/ML v rámci agilných procesov, urýchľujú inovácie a sú postavené s ohľadom na hybridný cloud.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Takúto platformu začneme budovať s Red Hat OpenShift, našou kontajnerovou platformou Kubernetes pre hybridný cloud, ktorá má rýchlo rastúci ekosystém softvérových a hardvérových riešení ML (NVIDIA, H2O.ai, Starburst, PerceptiLabs atď.). Niektorí zákazníci spoločnosti Red Hat, ako napríklad BMW Group, ExxonMobil a ďalší, už nasadili kontajnerové reťazce nástrojov ML a procesy DevOps na platforme a jej ekosystéme, aby priniesli svoje architektúry ML do produkcie a urýchlili prácu dátových analytikov.

Ďalším dôvodom, prečo sme spustili projekt Open Data Hub, je demonštrovať príklad architektúry založenej na niekoľkých open source softvérových projektoch a ukázať, ako implementovať celý životný cyklus ML riešenia založeného na platforme OpenShift.

Otvorte projekt Data Hub Project

Ide o open source projekt, ktorý je vyvinutý v rámci príslušnej vývojárskej komunity a implementuje celý cyklus operácií – od načítania a transformácie počiatočných údajov až po generovanie, školenie a údržbu modelu – pri riešení problémov AI / ML pomocou kontajnerov a Kubernetes na OpenShift. plošina. Tento projekt možno považovať za referenčnú implementáciu, príklad toho, ako vybudovať otvorené riešenie AI/ML-as-a-service založené na OpenShift a súvisiacich open source nástrojoch ako Tensorflow, JupyterHub, Spark a ďalšie. Je dôležité poznamenať, že samotný Red Hat používa tento projekt na poskytovanie svojich služieb AI/ML. Okrem toho sa OpenShift integruje s kľúčovými softvérovými a hardvérovými riešeniami ML od NVIDIA, Seldon, Starbust a ďalších dodávateľov, čo uľahčuje vytváranie a prevádzkovanie vašich vlastných systémov strojového učenia.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Projekt Open Data Hub je zameraný na nasledujúce kategórie používateľov a prípady použitia:

  • Dátový analytik, ktorý potrebuje riešenie na implementáciu projektov ML organizovaných ako cloud so samoobslužnými funkciami.
  • Dátový analytik, ktorý potrebuje maximálny výber z najnovších open source nástrojov a platforiem AI/ML.
  • Dátový analytik, ktorý potrebuje prístup k zdrojom údajov pri trénovaní modelov.
  • Dátový analytik, ktorý potrebuje prístup k výpočtovým zdrojom (CPU, GPU, pamäť).
  • Dátový analytik, ktorý vyžaduje schopnosť spolupracovať a zdieľať prácu s kolegami, prijímať spätnú väzbu a robiť zlepšenia v rýchlej iterácii.
  • Dátový analytik, ktorý chce komunikovať s vývojármi (a rozvíjať tímy), aby sa jeho modely ML a pracovné výsledky dostali do produkcie.
  • Dátový inžinier, ktorý potrebuje poskytnúť dátovému analytikovi prístup k rôznym zdrojom dát pri dodržaní regulačných a bezpečnostných požiadaviek.
  • Správca/operátor IT systému, ktorý vyžaduje schopnosť bez námahy kontrolovať životný cyklus (inštalácia, konfigurácia, upgrade) komponentov a technológií s otvoreným zdrojovým kódom. Potrebujeme aj vhodné nástroje riadenia a kvót.

Projekt Open Data Hub spája celý rad open source nástrojov na implementáciu celého cyklu operácií AI/ML. Jupyter Notebook sa tu používa ako hlavný pracovný nástroj na analýzu údajov. Súprava nástrojov je dnes medzi vedcami údajov veľmi populárna a Open Data Hub im umožňuje jednoducho vytvárať a spravovať pracovné priestory Jupyter Notebook pomocou vstavaného JupyterHub. Projekt Open Data Hub okrem vytvárania a importu notebookov Jupyter obsahuje aj množstvo hotových notebookov vo forme AI Library.

Táto knižnica je kolekciou open source komponentov strojového učenia a riešení pre bežné scenáre, ktoré zjednodušujú rýchle prototypovanie. JupyterHub je integrovaný s modelom prístupu RBAC OpenShift, ktorý vám umožňuje používať existujúce účty OpenShift a implementovať jednotné prihlásenie. JupyterHub navyše ponúka užívateľsky prívetivé používateľské rozhranie s názvom spawner, prostredníctvom ktorého si používateľ môže jednoducho nakonfigurovať množstvo výpočtových zdrojov (jadrá CPU, pamäť, GPU) pre vybraný notebook Jupyter.

Po vytvorení a konfigurácii prenosného počítača dátovým analytikom sa o všetky ostatné starosti s ním postará plánovač Kubernetes, ktorý je súčasťou OpenShift. Používatelia môžu iba vykonávať svoje experimenty, ukladať a zdieľať výsledky svojej práce. Okrem toho môžu pokročilí používatelia priamo pristupovať k shellu OpenShift CLI priamo z notebookov Jupyter, aby mohli využívať primitívy Kubernetes, ako sú funkcie Job alebo OpenShift, ako sú Tekton alebo Knative. Alebo na to môžete použiť pohodlné grafické rozhranie OpenShift, ktoré sa nazýva „webová konzola OpenShift“.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Po prechode do ďalšej fázy Open Data Hub umožňuje spravovať dátové kanály. Na to sa používa objekt Ceph, ktorý je poskytovaný ako úložisko dát objektov kompatibilné s S3. Apache Spark vám umožňuje streamovať údaje z externých zdrojov alebo vstavaného úložiska Ceph S3 a tiež vám umožňuje vykonávať predbežné transformácie údajov. Apache Kafka poskytuje pokročilú správu dátových kanálov (kde je možné dáta načítať viackrát, ako aj operácie transformácie dát, analýzy a perzistencie).

Takže analytik údajov pristúpil k údajom a vytvoril model. Teraz má chuť podeliť sa o získané výsledky s kolegami alebo vývojármi aplikácií a poskytnúť im svoj model na princípoch služby. Vyžaduje si to inferenčný server a Open Data Hub má takýto server, nazýva sa Seldon a umožňuje vám publikovať model ako službu RESTful.

V určitom okamihu je na serveri Seldon niekoľko takýchto modelov a je potrebné sledovať, ako sa používajú. Na dosiahnutie tohto cieľa ponúka Open Data Hub kolekciu relevantných metrík a reportovací nástroj založený na široko používaných open source monitorovacích nástrojoch Prometheus a Grafana. Výsledkom je, že dostávame spätnú väzbu na monitorovanie používania modelov AI, najmä v produkčnom prostredí.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Týmto spôsobom Open Data Hub poskytuje cloudový prístup počas celého životného cyklu AI/ML, od prístupu k údajom a prípravy až po školenie a výrobu modelov.

Všetko to spolu

Teraz vyvstáva otázka, ako to všetko zorganizovať pre správcu OpenShift. A tu prichádza na rad špeciálny operátor Kubernetes pre projekty Open Data Hub.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Tento operátor spravuje inštaláciu, konfiguráciu a životný cyklus projektu Open Data Hub, vrátane nasadenia spomínaných nástrojov ako JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus a Grafana. Projekt Open Data Hub nájdete vo webovej konzole OpenShift v sekcii komunitných operátorov. Správca OpenShift teda môže určiť, že príslušné projekty OpenShift sú kategorizované ako „Projekt Open Data Hub“. Toto sa robí raz. Potom sa dátový analytik prihlási do svojho projektového priestoru cez webovú konzolu OpenShift a vidí, že príslušný operátor Kubernetes je nainštalovaný a dostupný pre jeho projekty. Potom jediným kliknutím vytvorí inštanciu projektu Open Data Hub a okamžite má prístup k nástrojom popísaným vyššie. A to všetko je možné nakonfigurovať v režime vysokej dostupnosti a odolnosti voči poruchám.

Projekt Open Data Hub je otvorená platforma strojového učenia založená na Red Hat OpenShift

Ak by ste si chceli projekt Open Data Hub vyskúšať na vlastnej koži, začnite návod na inštaláciu a úvodný tutoriál. Technické detaily architektúry Open Data Hub nájdete tu, plány rozvoja projektov – tu. V budúcnosti plánujeme implementovať ďalšiu integráciu s Kubeflow, vyriešiť množstvo problémov s reguláciou a bezpečnosťou dát a tiež zorganizovať integráciu so systémami založenými na pravidlách Drools a Optaplanner. Vyjadrite svoj názor a staňte sa účastníkom projektu Otvorte Data Hub možné na stránke komunity.

Zhrnutie: Vážne problémy so škálovaním bránia organizáciám využiť plný potenciál umelej inteligencie a strojového učenia. Red Hat OpenShift sa už dlho úspešne používa na riešenie podobných problémov v softvérovom priemysle. Projekt Open Data Hub, implementovaný v rámci open source vývojárskej komunity, ponúka referenčnú architektúru na organizovanie celého cyklu operácií AI/ML založených na hybridnom cloude OpenShift. Máme jasný a premyslený plán rozvoja tohto projektu a vážne to myslíme s vytvorením aktívnej a plodnej komunity okolo neho na vývoj otvorených riešení AI na platforme OpenShift.

Zdroj: hab.com

Pridať komentár