Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

A jövő megérkezett, és a mesterséges intelligenciát és a gépi tanulási technológiákat már sikeresen alkalmazzák kedvenc üzletei, szállítócégei, sőt pulykatenyésztései is.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

És ha valami létezik, akkor már van róla valami az interneten... nyitott projekt! Tekintse meg, hogyan segít az Open Data Hub az új technológiák skálázésében és a megvalósítási kihívások elkerülésében.

A mesterséges intelligencia (AI) és a gépi tanulás (ML) minden előnye mellett a szervezeteknek gyakran nehézséget okoz ezeknek a technológiáknak a méretezése. A fő problémák ebben az esetben általában a következők:

  • Információcsere és együttműködés – szinte lehetetlen erőfeszítés nélkül információt cserélni és gyors iterációkban együttműködni.
  • Adat hozzáférés – minden feladathoz újra és manuálisan kell felépíteni, ami sok időt vesz igénybe.
  • Hozzáférés igény szerint – nincs mód arra, hogy igény szerint hozzáférjenek a gépi tanulási eszközökhöz és platformhoz, valamint a számítási infrastruktúrához.
  • Termelés – a modellek a prototípus stádiumában maradnak, és nem kerülnek ipari felhasználásra.
  • Kövesse nyomon és magyarázza el az AI-eredményeket – az AI/ML eredmények reprodukálhatósága, nyomon követése és magyarázata nehézkes.

Ha nem foglalkozunk velük, ezek a problémák negatívan befolyásolják az értékes adattudósok sebességét, hatékonyságát és termelékenységét. Ez frusztrációjukhoz, csalódottságukhoz vezet a munkájukban, és ennek eredményeként az AI/ML-rel kapcsolatos üzleti elvárások kárba vesznek.

E problémák megoldásának felelőssége az informatikai szakemberekre hárul, akiknek adatelemzőket kell biztosítaniuk – ez igaz, valami olyasmi, mint a felhő. Részletesebben, olyan platformra van szükségünk, amely választási szabadságot ad, és kényelmes, könnyen elérhető. Ugyanakkor gyors, könnyen átkonfigurálható, igény szerint skálázható és ellenáll a meghibásodásoknak. Egy ilyen platform nyílt forráskódú technológiákra építése segít elkerülni a szállítói bezárkózást, és megőrzi a hosszú távú stratégiai előnyt a költségszabályozás terén.

Néhány évvel ezelőtt valami hasonló történt az alkalmazásfejlesztésben, ami mikroszolgáltatások, hibrid felhők, IT-automatizálás és agilis folyamatok megjelenéséhez vezetett. Hogy mindezzel megbirkózzon, az informatikusok a konténerek, a Kubernetes és a nyílt hibrid felhők felé fordultak.

Ezt a tapasztalatot most Al kihívásainak megválaszolására alkalmazzák. Ezért az IT-szakemberek konténer-alapú platformokat építenek, amelyek lehetővé teszik AI/ML szolgáltatások létrehozását az agilis folyamatokon belül, felgyorsítják az innovációt, és a hibrid felhőre építenek.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Egy ilyen platform építését a Red Hat OpenShifttel, a hibrid felhő konténeres Kubernetes platformjával kezdjük meg, amely a szoftveres és hardveres ML megoldások (NVIDIA, H2O.ai, Starburst, PerceptiLabs stb.) gyorsan növekvő ökoszisztémájával rendelkezik. A Red Hat egyes ügyfelei, mint például a BMW Group, az ExxonMobil és mások, már konténeres ML-eszközláncokat és DevOps-folyamatokat telepítettek a platform és ökoszisztémája tetejére, hogy ML architektúrájukat termelésbe hozzák, és felgyorsítsák az adatelemzők munkáját.

Egy másik ok, amiért elindítottuk az Open Data Hub projektet, hogy egy példát mutassunk be egy több nyílt forráskódú szoftverprojekten alapuló architektúrára, és mutassuk meg, hogyan lehet megvalósítani az OpenShift platformon alapuló ML megoldás teljes életciklusát.

Nyissa meg a Data Hub projektet

Ez egy nyílt forráskódú projekt, amelyet a megfelelő fejlesztői közösségen belül fejlesztettek ki, és egy teljes műveleti ciklust valósít meg - a kezdeti adatok betöltésétől és átalakításától a modell generálásáig, betanításáig és karbantartásáig - amikor AI / ML problémákat old meg konténerek és Kubernetes használatával az OpenShiftben. felület. Ez a projekt referencia implementációnak tekinthető, egy példa arra, hogyan lehet nyílt AI/ML-as-a-service megoldást készíteni OpenShift és kapcsolódó nyílt forráskódú eszközök, például Tensorflow, JupyterHub, Spark és mások alapján. Fontos megjegyezni, hogy a Red Hat maga is ezt a projektet használja AI/ML szolgáltatásainak biztosítására. Ezenkívül az OpenShift integrálódik az NVIDIA, Seldon, Starbust és más gyártók kulcsfontosságú szoftver- és hardveres ML-megoldásaival, megkönnyítve saját gépi tanulási rendszereinek felépítését és futtatását.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Az Open Data Hub projekt a következő felhasználói kategóriákra és használati esetekre összpontosít:

  • Adatelemző, akinek megoldásra van szüksége az ML projektek megvalósításához, felhőszerűen szervezett önkiszolgáló funkciókkal.
  • Adatelemző, akinek maximális választásra van szüksége a legújabb nyílt forráskódú AI/ML eszközök és platformok közül.
  • Adatelemző, akinek hozzáférésre van szüksége az adatforrásokhoz a modellek betanítása során.
  • Adatelemző, akinek hozzá kell férnie a számítási erőforrásokhoz (CPU, GPU, memória).
  • Adatelemző, akinek szüksége van az együttműködésre és a munka megosztására a kollégákkal, a visszajelzések fogadására és a gyors iteráció javítására.
  • Adatelemző, aki kapcsolatba szeretne lépni fejlesztőkkel (és devops csapatokkal), hogy ML modelljei és munkaeredményei termelésbe kerüljenek.
  • Adatmérnök, akinek hozzáférést kell biztosítania egy adatelemző számára számos adatforráshoz, miközben megfelel a szabályozási és biztonsági követelményeknek.
  • Informatikai rendszeradminisztrátor/operátor, aki megköveteli a nyílt forráskódú komponensek és technológiák életciklusának (telepítés, konfigurálás, frissítés) könnyű irányításának képességét. Megfelelő irányítási és kvótaeszközökre is szükségünk van.

Az Open Data Hub projekt egy sor nyílt forráskódú eszközt egyesít az AI/ML műveletek teljes ciklusának megvalósításához. A Jupyter Notebook itt az adatelemzés fő munkaeszköze. Az eszköztár manapság széles körben népszerű az adatkutatók körében, és az Open Data Hub segítségével könnyedén hozhatnak létre és kezelhetnek Jupyter Notebook munkaterületeket a beépített JupyterHub segítségével. Az Open Data Hub projekt a Jupyter notebookok létrehozása és importálása mellett számos kész notebookot is tartalmaz AI Library formájában.

Ez a könyvtár nyílt forráskódú gépi tanulási összetevők és megoldások gyűjteménye a gyakori forgatókönyvekhez, amelyek leegyszerűsítik a gyors prototípuskészítést. A JupyterHub integrálva van az OpenShift RBAC hozzáférési modelljével, amely lehetővé teszi a meglévő OpenShift-fiókok használatát és az egyszeri bejelentkezés megvalósítását. A JupyterHub emellett egy felhasználóbarát spawner nevű felhasználói felületet is kínál, amelyen keresztül a felhasználó egyszerűen beállíthatja a kiválasztott Jupyter Notebook számítási erőforrásainak (CPU magok, memória, GPU) mennyiségét.

Miután az adatelemző létrehozta és konfigurálta a laptopot, a vele kapcsolatos minden egyéb aggályt a Kubernetes ütemező kezeli, amely az OpenShift része. A felhasználók csak kísérleteiket hajthatják végre, munkájuk eredményeit elmenthetik és megoszthatják. Ezenkívül a haladó felhasználók közvetlenül érhetik el az OpenShift CLI shellt közvetlenül a Jupyter notebookokról, hogy kihasználják a Kubernetes primitíveket, például a Job vagy az OpenShift funkciókat, mint például a Tekton vagy a Knative. Vagy ehhez használhatja az OpenShift kényelmes grafikus felhasználói felületét, amelyet „OpenShift webkonzolnak” neveznek.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

A következő szakaszba lépve az Open Data Hub lehetővé teszi az adatfolyamok kezelését. Ehhez egy Ceph objektumot használnak, amely S3-kompatibilis objektum adattárként szolgál. Az Apache Spark lehetővé teszi az adatok streamelését külső forrásokból vagy a beépített Ceph S3 tárolóból, és lehetővé teszi az előzetes adatátalakítások végrehajtását is. Az Apache Kafka fejlett adatfolyam-kezelést biztosít (ahol az adatok többször is betölthetők, valamint adatátalakítási, elemzési és perzisztencia műveletek).

Tehát az adatelemző hozzáfért az adatokhoz, és felépített egy modellt. Most az a vágy, hogy a kapott eredményeket megossza kollégáival vagy alkalmazásfejlesztőivel, és átadja nekik a modelljét egy szolgáltatás elvein. Ehhez szükség van egy következtetési kiszolgálóra, és az Open Data Hubnak van ilyen szervere, a neve Seldon, és lehetővé teszi a modell RESTful szolgáltatásként való közzétételét.

Valamikor több ilyen modell is található a Seldon szerveren, és figyelni kell a használatukat. Ennek elérése érdekében az Open Data Hub releváns mérőszámok gyűjteményét és egy jelentéskészítő motort kínál a széles körben használt nyílt forráskódú felügyeleti eszközökön, a Prometheuson és a Grafanán. Ennek eredményeként visszajelzéseket kapunk az AI-modellek használatának nyomon követéséhez, különösen éles környezetben.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Ily módon az Open Data Hub felhőszerű megközelítést biztosít az AI/ML teljes életciklusa során, az adatok elérésétől és előkészítésétől a modellképzésig és -gyártásig.

Összeszereljük

Felmerül a kérdés, hogyan lehet mindezt megszervezni az OpenShift rendszergazdának. És itt jön képbe egy speciális Kubernetes operátor az Open Data Hub projektekhez.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Ez az operátor kezeli az Open Data Hub projekt telepítését, konfigurálását és életciklusát, beleértve a fent említett eszközök, például a JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus és Grafana telepítését. Az Open Data Hub projekt az OpenShift webkonzolban, a közösségi operátorok részben található. Így az OpenShift adminisztrátor megadhatja, hogy a megfelelő OpenShift projektek „Open Data Hub projekt” kategóriába legyenek sorolva. Ez egyszer megtörténik. Ezt követően az adatelemző bejelentkezik a projektterületére az OpenShift webkonzolon keresztül, és látja, hogy a megfelelő Kubernetes-operátor telepítve van, és elérhető a projektjeihez. Ezután egyetlen kattintással létrehoz egy Open Data Hub projektpéldányt, és azonnal hozzáfér a fent leírt eszközökhöz. Mindez pedig magas rendelkezésre állási és hibatűrési módban konfigurálható.

Az Open Data Hub projekt egy Red Hat OpenShift alapú nyílt gépi tanulási platform

Ha saját maga szeretné kipróbálni az Open Data Hub projektet, kezdje ezzel telepítési útmutató és bevezető oktatóanyag. Az Open Data Hub architektúra műszaki részletei megtalálhatók itt, projektfejlesztési tervek – itt. A jövőben tervezzük a Kubeflow-val való további integráció megvalósítását, számos adatszabályozási és -biztonsági probléma megoldását, valamint a szabályokon alapuló Drools és Optaplanner rendszerekkel való integráció megszervezését. Mondja el véleményét, és legyen a projekt résztvevője Nyissa meg a Data Hubot oldalon lehetséges közösség.

Összefoglalva: A komoly méretezési kihívások akadályozzák a szervezeteket abban, hogy kiaknázzák a mesterséges intelligencia és a gépi tanulás teljes potenciálját. A Red Hat OpenShiftet régóta sikeresen használják hasonló problémák megoldására a szoftveriparban. A nyílt forráskódú fejlesztői közösségen belül megvalósított Open Data Hub projekt referenciaarchitektúrát kínál az AI/ML műveletek teljes ciklusának megszervezéséhez az OpenShift hibrid felhő alapján. Világos és átgondolt tervünk van ennek a projektnek a fejlesztésére, és komolyan gondoljuk, hogy aktív és gyümölcsöző közösséget hozzunk létre körülötte az OpenShift platformon történő nyílt mesterséges intelligencia megoldások fejlesztésére.

Forrás: will.com

Hozzászólás