Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Viitorul a sosit, iar inteligența artificială și tehnologiile de învățare automată sunt deja folosite cu succes de magazinele tale preferate, companiile de transport și chiar de fermele de curcani.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Și dacă ceva există, atunci există deja ceva despre el pe Internet... un proiect deschis! Vedeți cum Open Data Hub vă ajută să scalați noile tehnologii și să evitați provocările de implementare.

Cu toate avantajele inteligenței artificiale (AI) și învățării automate (ML), organizațiile întâmpină adesea dificultăți în scalarea acestor tehnologii. Principalele probleme în acest caz sunt de obicei următoarele:

  • Schimb de informații și cooperare – este aproape imposibil să faci schimb de informații fără efort și să colaborezi în iterații rapide.
  • Acces la date – pentru fiecare sarcină trebuie construit din nou și manual, ceea ce necesită mult timp.
  • Acces la cerere – nu există nicio modalitate de a obține acces la cerere la instrumentele și platforma de învățare automată, precum și la infrastructura de calcul.
  • Producție – modelele rămân în stadiul de prototip și nu sunt aduse în uz industrial.
  • Urmăriți și explicați rezultatele AI – reproductibilitatea, urmărirea și explicarea rezultatelor AI/ML sunt dificile.

Lăsate neabordate, aceste probleme au un impact negativ asupra vitezei, eficienței și productivității oamenilor de știință de date valoroși. Acest lucru duce la frustrarea lor, dezamăgirea în munca lor și, ca urmare, așteptările de afaceri cu privire la AI/ML se irosesc.

Responsabilitatea pentru rezolvarea acestor probleme revine specialiştilor IT, care trebuie să ofere analiştilor de date - ce-i drept, ceva de genul cloud-ului. Mai detaliat, avem nevoie de o platformă care să ofere libertate de alegere și să aibă acces convenabil și ușor. În același timp, este rapid, ușor de reconfigurat, scalabil la cerere și rezistent la defecțiuni. Construirea unei astfel de platforme pe tehnologii open source ajută la evitarea blocării furnizorilor și la menținerea unui avantaj strategic pe termen lung în ceea ce privește controlul costurilor.

În urmă cu câțiva ani, ceva similar se întâmpla în dezvoltarea aplicațiilor și a dus la apariția microserviciilor, a norilor hibride, a automatizării IT și a proceselor agile. Pentru a face față la toate acestea, profesioniștii IT au apelat la containere, Kubernetes și cloud hibrid deschis.

Această experiență este acum aplicată pentru a răspunde provocărilor lui Al. De aceea, profesioniștii IT construiesc platforme care se bazează pe containere, permit crearea de servicii AI/ML în cadrul proceselor agile, accelerează inovația și sunt construite cu un ochi către cloudul hibrid.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Vom începe să construim o astfel de platformă cu Red Hat OpenShift, platforma noastră containerizată Kubernetes pentru cloud hibrid, care are un ecosistem în creștere rapidă de soluții ML software și hardware (NVIDIA, H2O.ai, Starburst, PerceptiLabs etc.). Unii dintre clienții Red Hat, cum ar fi BMW Group, ExxonMobil și alții, au implementat deja lanțuri de instrumente ML containerizate și procese DevOps deasupra platformei și ecosistemului acesteia pentru a-și aduce arhitecturile ML în producție și pentru a accelera munca analiștilor de date.

Un alt motiv pentru care am lansat proiectul Open Data Hub este să demonstrăm un exemplu de arhitectură bazată pe mai multe proiecte software open source și să arătăm cum să implementăm întregul ciclu de viață al unei soluții ML bazate pe platforma OpenShift.

Proiectul Open Data Hub

Acesta este un proiect open source care este dezvoltat în cadrul comunității de dezvoltare corespunzătoare și implementează un ciclu complet de operațiuni - de la încărcarea și transformarea datelor inițiale până la generarea, antrenamentul și menținerea unui model - atunci când rezolvăm problemele AI/ML folosind containere și Kubernetes pe OpenShift. platformă. Acest proiect poate fi considerat o implementare de referință, un exemplu despre cum să construiți o soluție deschisă AI/ML-as-a-service bazată pe OpenShift și instrumente open source aferente, cum ar fi Tensorflow, JupyterHub, Spark și altele. Este important de reținut că Red Hat însuși folosește acest proiect pentru a-și furniza serviciile AI/ML. În plus, OpenShift se integrează cu soluții cheie software și hardware ML de la NVIDIA, Seldon, Starbust și alți furnizori, facilitând construirea și rularea propriilor sisteme de învățare automată.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Proiectul Open Data Hub se concentrează pe următoarele categorii de utilizatori și cazuri de utilizare:

  • Analist de date care are nevoie de o soluție pentru implementarea proiectelor ML, organizată ca un cloud cu funcții de autoservire.
  • Analist de date care are nevoie de alegere maximă dintre cele mai recente instrumente și platforme open source AI/ML.
  • Analist de date care are nevoie de acces la sursele de date atunci când antrenează modele.
  • Analist de date care are nevoie de acces la resurse de calcul (CPU, GPU, memorie).
  • Analist de date care are nevoie de capacitatea de a colabora și de a partaja munca cu colegii, de a primi feedback și de a face îmbunătățiri într-o iterație rapidă.
  • Un analist de date care dorește să interacționeze cu dezvoltatorii (și echipele de devops) astfel încât modelele sale ML și rezultatele muncii să intre în producție.
  • Inginer de date care trebuie să ofere unui analist de date acces la o varietate de surse de date, respectând în același timp cerințele de reglementare și de securitate.
  • Administrator/operator de sisteme IT care necesită capacitatea de a gestiona fără efort ciclul de viață (instalare, configurare, upgrade) al componentelor și tehnologiilor open source. De asemenea, avem nevoie de instrumente adecvate de management și cote.

Proiectul Open Data Hub reunește o serie de instrumente open source pentru a implementa un ciclu complet de operațiuni AI/ML. Jupyter Notebook este folosit aici ca principal instrument de lucru pentru analiza datelor. Setul de instrumente este foarte popular printre oamenii de știință de date, iar Open Data Hub le permite să creeze și să gestioneze cu ușurință spații de lucru Jupyter Notebook folosind JupyterHub încorporat. Pe lângă crearea și importul de notebook-uri Jupyter, proiectul Open Data Hub conține și o serie de notebook-uri gata făcute sub forma unei biblioteci AI.

Această bibliotecă este o colecție de componente și soluții de învățare automată open-source pentru scenarii comune care simplifică prototiparea rapidă. JupyterHub este integrat cu modelul de acces RBAC al OpenShift, care vă permite să utilizați conturile OpenShift existente și să implementați conectarea unică. În plus, JupyterHub oferă o interfață de utilizator ușor de utilizat numită spawner, prin care utilizatorul poate configura cu ușurință cantitatea de resurse de calcul (nuclee CPU, memorie, GPU) pentru Notebook-ul Jupyter selectat.

După ce analistul de date creează și configurează laptopul, toate celelalte preocupări legate de acesta sunt rezolvate de planificatorul Kubernetes, care face parte din OpenShift. Utilizatorii pot doar să-și desfășoare experimentele, să salveze și să partajeze rezultatele muncii lor. În plus, utilizatorii avansați pot accesa direct shell-ul OpenShift CLI direct de pe notebook-urile Jupyter pentru a folosi primitivele Kubernetes, cum ar fi funcționalitatea Job sau OpenShift, cum ar fi Tekton sau Knative. Sau pentru aceasta puteți utiliza interfața grafică convenabilă a OpenShift, care se numește „consola web OpenShift”.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Trecând la următoarea etapă, Open Data Hub face posibilă gestionarea conductelor de date. Pentru aceasta, se folosește un obiect Ceph, care este furnizat ca stocare de date obiect compatibil S3. Apache Spark vă permite să transmiteți date din surse externe sau din stocarea Ceph S3 încorporată și, de asemenea, vă permite să efectuați transformări preliminare ale datelor. Apache Kafka oferă management avansat al conductelor de date (unde datele pot fi încărcate de mai multe ori, precum și operațiuni de transformare, analiză și persistență a datelor).

Deci, analistul de date a accesat datele și a construit un model. Acum are dorința de a împărtăși rezultatele obținute cu colegii sau dezvoltatorii de aplicații și să le ofere modelul său pe principiile unui serviciu. Acest lucru necesită un server de inferență, iar Open Data Hub are un astfel de server, se numește Seldon și vă permite să publicați modelul ca un serviciu RESTful.

La un moment dat, există mai multe astfel de modele pe serverul Seldon și este necesar să se monitorizeze modul în care sunt utilizate. Pentru a realiza acest lucru, Open Data Hub oferă o colecție de valori relevante și un motor de raportare bazat pe instrumentele de monitorizare open source utilizate pe scară largă Prometheus și Grafana. Drept urmare, primim feedback pentru a monitoriza utilizarea modelelor AI, în special într-un mediu de producție.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

În acest fel, Open Data Hub oferă o abordare asemănătoare cloud-ului de-a lungul întregului ciclu de viață AI/ML, de la accesul la date și pregătirea până la formarea și producția de modele.

Punând totul împreună

Acum apare întrebarea cum să organizăm toate acestea pentru administratorul OpenShift. Și aici intervine un operator special Kubernetes pentru proiecte Open Data Hub.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Acest operator gestionează instalarea, configurarea și ciclul de viață al proiectului Open Data Hub, inclusiv implementarea instrumentelor menționate mai sus precum JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus și Grafana. Proiectul Open Data Hub poate fi găsit în consola web OpenShift, în secțiunea operatori comunitari. Astfel, administratorul OpenShift poate specifica că proiectele OpenShift corespunzătoare sunt clasificate ca „proiect Open Data Hub”. Acest lucru se face o dată. După aceasta, analistul de date se conectează în spațiul său de proiect prin consola web OpenShift și vede că operatorul Kubernetes corespunzător este instalat și disponibil pentru proiectele sale. Apoi creează o instanță de proiect Open Data Hub cu un singur clic și are imediat acces la instrumentele descrise mai sus. Și toate acestea pot fi configurate în mod de înaltă disponibilitate și toleranță la erori.

Proiectul Open Data Hub este o platformă deschisă de învățare automată bazată pe Red Hat OpenShift

Dacă doriți să încercați proiectul Open Data Hub pentru dvs., începeți cu instrucțiuni de instalare și tutorial introductiv. Detaliile tehnice ale arhitecturii Open Data Hub pot fi găsite aici, planuri de dezvoltare a proiectelor – aici. În viitor, intenționăm să implementăm o integrare suplimentară cu Kubeflow, să rezolvăm o serie de probleme legate de reglementarea și securitatea datelor și, de asemenea, să organizăm integrarea cu sistemele bazate pe reguli Drools și Optaplanner. Exprimă-ți părerea și devii participant la proiect Open Data Hub posibil pe pagină comunitate.

Recapitulând: provocări serioase de scalare împiedică organizațiile să realizeze întregul potențial al inteligenței artificiale și al învățării automate. Red Hat OpenShift a fost folosit de mult timp cu succes pentru a rezolva probleme similare din industria software. Proiectul Open Data Hub, implementat în cadrul comunității de dezvoltare open source, oferă o arhitectură de referință pentru organizarea unui ciclu complet de operațiuni AI/ML bazate pe cloud hibrid OpenShift. Avem un plan clar și atent pentru dezvoltarea acestui proiect și suntem serioși să creăm o comunitate activă și fructuoasă pentru dezvoltarea soluțiilor deschise AI pe platforma OpenShift în jurul acestuia.

Sursa: www.habr.com

Adauga un comentariu