Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Budućnost je stigla, a tehnologije umjetne inteligencije i strojnog učenja već uspješno koriste vaše omiljene trgovine, transportne kompanije, pa čak i farme ćuretina.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

A ako nešto postoji, onda već postoji nešto o tome na internetu... otvoreni projekat! Pogledajte kako vam Open Data Hub pomaže da proširite nove tehnologije i izbjegnete izazove u implementaciji.

Uz sve prednosti umjetne inteligencije (AI) i strojnog učenja (ML), organizacije često imaju poteškoća s skaliranjem ovih tehnologija. Glavni problemi u ovom slučaju obično su sljedeći:

  • Razmjena informacija i saradnja – gotovo je nemoguće razmjenjivati ​​informacije bez napora i sarađivati ​​u brzim iteracijama.
  • Pristup podacima – za svaki zadatak potrebno ga je izraditi iznova i ručno, što oduzima dosta vremena.
  • Pristup na zahtjev – ne postoji način da se na zahtjev dobije pristup alatima i platformi za strojno učenje, kao i računarskoj infrastrukturi.
  • Proizvodnja – modeli ostaju u fazi prototipa i ne dovode se u industrijsku upotrebu.
  • Pratite i objasnite rezultate AI – reproduktivnost, praćenje i objašnjenje rezultata AI/ML su teški.

Ako se ne riješe, ovi problemi negativno utiču na brzinu, efikasnost i produktivnost vrijednih naučnika podataka. To dovodi do njihove frustracije, razočaranja u njihov rad, a kao rezultat toga, poslovna očekivanja u vezi sa AI/ML idu uzaludno.

Odgovornost za rješavanje ovih problema je na IT stručnjacima, koji analitičarima podataka moraju obezbijediti – tako je, nešto poput oblaka. Detaljnije, potrebna nam je platforma koja daje slobodu izbora i ima praktičan i lak pristup. U isto vrijeme, brz je, lako se može rekonfigurirati, skalabilan na zahtjev i otporan na kvarove. Izgradnja takve platforme na tehnologijama otvorenog koda pomaže u izbjegavanju zaključavanja dobavljača i održavanju dugoročne strateške prednosti u smislu kontrole troškova.

Prije nekoliko godina nešto slično se događalo u razvoju aplikacija i dovelo do pojave mikroservisa, hibridnih oblaka, IT automatizacije i agilnih procesa. Kako bi se izborili sa svim ovim, IT profesionalci su se okrenuli kontejnerima, Kubernetes-u i otvorenim hibridnim oblacima.

Ovo iskustvo se sada primjenjuje da odgovori na Alove izazove. Zbog toga IT profesionalci grade platforme koje su zasnovane na kontejnerima, omogućavaju kreiranje AI/ML usluga u okviru agilnih procesa, ubrzavaju inovacije i grade se s pogledom na hibridni oblak.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Počećemo da gradimo takvu platformu sa Red Hat OpenShift, našom kontejnerskom Kubernetes platformom za hibridni oblak, koji ima brzo rastući ekosistem softverskih i hardverskih ML rešenja (NVIDIA, H2O.ai, Starburst, PerceptiLabs, itd.). Neki od kupaca Red Hata, kao što su BMW Group, ExxonMobil i drugi, već su implementirali kontejnerske ML alate i DevOps procese na vrhu platforme i njenog ekosistema kako bi svoje ML arhitekture doveli u proizvodnju i ubrzali rad analitičara podataka.

Drugi razlog zbog kojeg smo pokrenuli Open Data Hub projekat je da demonstriramo primjer arhitekture bazirane na nekoliko open source softverskih projekata i pokažemo kako implementirati cijeli životni ciklus ML rješenja baziranog na OpenShift platformi.

Open Data Hub Project

Ovo je projekat otvorenog koda koji je razvijen u okviru odgovarajuće razvojne zajednice i implementira puni ciklus operacija - od učitavanja i transformacije početnih podataka do generisanja, obuke i održavanja modela - prilikom rešavanja AI/ML problema koristeći kontejnere i Kubernetes na OpenShift-u platforma. Ovaj projekat se može smatrati referentnom implementacijom, primjerom kako izgraditi otvoreno AI/ML-as-a-service rješenje bazirano na OpenShift-u i srodnim alatima otvorenog koda kao što su Tensorflow, JupyterHub, Spark i drugi. Važno je napomenuti da sam Red Hat koristi ovaj projekat za pružanje svojih AI/ML usluga. Pored toga, OpenShift se integriše sa ključnim softverskim i hardverskim ML rešenjima od NVIDIA, Seldon, Starbust i drugih proizvođača, što olakšava izgradnju i pokretanje sopstvenih sistema mašinskog učenja.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Projekt Open Data Hub fokusiran je na sljedeće kategorije korisnika i slučajeva upotrebe:

  • Analitičar podataka kojem je potrebno rješenje za implementaciju ML projekata, organizirano poput oblaka sa samouslužnim funkcijama.
  • Analitičar podataka kome je potreban maksimalan izbor od najnovijih alata i platformi AI/ML otvorenog koda.
  • Analitičar podataka kojem je potreban pristup izvorima podataka kada obučava modele.
  • Analitičar podataka kome je potreban pristup računarskim resursima (CPU, GPU, memorija).
  • Analitičar podataka kojem je potrebna sposobnost saradnje i dijeljenja rada sa kolegama, primanja povratnih informacija i poboljšanja u brzoj iteraciji.
  • Analitičar podataka koji želi da komunicira sa programerima (i devops timovima) kako bi njegovi ML modeli i rezultati rada krenuli u proizvodnju.
  • Inženjer podataka koji analitičaru podataka treba da omogući pristup različitim izvorima podataka uz poštovanje regulatornih i sigurnosnih zahtjeva.
  • Administrator/operater IT sistema kome je potrebna mogućnost da bez napora kontroliše životni ciklus (instalacija, konfiguracija, nadogradnja) komponenti i tehnologija otvorenog koda. Takođe su nam potrebni odgovarajući alati za upravljanje i kvote.

Projekat Open Data Hub okuplja niz alata otvorenog koda za implementaciju punog ciklusa AI/ML operacija. Jupyter Notebook se ovdje koristi kao glavni radni alat za analizu podataka. Komplet alata je danas široko popularan među naučnicima za podatke, a Open Data Hub im omogućava da lako kreiraju i upravljaju radnim prostorima Jupyter Notebook koristeći ugrađeni JupyterHub. Pored kreiranja i uvoza Jupyter notebook računara, projekat Open Data Hub takođe sadrži niz gotovih beležnica u obliku AI biblioteke.

Ova biblioteka je kolekcija komponenti za mašinsko učenje otvorenog koda i rješenja za uobičajene scenarije koji pojednostavljuju brzu izradu prototipa. JupyterHub je integrisan sa OpenShift-ovim RBAC pristupnim modelom, koji vam omogućava da koristite postojeće OpenShift naloge i implementirate jedinstvenu prijavu. Uz to, JupyterHub nudi korisničko sučelje prilagođeno korisniku pod nazivom spawner, preko kojeg korisnik može lako konfigurirati količinu računarskih resursa (CPU jezgre, memorija, GPU) za odabrani Jupyter Notebook.

Nakon što analitičar podataka kreira i konfiguriše laptop, sve ostale brige u vezi sa njim rešava Kubernetes planer, koji je deo OpenShift-a. Korisnici mogu samo provoditi svoje eksperimente, pohranjivati ​​i dijeliti rezultate svog rada. Dodatno, napredni korisnici mogu direktno pristupiti OpenShift CLI ljusci direktno iz Jupyter notebooka kako bi iskoristili Kubernetes primitive kao što su Job ili OpenShift funkcionalnost kao što su Tekton ili Knative. Ili za ovo možete koristiti OpenShiftov praktični GUI, koji se zove “OpenShift web konzola”.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Prelazimo na sljedeću fazu, Open Data Hub omogućava upravljanje cevovodima podataka. Za to se koristi Ceph objekat, koji je obezbeđen kao S3-kompatibilno skladište podataka objekta. Apache Spark vam omogućava da prenosite podatke iz vanjskih izvora ili ugrađene Ceph S3 memorije, a također vam omogućava da izvršite preliminarne transformacije podataka. Apache Kafka pruža napredno upravljanje cevovodima podataka (gde se podaci mogu učitavati više puta, kao i transformacija podataka, analiza i operacije postojanosti).

Dakle, analitičar podataka je pristupio podacima i napravio model. Sada ima želju da dobijene rezultate podijeli sa kolegama ili programerima aplikacija, te im pruži svoj model na principima usluge. Za ovo je potreban server zaključivanja, a Open Data Hub ima takav server, zove se Seldon i omogućava vam da objavite model kao RESTful uslugu.

U nekom trenutku na Seldon serveru postoji nekoliko takvih modela i postoji potreba da se prati kako se koriste. Da bi se to postiglo, Open Data Hub nudi kolekciju relevantnih metrika i mehanizam za izvještavanje zasnovan na široko korišćenim alatima za praćenje otvorenog koda Prometheus i Grafana. Kao rezultat toga, dobijamo povratne informacije za praćenje upotrebe AI modela, posebno u proizvodnom okruženju.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Na ovaj način, Open Data Hub pruža pristup sličan oblaku kroz čitav životni ciklus AI/ML, od pristupa podacima i pripreme do obuke modela i proizvodnje.

Stavi sve zajedno

Sada se postavlja pitanje kako sve to organizirati za OpenShift administratora. I tu se pojavljuje poseban Kubernetes operater za Open Data Hub projekte.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Ovaj operater upravlja instalacijom, konfiguracijom i životnim ciklusom projekta Open Data Hub, uključujući implementaciju gore navedenih alata kao što su JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus i Grafana. Projekat Open Data Hub se može naći na OpenShift web konzoli, u odjeljku operatora zajednice. Stoga administrator OpenShift može odrediti da su odgovarajući OpenShift projekti kategorizirani kao "Open Data Hub projekt". Ovo se radi jednom. Nakon toga, analitičar podataka se prijavljuje u svoj projektni prostor preko OpenShift web konzole i vidi da je odgovarajući Kubernetes operater instaliran i dostupan za njegove projekte. Zatim jednim klikom kreira instancu projekta Open Data Hub i odmah ima pristup gore opisanim alatima. I sve se to može konfigurirati u režimu visoke dostupnosti i tolerancije grešaka.

Projekat Open Data Hub je otvorena platforma za mašinsko učenje zasnovana na Red Hat OpenShift-u

Ako želite sami isprobati Open Data Hub projekat, počnite s upute za instalaciju i uvodni vodič. Tehnički detalji Open Data Hub arhitekture se mogu pronaći ovdje, razvojni planovi projekta – ovdje. U budućnosti planiramo implementirati dodatnu integraciju sa Kubeflow-om, riješiti niz problema sa regulacijom i sigurnošću podataka, te organizirati integraciju sa sistemima baziranim na pravilima Drools i Optaplanner. Izrazite svoje mišljenje i postanite učesnik projekta Otvorite Data Hub moguće na stranici zajednica.

Da rezimiramo: Ozbiljni izazovi skaliranja sprečavaju organizacije da ostvare puni potencijal umjetne inteligencije i strojnog učenja. Red Hat OpenShift se dugo uspješno koristi za rješavanje sličnih problema u softverskoj industriji. Open Data Hub projekat, implementiran u okviru razvojne zajednice otvorenog koda, nudi referentnu arhitekturu za organizovanje punog ciklusa AI/ML operacija zasnovanih na OpenShift hibridnom oblaku. Imamo jasan i promišljen plan za razvoj ovog projekta, i ozbiljno razmišljamo o stvaranju aktivne i plodne zajednice oko njega za razvoj otvorenih AI rješenja na OpenShift platformi.

izvor: www.habr.com

Dodajte komentar