Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Budućnost je stigla, a tehnologije umjetne inteligencije i strojnog učenja već uspješno koriste vaše omiljene trgovine, prijevozničke tvrtke, pa čak i farme purana.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

A ako nešto postoji, onda već postoji nešto o tome na internetu... otvoreni projekt! Pogledajte kako vam Open Data Hub pomaže skalirati nove tehnologije i izbjeći izazove implementacije.

Uz sve prednosti umjetne inteligencije (AI) i strojnog učenja (ML), organizacije često imaju poteškoća s skaliranjem ovih tehnologija. Glavni problemi u ovom slučaju obično su sljedeći:

  • Razmjena informacija i suradnja – gotovo je nemoguće razmjenjivati ​​informacije bez napora i surađivati ​​u brzim iteracijama.
  • Pristup podacima – za svaki zadatak potrebno ga je graditi iznova i ručno, što oduzima puno vremena.
  • Pristup na zahtjev – ne postoji način da se na zahtjev dobije pristup alatima za strojno učenje i platformi, kao ni računalnoj infrastrukturi.
  • Proizvodnja – modeli ostaju u fazi prototipa i ne dovode se u industrijsku upotrebu.
  • Pratite i objasnite rezultate umjetne inteligencije – ponovljivost, praćenje i objašnjenje AI/ML rezultata su teški.

Ako se ne riješe, ti problemi negativno utječu na brzinu, učinkovitost i produktivnost vrijednih znanstvenika podataka. To dovodi do njihove frustracije, razočarenja u njihov rad, a kao rezultat toga, poslovna očekivanja u vezi s AI/ML-om odlaze u nepovrat.

Odgovornost za rješavanje ovih problema pada na IT stručnjake, koji analitičarima moraju osigurati podatke - tako je, nešto poput oblaka. Detaljnije, trebamo platformu koja daje slobodu izbora i ima praktičan, jednostavan pristup. Istodobno je brz, lako rekonfigurabilan, skalabilan na zahtjev i otporan na kvarove. Izgradnja takve platforme na tehnologijama otvorenog koda pomaže u izbjegavanju vezanosti dobavljača i održavanju dugoročne strateške prednosti u smislu kontrole troškova.

Prije nekoliko godina nešto slično se događalo u razvoju aplikacija i dovelo do pojave mikroservisa, hibridnih oblaka, IT automatizacije i agilnih procesa. Kako bi se nosili sa svim tim, IT stručnjaci okrenuli su se kontejnerima, Kubernetesu i otvorenim hibridnim oblacima.

Ovo se iskustvo sada primjenjuje kako bi se odgovorilo na Alove izazove. Zato IT stručnjaci grade platforme koje se temelje na spremnicima, omogućuju stvaranje AI/ML usluga unutar agilnih procesa, ubrzavaju inovacije i izgrađene su s pogledom na hibridni oblak.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Počet ćemo s izgradnjom takve platforme s Red Hat OpenShift, našom kontejnerskom Kubernetes platformom za hibridni oblak, koja ima brzo rastući ekosustav softverskih i hardverskih ML rješenja (NVIDIA, H2O.ai, Starburst, PerceptiLabs, itd.). Neki od kupaca Red Hata, kao što su BMW Group, ExxonMobil i drugi, već su implementirali kontejnerske ML lance alata i DevOps procese povrh platforme i njezinog ekosustava kako bi svoje ML arhitekture doveli u proizvodnju i ubrzali rad analitičara podataka.

Još jedan razlog zbog kojeg smo pokrenuli projekt Open Data Hub je demonstracija primjera arhitekture temeljene na nekoliko softverskih projekata otvorenog koda i pokazivanje kako implementirati cijeli životni ciklus ML rješenja temeljenog na OpenShift platformi.

Open Data Hub Project

Ovo je projekt otvorenog koda koji je razvijen unutar odgovarajuće razvojne zajednice i implementira cijeli ciklus operacija - od učitavanja i transformiranja početnih podataka do generiranja, obuke i održavanja modela - pri rješavanju AI/ML problema korištenjem spremnika i Kubernetesa na OpenShiftu. platforma. Ovaj se projekt može smatrati referentnom implementacijom, primjerom kako izgraditi otvoreno rješenje AI/ML-as-a-service temeljeno na OpenShiftu i srodnim alatima otvorenog koda kao što su Tensorflow, JupyterHub, Spark i drugi. Važno je napomenuti da sam Red Hat koristi ovaj projekt za pružanje svojih AI/ML usluga. Osim toga, OpenShift se integrira s ključnim softverskim i hardverskim ML rješenjima NVIDIA, Seldon, Starbust i drugih dobavljača, što olakšava izgradnju i pokretanje vlastitih sustava strojnog učenja.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Projekt Open Data Hub usmjeren je na sljedeće kategorije korisnika i slučajeve korištenja:

  • Analitičar podataka koji treba rješenje za implementaciju ML projekata, organizirano poput oblaka sa samoposlužnim funkcijama.
  • Analitičar podataka koji treba maksimalan izbor među najnovijim AI/ML alatima i platformama otvorenog koda.
  • Analitičar podataka koji treba pristup izvorima podataka prilikom obuke modela.
  • Analitičar podataka koji treba pristup računalnim resursima (CPU, GPU, memorija).
  • Analitičar podataka koji zahtijeva sposobnost suradnje i dijeljenja rada s kolegama, primanja povratnih informacija i poboljšanja u brzom ponavljanju.
  • Analitičar podataka koji želi komunicirati s programerima (i devops timovima) tako da njegovi ML modeli i rezultati rada idu u proizvodnju.
  • Inženjer podataka koji analitičaru podataka treba omogućiti pristup različitim izvorima podataka uz poštivanje regulatornih i sigurnosnih zahtjeva.
  • Administrator/operater IT sustava koji zahtijeva sposobnost da bez napora kontrolira životni ciklus (instalacija, konfiguracija, nadogradnja) komponenti i tehnologija otvorenog koda. Također su nam potrebni odgovarajući alati za upravljanje i kvote.

Projekt Open Data Hub okuplja niz alata otvorenog koda za implementaciju punog ciklusa AI/ML operacija. Jupyter Notebook ovdje se koristi kao glavni radni alat za analizu podataka. Alati su danas vrlo popularni među znanstvenicima koji se bave podacima, a Open Data Hub im omogućuje jednostavnu izradu radnih prostora Jupyter Notebooka i upravljanje njima pomoću ugrađenog JupyterHuba. Osim stvaranja i uvoza Jupyter bilježnica, projekt Open Data Hub također sadrži niz gotovih bilježnica u obliku AI Library.

Ova je biblioteka zbirka komponenti i rješenja za strojno učenje otvorenog koda za uobičajene scenarije koji pojednostavljuju brzu izradu prototipova. JupyterHub je integriran s modelom pristupa OpenShift RBAC, koji vam omogućuje korištenje postojećih OpenShift računa i implementaciju jedinstvene prijave. Uz to, JupyterHub nudi user-friendly korisničko sučelje pod nazivom spawner, putem kojeg korisnik može jednostavno konfigurirati količinu računalnih resursa (CPU jezgre, memorija, GPU) za odabrani Jupyter Notebook.

Nakon što analitičar podataka izradi i konfigurira prijenosno računalo, sve druge brige o njemu rješava Kubernetes planer, koji je dio OpenShift-a. Korisnici mogu samo provoditi svoje eksperimente, spremati i dijeliti rezultate svog rada. Dodatno, napredni korisnici mogu izravno pristupiti OpenShift CLI ljusci izravno s Jupyter prijenosnih računala kako bi iskoristili Kubernetes primitive kao što je Job ili OpenShift funkcionalnost kao što su Tekton ili Knative. Ili za ovo možete koristiti OpenShiftov praktični GUI, koji se zove “OpenShift web konzola”.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Prelazeći na sljedeću fazu, Open Data Hub omogućuje upravljanje podatkovnim cjevovodima. Za to se koristi Ceph objekt koji je osiguran kao S3-kompatibilna pohrana podataka objekta. Apache Spark vam omogućuje prijenos podataka iz vanjskih izvora ili ugrađene Ceph S3 pohrane, a također vam omogućuje izvođenje preliminarnih transformacija podataka. Apache Kafka pruža napredno upravljanje podatkovnim cjevovodima (gdje se podaci mogu učitati više puta, kao i transformacija podataka, analiza i operacije postojanosti).

Dakle, analitičar podataka pristupio je podacima i napravio model. Sada ima želju dobivene rezultate podijeliti s kolegama ili programerima aplikacija te im pružiti svoj model na principima usluge. Ovo zahtijeva poslužitelj za zaključivanje, a Open Data Hub ima takav poslužitelj, zove se Seldon i omogućuje vam da objavite model kao RESTful uslugu.

U nekom trenutku postoji nekoliko takvih modela na poslužitelju Seldon i postoji potreba za praćenjem njihove upotrebe. Kako bi se to postiglo, Open Data Hub nudi zbirku relevantnih metrika i mehanizam za izvješćivanje temeljen na široko korištenim alatima za praćenje otvorenog koda Prometheus i Grafana. Kao rezultat toga, primamo povratne informacije za praćenje upotrebe AI modela, posebno u proizvodnom okruženju.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Na taj način Open Data Hub pruža pristup sličan oblaku tijekom cijelog životnog ciklusa AI/ML-a, od pristupa podacima i pripreme do obuke modela i proizvodnje.

Stavljajući sve zajedno

Sada se postavlja pitanje kako sve to organizirati za OpenShift administratora. I tu na scenu stupa poseban Kubernetes operater za Open Data Hub projekte.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Ovaj operater upravlja instalacijom, konfiguracijom i životnim ciklusom projekta Open Data Hub, uključujući implementaciju gore navedenih alata kao što su JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus i Grafana. Projekt Open Data Hub nalazi se na OpenShift web konzoli, u sekciji community operators. Stoga OpenShift administrator može odrediti da se odgovarajući OpenShift projekti kategoriziraju kao "Open Data Hub projekt". Ovo se radi jednom. Nakon toga, analitičar podataka prijavljuje se u svoj projektni prostor putem OpenShift web konzole i vidi da je odgovarajući Kubernetes operator instaliran i dostupan za njegove projekte. Zatim jednim klikom stvara instancu projekta Open Data Hub i odmah ima pristup gore opisanim alatima. I sve se to može konfigurirati u načinu visoke dostupnosti i tolerancije na pogreške.

Projekt Open Data Hub je otvorena platforma za strojno učenje temeljena na Red Hat OpenShift

Ako želite sami isprobati projekt Open Data Hub, počnite s upute za instalaciju i uvodni vodič. Tehničke detalje arhitekture Open Data Huba možete pronaći здесь, planovi razvoja projekta – здесь. U budućnosti planiramo implementirati dodatnu integraciju s Kubeflowom, riješiti niz problema s regulacijom i sigurnošću podataka te organizirati integraciju sa sustavima temeljenim na pravilima Drools i Optaplanner. Izrazite svoje mišljenje i postanite sudionik projekta Otvori podatkovno središte moguće na stranici zajednica.

Da rezimiramo: ozbiljni izazovi skaliranja sprječavaju organizacije da ostvare puni potencijal umjetne inteligencije i strojnog učenja. Red Hat OpenShift već se dugo uspješno koristi za rješavanje sličnih problema u softverskoj industriji. Projekt Open Data Hub, implementiran unutar open source razvojne zajednice, nudi referentnu arhitekturu za organiziranje punog ciklusa AI/ML operacija temeljenih na OpenShift hibridnom oblaku. Imamo jasan i promišljen plan za razvoj ovog projekta i ozbiljni smo oko stvaranja aktivne i plodonosne zajednice oko njega za razvoj otvorenih AI rješenja na OpenShift platformi.

Izvor: www.habr.com

Dodajte komentar