Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Tulevik on saabunud ning tehisintellekti ja masinõppe tehnoloogiaid kasutavad juba edukalt teie lemmikpoed, transpordiettevõtted ja isegi kalkunifarmid.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Ja kui miski on olemas, siis Internetis on sellest juba midagi olemas... avatud projekt! Vaadake, kuidas Open Data Hub aitab teil uusi tehnoloogiaid skaleerida ja vältida rakendusprobleeme.

Kõigi tehisintellekti (AI) ja masinõppe (ML) eelistega on organisatsioonidel sageli raskusi nende tehnoloogiate skaleerimisega. Sel juhul on peamised probleemid tavaliselt järgmised:

  • Infovahetus ja koostöö – on peaaegu võimatu pingevabalt teavet vahetada ja teha koostööd kiirete iteratsioonidega.
  • Juurdepääs andmetele – iga ülesande jaoks tuleb see uuesti ja käsitsi ehitada, mis võtab palju aega.
  • Juurdepääs nõudmisel – puudub võimalus saada nõudmisel juurdepääsu masinõppe tööriistadele ja platvormile ning andmetöötluse infrastruktuurile.
  • Tootmine – mudelid jäävad prototüübi staadiumisse ja neid ei võeta tööstuslikku kasutusse.
  • Jälgige ja selgitage tehisintellekti tulemusi – AI/ML tulemuste reprodutseeritavus, jälgimine ja selgitamine on keeruline.

Kui neid probleeme ei käsitleta, mõjutavad need negatiivselt väärtuslike andmeteadlaste kiirust, tõhusust ja tootlikkust. See toob kaasa nende pettumuse, pettumuse nende töös ja selle tulemusel lähevad äriootused AI/ML suhtes raisku.

Vastutus nende probleemide lahendamise eest langeb IT-spetsialistidele, kes peavad andmeanalüütikutele andma – see on õige, midagi pilve sarnast. Täpsemalt vajame platvormi, mis annab valikuvabaduse ning millel on mugav ja lihtne juurdepääs. Samas on see kiire, kergesti ümberkonfigureeritav, nõudmisel skaleeritav ja rikete suhtes vastupidav. Sellise platvormi ehitamine avatud lähtekoodiga tehnoloogiatele aitab vältida müüja lukustumist ja säilitada pikaajalist strateegilist eelist kulude kontrollimisel.

Mõni aasta tagasi toimus midagi sarnast rakenduste arenduses ja see tõi kaasa mikroteenuste, hübriidpilvede, IT automatiseerimise ja agiilsete protsesside tekkimise. Selle kõigega toimetulemiseks on IT-spetsialistid pöördunud konteinerite, Kubernetete ja avatud hübriidpilvede poole.

Seda kogemust kasutatakse nüüd Ali väljakutsetele vastamiseks. Seetõttu loovad IT-spetsialistid konteineripõhiseid platvorme, mis võimaldavad luua AI/ML-teenuseid agiilsete protsesside raames, kiirendavad innovatsiooni ja on üles ehitatud hübriidpilve poole.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Sellist platvormi hakkame ehitama Red Hat OpenShiftiga, meie hübriidpilve konteineris Kubernetese platvormiga, millel on kiiresti kasvav tarkvara- ja riistvaraliste ML-lahenduste ökosüsteem (NVIDIA, H2O.ai, Starburst, PerceptiLabs jne). Mõned Red Hati kliendid, nagu BMW Group, ExxonMobil ja teised, on juba platvormi ja selle ökosüsteemi peal kasutusele võtnud konteineriseeritud ML-tööriistaahelad ja DevOps-protsessid, et viia oma ML-arhitektuurid tootmisse ja kiirendada andmeanalüütikute tööd.

Teine põhjus, miks Open Data Hubi projekti käivitasime, on demonstreerida mitmel avatud lähtekoodiga tarkvaraprojektil põhineva arhitektuuri näidet ja näidata, kuidas OpenShift platvormil põhineva ML-lahenduse kogu elutsükkel ellu viia.

Open Data Hubi projekt

See on avatud lähtekoodiga projekt, mis on välja töötatud vastavas arenduskogukonnas ja rakendab AI / ML probleemide lahendamisel konteinerite ja OpenShift Kubernetesi abil täielikku toimingute tsüklit - alates algandmete laadimisest ja teisendamisest kuni mudeli genereerimise, treenimise ja hooldamiseni. platvorm. Seda projekti võib pidada referentsrakenduseks, näide sellest, kuidas luua avatud AI/ML-as-a-service lahendust OpenShiftil ja sellega seotud avatud lähtekoodiga tööriistadel nagu Tensorflow, JupyterHub, Spark jt. Oluline on märkida, et Red Hat ise kasutab seda projekti oma AI/ML-teenuste pakkumiseks. Lisaks integreerub OpenShift NVIDIA, Seldoni, Starbusti ja teiste tarnijate peamiste tarkvara- ja riistvaraliste ML-lahendustega, muutes oma masinõppesüsteemide loomise ja käitamise lihtsamaks.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Open Data Hubi projekt keskendub järgmistele kasutajakategooriatele ja kasutusjuhtudele.

  • Andmeanalüütik, kes vajab lahendust ML-projektide elluviimiseks, mis on organiseeritud nagu iseteenindusfunktsioonidega pilv.
  • Andmeanalüütik, kes vajab maksimaalset valikut uusimate avatud lähtekoodiga AI/ML tööriistade ja platvormide hulgast.
  • Andmeanalüütik, kes vajab mudelite treenimisel juurdepääsu andmeallikatele.
  • Andmeanalüütik, kes vajab juurdepääsu arvutusressurssidele (CPU, GPU, mälu).
  • Andmeanalüütik, kes nõuab oskust teha koostööd ja jagada tööd kolleegidega, saada tagasisidet ja teha täiustusi kiires iteratsioonis.
  • Andmeanalüütik, kes soovib suhelda arendajatega (ja arendajatega), et tema ML-mudelid ja töötulemused tootmisse jõuaksid.
  • Andmeinsener, kes peab andma andmeanalüütikule juurdepääsu erinevatele andmeallikatele, järgides samal ajal regulatiivseid ja turvanõudeid.
  • IT-süsteemi administraator/operaator, kes nõuab oskust pingevabalt juhtida avatud lähtekoodiga komponentide ja tehnoloogiate elutsüklit (installimine, seadistamine, uuendamine). Vajame ka asjakohaseid haldus- ja kvooditööriistu.

Projekt Open Data Hub koondab terve rea avatud lähtekoodiga tööriistu, et rakendada AI/ML-i toimingute kogu tsükkel. Jupyteri sülearvutit kasutatakse siin andmeanalüüsi peamise töövahendina. Tööriistakomplekt on tänapäeval andmeteadlaste seas laialt populaarne ning Open Data Hub võimaldab neil hõlpsasti luua ja hallata Jupyteri sülearvuti tööruume, kasutades sisseehitatud JupyterHubi. Lisaks Jupyteri märkmike loomisele ja importimisele sisaldab Open Data Hubi projekt ka mitmeid valmis märkmikke AI Library kujul.

See teek on avatud lähtekoodiga masinõppe komponentide ja lahenduste kogumik levinud stsenaariumide jaoks, mis lihtsustavad kiiret prototüüpimist. JupyterHub on integreeritud OpenShifti RBAC juurdepääsumudeliga, mis võimaldab kasutada olemasolevaid OpenShifti kontosid ja rakendada ühekordset sisselogimist. Lisaks pakub JupyterHub kasutajasõbralikku kasutajaliidest nimega spawner, mille kaudu saab kasutaja valitud Jupyteri sülearvuti jaoks hõlpsasti konfigureerida arvutusressursside hulka (CPU tuumad, mälu, GPU).

Pärast seda, kui andmeanalüütik on sülearvuti loonud ja konfigureerinud, hoolitseb kõigi muude sellega seotud murede eest Kubernetese ajakava, mis on osa OpenShiftist. Kasutajad saavad teha ainult oma katseid, salvestada ja jagada oma töö tulemusi. Lisaks pääsevad edasijõudnud kasutajad otse Jupyteri sülearvutitest otse juurde OpenShift CLI kestale, et kasutada ära Kubernetese primitiivid, nagu Job või OpenShift, nagu Tekton või Knative. Või võite selleks kasutada OpenShifti mugavat GUI-d, mida nimetatakse "OpenShifti veebikonsooliks".

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Järgmisesse etappi liikudes võimaldab Open Data Hub hallata andmekonveierid. Selleks kasutatakse Ceph-objekti, mis on S3-ühilduva objektiandmete salvestusruumina. Apache Spark pakub andmete voogesitust välistest allikatest või sisseehitatud Ceph S3 salvestusruumist ning võimaldab teil teha ka esialgseid andmete teisendusi. Apache Kafka pakub täpsemat andmekonveierite haldust (kus andmeid saab laadida mitu korda, samuti andmete teisendus-, analüüsi- ja püsivustoiminguid).

Niisiis pääses andmeanalüütik andmetele juurde ja koostas mudeli. Nüüd on tal soov saadud tulemusi kolleegide või rakenduste arendajatega jagada ning pakkuda neile oma mudelit teenuse põhimõtetel. Selleks on vaja järeldusserverit ja Open Data Hubil on selline server, selle nimi on Seldon ja see võimaldab teil mudelit RESTful-teenusena avaldada.

Mingil hetkel on Seldoni serveris mitu sellist mudelit ja tekib vajadus jälgida, kuidas neid kasutatakse. Selle saavutamiseks pakub Open Data Hub asjakohaste mõõdikute kogumit ja aruandlusmootorit, mis põhineb laialdaselt kasutatavatel avatud lähtekoodiga seiretööriistadel Prometheus ja Grafana. Selle tulemusena saame tagasisidet tehisintellektimudelite kasutamise jälgimiseks, eriti tootmiskeskkonnas.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Sel viisil pakub Open Data Hub pilvelaadset lähenemist kogu AI/ML elutsükli jooksul alates andmetele juurdepääsust ja ettevalmistamisest kuni mudeli koolituse ja tootmiseni.

Kogu see kokku

Nüüd tekib küsimus, kuidas seda kõike OpenShifti administraatori jaoks korraldada. Ja siin tuleb mängu spetsiaalne Kubernetese operaator Open Data Hubi projektide jaoks.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

See operaator haldab Open Data Hubi projekti installimist, konfigureerimist ja elutsüklit, sealhulgas eelnimetatud tööriistade, nagu JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus ja Grafana, juurutamist. Open Data Hubi projekti leiate OpenShifti veebikonsoolist kogukonna operaatorite jaotisest. Seega saab OpenShifti administraator määrata, et vastavad OpenShifti projektid liigitatakse kategooriasse "Open Data Hubi projekt". Seda tehakse üks kord. Pärast seda logib andmeanalüütik läbi OpenShifti veebikonsooli oma projektiruumi ja näeb, et vastav Kubernetese operaator on installitud ja tema projektide jaoks saadaval. Seejärel loob ta ühe klõpsuga Open Data Hubi projekti eksemplari ja tal on kohe juurdepääs ülalkirjeldatud tööriistadele. Ja seda kõike saab konfigureerida kõrge käideldavuse ja tõrketaluvuse režiimis.

Open Data Hubi projekt on avatud masinõppeplatvorm, mis põhineb Red Hat OpenShiftil

Kui soovite Open Data Hubi projekti ise proovida, alustage sellest paigaldusjuhised ja sissejuhatav õpetus. Open Data Hubi arhitektuuri tehnilised üksikasjad leiate siin, projekti arengukavad – siin. Tulevikus plaanime rakendada täiendavat integratsiooni Kubeflowga, lahendada mitmeid andmeregulatsiooni ja turvalisusega seotud probleeme ning korraldada ka integratsiooni reeglipõhiste süsteemidega Drools ja Optaplanner. Avalda oma arvamust ja hakka projektis osalejaks Avage Data Hub lehel võimalik kogukond.

Kokkuvõtteks: tõsised mastaapimisprobleemid takistavad organisatsioonidel tehisintellekti ja masinõppe täielikku potentsiaali realiseerimast. Red Hat OpenShift on pikka aega edukalt kasutatud sarnaste probleemide lahendamiseks tarkvaratööstuses. Open Data Hubi projekt, mida rakendatakse avatud lähtekoodiga arenduskogukonnas, pakub võrdlusarhitektuuri OpenShifti hübriidpilvel põhinevate tehisintellekti/ML-i toimingute täistsükli korraldamiseks. Meil on selle projekti arendamiseks selge ja läbimõeldud plaan ning me tahame tõsiselt luua selle ümber aktiivse ja viljaka kogukonna OpenShifti platvormil avatud tehisintellekti lahenduste arendamiseks.

Allikas: www.habr.com

Lisa kommentaar