Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Будучыня наступіла, тэхналогіі штучнага інтэлекту і машыннага навучання ўжо паспяхова выкарыстоўваюць вашыя любімыя крамы, транспартныя кампаніі і нават фермы, якія гадуюць індычак.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

А калі нешта існуе, значыць у інтэрнэце пра гэта ўжо ёсць… адкрыты праект! Глядзіце як Open Data Hub дапамагае маштабаваць новыя тэхналогіі і пазбягаць цяжкасцяў пры іх укараненні.

Пры ўсіх плюсах штучнага інтэлекту (artificial Intelligence, AI) і машыннага навучання (machine learning, ML) у арганізацый часта ўзнікаюць цяжкасці з маштабаваннем гэтых тэхналогій. Асноўныя праблемы пры гэтым, як правіла, наступныя:

  • Абмен інфармацыяй і супрацоўніцтва - абменьвацца інфармацыяй без лішніх намаганняў і супрацоўнічаць у рэжыме хуткіх ітэрацый практычна немагчыма.
  • Доступ да дадзеных - для кожнай задачы яго трэба будаваць зноўку і ўручную, што адымае шмат часу.
  • Доступ па патрабаванні - няма магчымасці атрымаць on-demand доступ да інструментаў і платформе машыннага навучання, а таксама да вылічальнай інфраструктуры.
  • Вытворчасць - мадэлі застаюцца на стадыі прататыпа і не даводзяцца да промэксплуатацыі.
  • Адсочванне і тлумачэнне вынікаў працы AI - узнаўляльнасць, адсочванне і тлумачэнне вынікаў AI / ML цяжкія.

Пакінутыя без рашэння, гэтыя праблемы негатыўна ўплываюць на хуткасць, эфектыўнасць і прадуктыўнасць працы каштоўных адмыслоўцаў па апрацоўцы і аналізу дадзеных. Гэта прыводзіць да іх фрустрацыі, расчараванню ў працы, і ў выніку чаканні бізнэсу ў стаўленні AI/ML ідуць прахам.

Адказнасць за рашэнне гэтых праблем ускладаецца на ІТ-адмыслоўцаў, якія павінны падаць дата-аналітыкам - правільна, нешта накшталт аблокі. Калі больш разгорнута, дык патрэбна такая платформа, якая дае свабоду выбару і мае зручны, просты доступ. Пры гэтым яна хуткая, лёгка пераналаджваецца, маштабуецца па патрабаванні і ўстойлівая да адмоваў. Пабудова такой платформы на базе тэхналогій з адкрытым кодам дапамагае не ўпасці ў залежнасць ад вендара і захаваць доўгатэрміновую стратэгічную перавагу ў плане кантролю затрат.

Некалькі гадоў таму нешта падобнае адбывалася ў распрацоўцы прыкладанняў і прывяло да з'яўлення мікрасэрвісаў, гібрыдных хмарных асяроддзяў, ІТ-аўтаматызацыі і agile-працэсаў. Каб даць рады з усім гэтым, ІТ-адмыслоўцы сталі выкарыстоўваць кантэйнеры, Kubernetes і адкрытыя гібрыдныя аблокі.

Цяпер гэты вопыт прымяняецца для адказу на выклікі Al. Таму ІТ-адмыслоўцы ствараюць платформы, якія грунтуюцца на кантэйнерах, дазваляюць ствараць AI/ML-сэрвісы ў рамках agile-працэсаў, паскараюць інавацыі і будуюцца з прыцэлам на гібрыднае воблака.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Пабудову такой платформы мы пачнем з Red Hat OpenShift, нашай кантэйнернай Kubernetes-платформы для гібрыднага аблокі, у якой ёсць хуткарослая экасістэма праграмных і апаратных ML-рашэнняў (NVIDIA, H2O.ai, Starburst, PerceptiLabs і г.д.). Некаторыя з кліентаў Red Hat, такія як BMW Group, ExxonMobil і іншыя, ужо разгарнулі кантэйнерызаваны ланцужкі ML-інструментаў і працэсы DevOps на базе гэтай платформы і яе экасістэмы, каб вывесці свае ML-архітэктуры на рэжым прамысловай эксплуатацыі і паскорыць працу дата-аналітыкаў.

Яшчэ адна прычына, па якой мы запусцілі праект Open Data Hub - прадэманстраваць прыклад архітэктуры на аснове некалькіх СПО-праектаў і паказаць, як рэалізаваць увесь жыццёвы цыкл ML-рашэнні на базе платформы OpenShift.

Праект Open Data Hub

Гэта праект з адкрытым кодам, які развіваецца ў рамках адпаведнай супольнасці распрацоўкі і рэалізуе поўны цыкл аперацый - ад загрузкі і пераўтварэнні пачатковых дадзеных да фарміравання, навучання і суправаджэння мадэлі - пры рашэнні задач AI/ML з дапамогай кантэйнераў і Kubernetes на платформе OpenShift. Гэты праект можна разглядаць як эталонную рэалізацыю, прыклад таго, як пабудаваць адкрытае рашэнне класа "AI/ML як паслуга" на аснове OpenShift і адпаведных інструментаў з адкрытым кодам, такіх як Tensorflow, JupyterHub, Spark і іншых. Важна адзначыць, што Red Hat сама выкарыстоўвае гэты праект для падавання сваіх паслуг AI/ML. Акрамя таго, OpenShift інтэгруецца з ключавымі праграмнымі і апаратнымі ML-рашэннямі ад NVIDIA, Seldon, Starbust і іншых вендараў, што палягчае пабудову і запуск уласных сістэм машыннага навучання.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Праект Open Data Hub арыентаваны на наступныя катэгорыі карыстальнікаў і сцэнары выкарыстання:

  • Дата-аналітык, якому трэба рашэнне для рэалізацыі ML-праектаў, арганізаванае па тыпе аблокі з функцыямі самаабслугоўвання.
  • Дата-аналітык, якому патрэбен максімальны выбар з усёй разнастайнасці найноўшых прылад і платформаў AI/ML з адчыненым кодам.
  • Дата-аналітык, якому патрэбен доступ да крыніц дадзеных пры навучанні мадэляў.
  • Дата-аналітык, якому патрэбен доступ да вылічальных рэсурсаў (CPU, GPU, памяць).
  • Дата аналітык, якому патрабуецца магчымасць супрацоўнічаць і абменьвацца вынікамі працы з калегамі, атрымліваць зваротную сувязь і ўводзіць паляпшэнні метадам хуткіх ітэрацый.
  • Дата-аналітык, які хоча ўзаемадзейнічаць з распрацоўшчыкамі (і камандамі devops), каб яго ML-мадэлі і вынікі працы ішлі ў прадакшн.
  • Інжынер па дадзеных, якому патрабуецца даць дата-аналітыку доступ да разнастайных крыніц дадзеных з захаваннем нормаў і патрабаванняў бяспекі.
  • Адміністратар/аператар ІТ-сістэм, якому патрабуецца магчымасць без лішніх намаганняў кантраляваць жыццёвы цыкл (устаноўка, настройка, абнаўленне) кампанентаў і тэхналогій з адкрытым кодам. А таксама патрэбны адпаведныя прылады кіравання і кватавання.

Праект Open Data Hub аб'ядноўвае ў сабе цэлы шэраг прылад з адчыненым кодам для рэалізацыі поўнага цыклу аперацый AI/ML. У якасці асноўнай працоўнай прылады дата-аналітыка тут выкарыстоўваецца Jupyter Notebook. Гэты інструментар сёння карыстаецца шырокай папулярнасцю сярод адмыслоўцаў па апрацоўцы і аналізу дадзеных, і Open Data Hub дазваляе ім лёгка ствараць і кіраваць працоўнымі абласцямі Jupyter Notebook, выкарыстоўваючы ўбудаваны JupyterHub. Апроч стварэння і імпарту notebooks Jupyter, праект Open Data Hub таксама ўтрымоўвае шэраг ужо гатовых notebooks у выглядзе бібліятэкі AI Library.

Гэта бібліятэка ўяўляе сабой калекцыю open-source кампанентаў машыннага навучання і рашэнняў для тыпавых сцэнарыяў, якія спрашчаюць хуткае прататыпіраванне. JupyterHub інтэграваны з RBAC-мадэллю доступу OpenShift, што дазваляе выкарыстоўваць ужо існуючыя акаўнты OpenShift і рэалізаваць адзіны ўваход у сістэму. Акрамя таго, JupyterHub прапануе зручны карыстацкі інтэрфейс пад назвай spawner, з дапамогай якога карыстач можа лёгка наладзіць аб'ём вылічальных рэсурсаў (працэсарныя ядры, памяць, GPU) для абранага Jupyter Notebook.

Пасля таго, як дата-аналітык створыць і наладзіць наўтбук, усе астатнія клопаты аб ім бярэ на сябе планавальнік Kubernetes, які з'яўляецца часткай OpenShift. Карыстачам застаецца толькі выконваць свае эксперыменты, захоўваць і дзяліцца вынікамі сваёй працы. Акрамя таго, прасунутыя карыстачы могуць напроста звяртацца да CLI-абалонкі OpenShift непасрэдна з Jupyter notebooks, каб задзейнічаць Kubernetes-прымітывы, такія як Job, ці функцыянал OpenShift, напрыклад Tekton ці Knative. Або для гэтага можна выкарыстоўваць зручны OpenShift'аўскі GUI, які завецца "вэб-кансоль OpenShift".

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Пераходзячы да наступнага этапу, Open Data Hub дае магчымасць кіраваць канвеерамі дадзеных (data pipelines). Для гэтага выкарыстоўваецца Ceph-аб'ект, які падаецца ў выглядзе S3-сумяшчальнага аб'ектнага сховішчы дадзеных. Apache Spark забяспечвае стрымінг дадзеных са знешніх крыніц або ўбудаванага сховішча Ceph S3, а таксама дазваляе выконваць папярэднія пераўтварэнні дадзеных. Apache Kafka забяспечвае пашыранае кіраванне канвеерамі дадзеных (дзе можна ажыццяўляць шматразовую загрузку, а таксама аперацыі пераўтварэнні, аналізу і захаванні дадзеных).

Такім чынам, дата-аналітык атрымаў доступ да звестак і пабудаваў мадэль. Цяпер у яго ўзнікае жаданне падзяліцца атрыманымі вынікамі з калегамі або распрацоўшчыкамі дадаткаў, прычым прадаставіць ім сваю мадэль на прынцыпах паслугі. Для гэтага патрэбен сервер высновы, і Open Data Hub мае такі сервер, ён завецца Seldon і дазваляе апублікаваць мадэль у выглядзе RESTful-сэрвісу.

У нейкі момант такіх мадэляў на серверы Seldon становіцца некалькі, і ўзнікае запатрабаванне ў маніторынгу таго, як яны выкарыстоўваюцца. Для гэтага Open Data Hub прапануе калекцыю адпаведных метрык і рухавік справаздач на аснове шырока распаўсюджаных інструментаў маніторынгу з адкрытым кодам Prometheus і Grafana. У выніку мы атрымліваем зваротную сувязь для маніторынгу выкарыстання AI-мадэляў, у прыватнасці ў прадакшн-асяроддзі.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Такім чынам, Open Data Hub забяспечвае воблакападобны падыход на працягу ўсяго цыклу аперацый AI/ML, пачынальна з доступу і падрыхтоўкі дадзеных і сканчаючы навучаннем і прамысловай эксплуатацыяй мадэлі.

Збіраны ўсё разам

Цяпер узнікае пытанне, як усё гэта арганізаваць адміністратару OpenShift. І тут у справу ўступае спецыяльны Kubernetes-аператар для праектаў Open Data Hub.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Гэты аператар кіруе ўсталёўкай, наладай і жыццёвым цыклам праекта Open Data Hub, у тым ліку разгортванне такіх вышэйзгаданых інструментаў, як JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus і Grafana. Праект Open Data Hub можна знайсці ў вэб-кансолі OpenShift, у раздзеле community-аператараў. Такім чынам, адміністратар OpenShift можа задаць, што якія адпавядаюць праекты OpenShift ставяцца да катэгорыі «праект Open Data Hub». Гэта робіцца адзін раз. Пасля гэтага дата-аналітык праз вэб-кансоль OpenShift заходзіць у свае праектныя прастору і бачыць, што для яго праектаў усталяваны і даступны які адпавядае Kubernetes-аператар. Затым ён стварае асобнік праекту Open Data Hub адной пстрычкай мышы і адразу ж атрымлівае доступ да вышэйапісаных прылад. І ўсё гэта можна наладзіць у рэжыме высокай даступнасці і адмоваўстойлівасці.

Праект Open Data Hub - адкрытая платформа машыннага навучання на базе Red Hat OpenShift

Калі вы хочаце сваімі рукамі паспрабаваць праект Open Data Hub, пачніце з інструкцый па ўстаноўцы і ўступнага падручніка. Тэхнічныя падрабязнасці архітэктуры Open Data Hub можна знайсці тут, планы развіцця праекта – тут. У будучыні плануецца рэалізаваць дадатковая інтэграцыю з Kubeflow, вырашыць шэраг пытанняў з рэгуляваннем даных і бяспекай, а таксама арганізаваць інтэграцыю з сістэмамі на аснове правіл Drools і Optaplanner. Выказаць сваё меркаванне і стаць удзельнікам праекту Адкрыты цэнтр даных можна на старонцы супольнасці.

Рэзюмуем: сур'ёзныя праблемы з маштабаваннем перашкаджаюць арганізацыям у поўнай меры рэалізаваць патэнцыял штучнага інтэлекту і машыннага навучання. Red Hat OpenShift даўно і паспяхова прымяняецца для вырашэння падобных праблем у софтвернай галіны. Праект Open Data Hub, рэалізаваны ў рамках супольнасці распрацоўкі ў адчыненым кодам, прапануе эталонную архітэктуру для арганізацыі поўнага цыклу аперацый AI/ML на базе гібрыднага аблокі OpenShift. У нас ёсць дакладны і прадуманы план развіцця гэтага праекта, і мы сур'ёзна настроены стварыць вакол яго актыўную і плённую супольнасць распрацоўкі адкрытых AI-рашэнняў на платформе OpenShift.

Крыніца: habr.com

Дадаць каментар