Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Келечек келди, жасалма интеллект жана машина үйрөнүү технологиялары сиздин сүйүктүү дүкөндөрүңүз, транспорт компаниялары жана атүгүл түрк чарбалары тарабынан ийгиликтүү колдонулуп жатат.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Ал эми бир нерсе бар болсо, анда Интернетте бул тууралуу бир нерсе бар ... ачык долбоор! Open Data Hub жаңы технологияларды масштабдоо жана ишке ашыруудагы кыйынчылыктардан кантип качууга жардам бергенин көрүңүз.

Жасалма интеллекттин (AI) жана машинаны үйрөнүүнүн (ML) бардык артыкчылыктары менен, уюмдар бул технологияларды масштабдоодо көп кыйынчылыктарга туш болушат. Бул учурда негизги көйгөйлөр, адатта, төмөнкүлөр болуп саналат:

  • Маалымат алмашуу жана кызматташуу – маалымат менен оңой алмашуу жана тез итерацияларда кызматташуу дээрлик мүмкүн эмес.
  • Берилиштерге жетүү – ар бир тапшырма үчүн аны жаңыдан жана кол менен куруу керек, бул көп убакытты талап кылат.
  • Талап боюнча кирүү – машина үйрөнүү куралдарына жана платформасына, ошондой эле эсептөө инфраструктурасына талап боюнча жетүү мүмкүнчүлүгү жок.
  • Өндүрүш – моделдер прототип стадиясында калып, өнөр жайлык колдонууга киргизилбейт.
  • AI натыйжаларына көз салып, түшүндүрүңүз – AI/ML натыйжаларын кайталоо, көзөмөлдөө жана түшүндүрүү кыйын.

Чечилбей калган бул көйгөйлөр баалуу маалымат окумуштууларынын ылдамдыгына, натыйжалуулугуна жана өндүрүмдүүлүгүнө терс таасирин тийгизет. Бул алардын нааразычылыгына, жумушунан көңүл калуусуна алып келет жана натыйжада AI/MLге байланыштуу бизнес күтүүлөр текке кетет.

Бул көйгөйлөрдү чечүү үчүн жоопкерчилик IT адистерине жүктөлөт, алар аналитиктерге маалымат бериши керек - бул булут сыяктуу нерсе. Көбүрөөк айтканда, бизге тандоо эркиндигин берген жана ыңгайлуу, оңой жетүү мүмкүнчүлүгү бар платформа керек. Ошол эле учурда, ал тез, оңой конфигурациялануучу, суроо-талап боюнча масштабдуу жана бузулууларга туруктуу. Мындай платформаны ачык булак технологияларында куруу сатуучуларга бөгөт коюудан качууга жана чыгымдарды көзөмөлдөө жагынан узак мөөнөттүү стратегиялык артыкчылыкты сактоого жардам берет.

Бир нече жыл мурун, тиркемелерди иштеп чыгууда ушуга окшош нерсе болуп, микросервистердин, гибриддик булуттардын, IT автоматизациясынын жана ийкемдүү процесстердин пайда болушуна алып келген. Мунун баарын жеңүү үчүн IT адистери контейнерлерге, Кубернеттерге жана ачык гибриддик булуттарга кайрылышты.

Бул тажрыйба азыр Алдын чакырыктарына жооп берүү үчүн колдонулууда. Ошондуктан IT адистери контейнерге негизделген платформаларды куруп жатышат, алар ийкемдүү процесстердин алкагында AI/ML кызматтарын түзүүгө мүмкүндүк берет, инновацияларды тездетет жана гибриддик булутту көздөй курулууда.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Биз мындай платформаны Red Hat OpenShift менен кура баштайбыз, гибриддик булут үчүн контейнерлештирилген Kubernetes платформабыз, программалык жана аппараттык ML чечимдеринин (NVIDIA, H2O.ai, Starburst, PerceptiLabs ж.б.) тез өсүп жаткан экосистемасына ээ. Red Hatтин айрым кардарлары, мисалы, BMW Group, ExxonMobil жана башкалар, ML архитектурасын өндүрүшкө алып келүү жана маалымат талдоочуларынын ишин тездетүү үчүн платформанын жана анын экосистемасынын үстүнө контейнердик ML инструменттерин жана DevOps процесстерин жайгаштырышкан.

Open Data Hub долбоорун ишке киргизгенибиздин дагы бир себеби - бир нече ачык булактуу программалык камсыздоо долбоорлоруна негизделген архитектуранын үлгүсүн көрсөтүү жана OpenShift платформасынын негизинде ML чечиминин бүт жашоо циклин кантип ишке ашырууну көрсөтүү.

Open Data Hub долбоору

Бул ачык булактуу долбоор, ал тиешелүү өнүктүрүү коомчулугунда иштелип чыккан жана OpenShiftдеги контейнерлерди жана Кубернеттерди колдонуу менен AI / ML көйгөйлөрүн чечүүдө баштапкы маалыматтарды жүктөө жана трансформациялоодон баштап моделди түзүүгө, окутууга жана тейлөөгө чейин операциялардын толук циклин ишке ашырат. платформа. Бул долбоорду маалымдама ишке ашыруу, OpenShift жана Tensorflow, JupyterHub, Spark жана башкалар сыяктуу ачык булак куралдарына негизделген ачык AI/ML-сервис чечимин куруунун мисалы катары караса болот. Red Hat өзү бул долбоорду өзүнүн AI/ML кызматтарын көрсөтүү үчүн колдоноорун белгилей кетүү маанилүү. Мындан тышкары, OpenShift NVIDIA, Seldon, Starbust жана башка сатуучулардын негизги программалык жана аппараттык ML чечимдери менен интеграцияланып, өзүңүздүн машина үйрөнүү системаларыңызды курууну жана иштетүүнү жеңилдетет.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Open Data Hub долбоору колдонуучулардын төмөнкү категорияларына жана колдонуу учурларына багытталган:

  • Өзүн-өзү тейлөө функциялары менен булут сыяктуу уюштурулган ML долбоорлорун ишке ашыруу үчүн чечимге муктаж болгон аналитик.
  • Акыркы ачык булактуу AI/ML инструменттеринен жана платформаларынан максималдуу тандоону талап кылган маалымат талдоочусу.
  • Моделдерди окутууда маалымат булактарына кирүү мүмкүнчүлүгүн талап кылган маалымат талдоочусу.
  • Эсептөө ресурстарына (CPU, GPU, эс тутум) кирүү керек болгон маалымат талдоочусу.
  • Кесиптештер менен иштешүү жана ишти бөлүшүү, пикирлерди алуу жана тез итерацияда жакшыртууларды жасоо жөндөмүн талап кылган маалымат аналитиги.
  • Анын ML моделдери жана иш натыйжалары өндүрүшкө кириши үчүн иштеп чыгуучулар (жана иштеп чыгуучу топтор) менен иштешүүнү каалаган маалымат аналитиги.
  • Ченемдик жана коопсуздук талаптарын сактоо менен маалымат аналитигине ар кандай маалымат булактарына кирүү мүмкүнчүлүгүн бериши керек болгон маалымат инженери.
  • Ачык булак компоненттеринин жана технологияларынын жашоо циклин (орнотуу, конфигурациялоо, жаңыртуу) оңой башкаруу мүмкүнчүлүгүн талап кылган IT тутумунун администратору/оператору. Бизге ошондой эле тиешелүү башкаруу жана квота куралдары керек.

Open Data Hub долбоору AI/ML операцияларынын толук циклин ишке ашыруу үчүн бир катар ачык булак куралдарын бириктирет. Jupyter Notebook бул жерде маалыматтарды талдоо үчүн негизги жумушчу курал катары колдонулат. Куралдар топтому бүгүнкү күндө маалымат илимпоздорунун арасында кеңири популярдуу жана Open Data Hub аларга JupyterHub орнотулган JupyterHub аркылуу Jupyter Notebook жумушчу мейкиндиктерин оңой түзүүгө жана башкарууга мүмкүндүк берет. Jupyter дептерлерин түзүү жана импорттоодон тышкары, Open Data Hub долбоору AI китепканасы түрүндөгү бир катар даяр дептерлерди камтыйт.

Бул китепкана ачык булактуу машина үйрөнүү компоненттеринин жана тез прототипти жөнөкөйлөтүүчү жалпы сценарийлер үчүн чечимдердин жыйындысы. JupyterHub OpenShift'тин RBAC кирүү модели менен интеграцияланган, бул сизге учурдагы OpenShift каттоо эсептерин колдонууга жана бир жолу кирүүнү ишке ашырууга мүмкүндүк берет. Мындан тышкары, JupyterHub spawner деп аталган ыңгайлуу колдонуучу интерфейсин сунуштайт, анын жардамы менен колдонуучу тандалган Jupyter Notebook үчүн эсептөө ресурстарынын көлөмүн (CPU өзөктөрү, эс тутум, GPU) оңой конфигурациялай алат.

Маалымат талдоочу ноутбукту түзүп, конфигурациялагандан кийин, ага байланыштуу башка бардык көйгөйлөр OpenShiftтин бир бөлүгү болгон Kubernetes пландоочусу тарабынан чечилет. Колдонуучулар эксперименттерин гана жүргүзө алышат, ишинин натыйжаларын сактап жана бөлүшө алышат. Кошумчалай кетсек, алдыңкы колдонуучулар OpenShift CLI кабыгына түздөн-түз Jupyter ноутбуктарынан түздөн-түз кире алышат, мисалы, Job же OpenShift функциялары, мисалы, Tekton же Knative сыяктуу Kubernetes примитивдерин колдонуу. Же бул үчүн сиз OpenShiftтин “OpenShift веб консолу” деп аталган ыңгайлуу GUI колдонсоңуз болот.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Кийинки этапка өтүп, Open Data Hub маалымат түтүктөрүн башкарууга мүмкүндүк берет. Бул үчүн, S3 шайкеш объект маалымат сактагычы катары берилген Ceph объекти колдонулат. Apache Spark тышкы булактардан же орнотулган Ceph S3 сактагычынан маалыматтарды агылтууга мүмкүндүк берет, ошондой эле алдын ала маалыматтарды трансформациялоого мүмкүндүк берет. Apache Kafka маалымат түтүктөрүн өркүндөтүлгөн башкарууну камсыз кылат (мында маалыматтар бир нече жолу жүктөлүшү мүмкүн, ошондой эле маалыматтарды трансформациялоо, талдоо жана туруктуулук операциялары).

Ошентип, маалымат талдоочу маалыматтарга кирип, моделин курду. Эми анын кесиптештери же тиркеме иштеп чыгуучулары менен алган натыйжалары менен бөлүшкүсү келип, аларга кызматтын принциптери боюнча өзүнүн моделин берүүнү каалайт. Бул жыйынтыктоочу серверди талап кылат жана Open Data Hub мындай серверге ээ, ал Seldon деп аталат жана моделди RESTful кызматы катары жарыялоого мүмкүндүк берет.

Кайсы бир учурда, Seldon серверинде бир нече ушундай моделдер бар жана алар кандайча колдонулуп жатканын көзөмөлдөө зарыл. Буга жетишүү үчүн Open Data Hub тиешелүү метрикалардын жыйнагын жана кеңири колдонулган Prometheus жана Grafana ачык булак мониторинг куралдарына негизделген отчеттук кыймылдаткычты сунуштайт. Натыйжада, биз AI моделдерин, айрыкча өндүрүш чөйрөсүндө колдонууну көзөмөлдөө үчүн пикирлерди алабыз.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Ушундай жол менен, Open Data Hub AI/ML өмүр циклинин бүтүндөй булут сыяктуу мамилени камсыз кылат, маалыматтарга жетүү жана даярдоодон баштап моделди окутууга жана өндүрүшкө чейин.

Баарын чогултуу

Эми OpenShift администратору үчүн мунун баарын кантип уюштуруу керек деген суроо туулат. Бул жерде Open Data Hub долбоорлору үчүн атайын Kubernetes оператору ишке кирет.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Бул оператор Open Data Hub долбоорун орнотууну, конфигурациялоону жана жашоо циклин башкарат, анын ичинде JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus жана Grafana сыяктуу жогоруда айтылган инструменттерди жайылтуу. Open Data Hub долбоорун OpenShift веб консолунан, коомчулуктун операторлору бөлүмүнөн тапса болот. Ошентип, OpenShift администратору тиешелүү OpenShift долбоорлору "Open Data Hub долбоору" катары категорияга бөлүнөрүн көрсөтө алат. Бул бир жолу жасалат. Андан кийин, маалымат талдоочу OpenShift веб консолу аркылуу өзүнүн долбоор мейкиндигине кирип, тиешелүү Kubernetes оператору орнотулганын жана анын долбоорлору үчүн жеткиликтүү экенин көрөт. Андан кийин ал бир чыкылдатуу менен Open Data Hub долбоорунун инстанциясын түзөт жана дароо жогоруда сүрөттөлгөн куралдарга кире алат. Жана мунун бардыгын жогорку жеткиликтүүлүк жана катага сабырдуулук режиминде конфигурациялоого болот.

Open Data Hub долбоору Red Hat OpenShift негизиндеги ачык машина үйрөнүү платформасы

Эгерде сиз Open Data Hub долбоорун өзүңүз үчүн сынап көрүүнү кааласаңыз, андан баштаңыз орнотуу көрсөтмөлөрү жана киришүү окуу куралы. Open Data Hub архитектурасынын техникалык деталдарын тапса болот бул жерде, долбоорду өнүктүрүү пландары – бул жерде. Келечекте биз Kubeflow менен кошумча интеграцияны ишке ашырууну, маалыматтарды жөнгө салуу жана коопсуздук боюнча бир катар маселелерди чечүүнү, ошондой эле эрежелерге негизделген Drools жана Optaplanner системалары менен интеграцияны уюштурууну пландап жатабыз. Пикириңизди билдирип, долбоордун катышуучусу болуңуз Open Data Hub бетте мүмкүн коомчулук.

Эскерте кетсек: масштабдуу масштабдагы олуттуу көйгөйлөр уюмдарга жасалма интеллекттин жана машина үйрөнүүнүн толук мүмкүнчүлүктөрүн ишке ашырууга тоскоол болууда. Red Hat OpenShift көптөн бери программалык камсыздоо тармагындагы ушул сыяктуу көйгөйлөрдү чечүү үчүн ийгиликтүү колдонулуп келет. Ачык булакты иштеп чыгуу коомчулугунун алкагында ишке ашырылган Open Data Hub долбоору OpenShift гибрид булутунун негизинде AI/ML операцияларынын толук циклин уюштуруу үчүн маалымдама архитектурасын сунуштайт. Бизде бул долбоорду өнүктүрүүнүн так жана ойлонулган планы бар жана биз OpenShift платформасында ачык AI чечимдерин иштеп чыгуу үчүн анын тегерегинде активдүү жана жемиштүү коомчулукту түзүүгө олуттуу карайбыз.

Source: www.habr.com

Комментарий кошуу