Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Ապագան եկել է, և արհեստական ​​ինտելեկտը և մեքենայական ուսուցման տեխնոլոգիաները արդեն հաջողությամբ օգտագործվում են ձեր սիրելի խանութների, տրանսպորտային ընկերությունների և նույնիսկ հնդկահավերի ֆերմաների կողմից:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Իսկ եթե ինչ-որ բան կա, ուրեմն ինտերնետում արդեն կա դրա մասին... բաց նախագիծ։ Տեսեք, թե ինչպես է Open Data Hub-ն օգնում ձեզ ընդլայնել նոր տեխնոլոգիաները և խուսափել իրականացման մարտահրավերներից:

Արհեստական ​​ինտելեկտի (AI) և մեքենայական ուսուցման (ML) բոլոր առավելություններով՝ կազմակերպությունները հաճախ դժվարանում են չափել այս տեխնոլոգիաները: Այս դեպքում հիմնական խնդիրները սովորաբար հետևյալն են.

  • Տեղեկատվության փոխանակում և համագործակցություն – գրեթե անհնար է տեղեկատվություն փոխանակել առանց ջանքերի և համագործակցել արագ կրկնությունների մեջ:
  • Տվյալների հասանելիություն – յուրաքանչյուր առաջադրանքի համար այն պետք է կառուցվի նորովի և ձեռքով, ինչը շատ ժամանակ է պահանջում:
  • Մուտք ըստ պահանջի – մեքենայական ուսուցման գործիքներին և հարթակին, ինչպես նաև հաշվողական ենթակառուցվածքին ըստ պահանջի հասանելիություն ստանալու միջոց չկա:
  • Արտադրություն – մոդելները մնում են նախատիպի փուլում և չեն բերվում արդյունաբերական օգտագործման:
  • Հետևեք և բացատրեք AI արդյունքները – AI/ML արդյունքների վերարտադրելիությունը, հետևելը և բացատրելը դժվար է:

Չլուծված մնալով՝ այս խնդիրները բացասաբար են անդրադառնում արժեքավոր տվյալների գիտնականների արագության, արդյունավետության և արտադրողականության վրա: Սա հանգեցնում է նրանց հիասթափության, հիասթափության իրենց աշխատանքից, և արդյունքում՝ AI/ML-ի վերաբերյալ բիզնեսի ակնկալիքները վատնում են:

Այս խնդիրների լուծման պատասխանատվությունը ընկնում է ՏՏ մասնագետների վրա, որոնք պետք է տվյալների վերլուծաբաններին տրամադրեն՝ ճիշտ է, ամպի նման մի բան: Ավելի մանրամասն, մեզ անհրաժեշտ է այնպիսի հարթակ, որը տալիս է ընտրության ազատություն և ունի հարմար, հեշտ մուտք: Միևնույն ժամանակ, այն արագ է, հեշտությամբ վերակազմավորվող, ըստ պահանջի մասշտաբային և խափանումների դիմացկուն: Բաց կոդով տեխնոլոգիաների վրա նման հարթակի ստեղծումն օգնում է խուսափել վաճառողի արգելափակումից և պահպանել երկարաժամկետ ռազմավարական առավելություն ծախսերի վերահսկման առումով:

Մի քանի տարի առաջ նման բան տեղի էր ունենում հավելվածների մշակման մեջ և հանգեցրեց միկրոծառայությունների, հիբրիդային ամպերի, ՏՏ ավտոմատացման և արագաշարժ գործընթացների առաջացմանը: Այս ամենին դիմակայելու համար ՏՏ մասնագետները դիմել են կոնտեյներներին, Kubernetes-ին և բաց հիբրիդային ամպերին։

Այս փորձը այժմ կիրառվում է Ալի մարտահրավերներին պատասխանելու համար: Ահա թե ինչու ՏՏ մասնագետները կառուցում են հարթակներ, որոնք հիմնված են կոնտեյներների վրա, թույլ են տալիս ստեղծել AI/ML ծառայություններ արագաշարժ գործընթացներում, արագացնում են նորարարությունը և կառուցված են հիբրիդային ամպի նկատմամբ:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Մենք կսկսենք կառուցել նման հարթակ Red Hat OpenShift-ի միջոցով՝ մեր բեռնարկղային Kubernetes պլատֆորմը հիբրիդային ամպի համար, որն ունի ծրագրային և ապարատային ML լուծումների արագ աճող էկոհամակարգ (NVIDIA, H2O.ai, Starburst, PerceptiLabs և այլն): Red Hat-ի որոշ հաճախորդներ, ինչպիսիք են BMW Group-ը, ExxonMobil-ը և այլք, արդեն տեղակայել են կոնտեյներային ML գործիքների շղթաներ և DevOps գործընթացներ հարթակի և դրա էկոհամակարգի վերևում՝ իրենց ML ճարտարապետությունները արտադրության բերելու և տվյալների վերլուծաբանների աշխատանքը արագացնելու համար:

Մեկ այլ պատճառ, թե ինչու մենք գործարկեցինք Open Data Hub նախագիծը, մի քանի բաց կոդով ծրագրային նախագծերի վրա հիմնված ճարտարապետության օրինակ ցուցադրելն է և ցույց տալ, թե ինչպես կարելի է իրականացնել ML լուծման ողջ կյանքի ցիկլը՝ հիմնված OpenShift հարթակի վրա:

Open Data Hub Project

Սա բաց կոդով նախագիծ է, որը մշակված է զարգացման համապատասխան համայնքում և իրականացնում է գործողությունների ամբողջական ցիկլ՝ սկզբնական տվյալների բեռնումից և փոխակերպումից մինչև մոդելի ստեղծում, ուսուցում և պահպանում, երբ AI/ML խնդիրները լուծելիս՝ օգտագործելով կոնտեյներներ և Kubernetes OpenShift-ում: հարթակ. Այս նախագիծը կարելի է համարել հղման իրականացում, օրինակ, թե ինչպես կարելի է ստեղծել բաց AI/ML-որպես ծառայություն լուծում՝ հիմնված OpenShift-ի և հարակից բաց կոդով գործիքների վրա, ինչպիսիք են Tensorflow, JupyterHub, Spark և այլն: Կարևոր է նշել, որ Red Hat-ն ինքը օգտագործում է այս նախագիծը՝ իր AI/ML ծառայություններն ապահովելու համար: Բացի այդ, OpenShift-ը ինտեգրվում է NVIDIA-ի, Seldon-ի, Starbust-ի և այլ վաճառողների հիմնական ծրագրային և ապարատային ML լուծումների հետ՝ հեշտացնելով ձեր սեփական մեքենայական ուսուցման համակարգերի ստեղծումն ու գործարկումը:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Open Data Hub նախագիծը կենտրոնացած է օգտվողների հետևյալ կատեգորիաների և օգտագործման դեպքերի վրա.

  • Տվյալների վերլուծաբան, ով լուծում է պահանջում ML նախագծերի իրականացման համար՝ կազմակերպված ինքնասպասարկման գործառույթներով ամպի պես:
  • Տվյալների վերլուծաբան, ով առավելագույն ընտրության կարիք ունի վերջին բաց կոդով AI/ML գործիքներից և հարթակներից:
  • Տվյալների վերլուծաբան, որը մոդելների վերապատրաստման ժամանակ տվյալների աղբյուրների հասանելիության կարիք ունի:
  • Տվյալների վերլուծաբան, ում անհրաժեշտ է մուտք գործել հաշվողական ռեսուրսներ (CPU, GPU, հիշողություն):
  • Տվյալների վերլուծաբան, ով պահանջում է համագործակցելու և գործընկերների հետ աշխատանքը կիսելու, հետադարձ կապ ստանալու և արագ կրկնման մեջ բարելավումներ կատարելու ունակություն:
  • Տվյալների վերլուծաբան, ով ցանկանում է շփվել ծրագրավորողների հետ (և զարգացնել թիմերը), որպեսզի իր ML մոդելները և աշխատանքի արդյունքները թողարկվեն արտադրության մեջ:
  • Տվյալների ինժեներ, ով պետք է տվյալների վերլուծաբանին տրամադրի տվյալների մի շարք աղբյուրների հասանելիություն՝ պահպանելով կարգավորող և անվտանգության պահանջները:
  • ՏՏ համակարգերի ադմինիստրատոր/օպերատոր, ով պահանջում է բաց կոդով բաղադրիչների և տեխնոլոգիաների կյանքի ցիկլը (տեղադրում, կոնֆիգուրացիա, արդիականացում) առանց ջանքերի կառավարելու ունակություն: Մեզ անհրաժեշտ են նաև համապատասխան կառավարման և քվոտավորման գործիքներ։

Open Data Hub նախագիծը միավորում է մի շարք բաց կոդով գործիքներ՝ AI/ML գործառնությունների ամբողջական ցիկլը իրականացնելու համար: Jupyter Notebook-ն այստեղ օգտագործվում է որպես տվյալների վերլուծության հիմնական աշխատանքային գործիք: Գործիքակազմն այսօր լայն տարածում ունի տվյալների գիտնականների շրջանում, և Open Data Hub-ը թույլ է տալիս նրանց հեշտությամբ ստեղծել և կառավարել Jupyter Notebook-ի աշխատանքային տարածքները՝ օգտագործելով ներկառուցված JupyterHub: Բացի Jupyter-ի նոութբուքերի ստեղծումից և ներմուծումից, Open Data Hub նախագիծը պարունակում է նաև մի շարք պատրաստի նոթատետրեր՝ AI գրադարանի տեսքով:

Այս գրադարանը բաց կոդով մեքենայական ուսուցման բաղադրիչների և լուծումների հավաքածու է ընդհանուր սցենարների համար, որոնք պարզեցնում են արագ նախատիպերը: JupyterHub-ը ինտեգրված է OpenShift-ի RBAC մուտքի մոդելի հետ, որը թույլ է տալիս օգտագործել գոյություն ունեցող OpenShift հաշիվները և իրականացնել միայնակ մուտք: Բացի այդ, JupyterHub-ն առաջարկում է օգտագործողի համար հարմար ինտերֆեյս, որը կոչվում է spawner, որի միջոցով օգտատերը կարող է հեշտությամբ կարգավորել հաշվողական ռեսուրսների քանակը (CPU միջուկներ, հիշողություն, GPU) ընտրված Jupyter Notebook-ի համար:

Այն բանից հետո, երբ տվյալների վերլուծաբանը ստեղծում և կարգավորում է նոութբուքը, դրա վերաբերյալ մնացած բոլոր մտահոգությունները հոգում է Kubernetes-ի ժամանակացույցը, որը OpenShift-ի մաս է կազմում: Օգտագործողները կարող են իրականացնել միայն իրենց փորձերը, պահպանել և կիսվել իրենց աշխատանքի արդյունքներով։ Բացի այդ, առաջադեմ օգտվողները կարող են ուղղակիորեն մուտք գործել OpenShift CLI կեղև անմիջապես Jupyter-ի նոթատետրերից՝ օգտագործելու Kubernetes-ի պրիմիտիվները, ինչպիսիք են Job կամ OpenShift գործառույթները, ինչպիսիք են Tekton-ը կամ Knative-ը: Կամ դրա համար կարող եք օգտագործել OpenShift-ի հարմար GUI-ը, որը կոչվում է «OpenShift վեբ վահանակ»:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Անցնելով հաջորդ փուլ՝ Open Data Hub-ը հնարավորություն է տալիս կառավարել տվյալների խողովակաշարերը: Դրա համար օգտագործվում է Ceph օբյեկտ, որը տրամադրվում է որպես S3-ի հետ համատեղելի օբյեկտի տվյալների պահեստ: Apache Spark-ը թույլ է տալիս փոխանցել տվյալներ արտաքին աղբյուրներից կամ ներկառուցված Ceph S3 պահեստից, ինչպես նաև թույլ է տալիս կատարել տվյալների նախնական փոխակերպումներ: Apache Kafka-ն ապահովում է տվյալների խողովակաշարերի առաջադեմ կառավարում (որտեղ տվյալները կարող են բեռնվել մի քանի անգամ, ինչպես նաև տվյալների փոխակերպում, վերլուծություն և կայուն գործողություններ):

Այսպիսով, տվյալների վերլուծաբանը մուտք գործեց տվյալներ և կառուցեց մոդել: Այժմ նա ցանկություն ունի ձեռք բերված արդյունքներով կիսվել գործընկերների կամ հավելվածների մշակողների հետ և նրանց մատուցել ծառայության սկզբունքներով իր մոդելը։ Սա պահանջում է եզրակացության սերվեր, և Open Data Hub-ն ունի այդպիսի սերվեր, այն կոչվում է Seldon և թույլ է տալիս մոդելը հրապարակել որպես RESTful ծառայություն։

Ինչ-որ պահի Seldon սերվերում կան մի քանի նման մոդելներ, և անհրաժեշտություն կա վերահսկել, թե ինչպես են դրանք օգտագործվում: Դրան հասնելու համար Open Data Hub-ն առաջարկում է համապատասխան չափումների հավաքածու և հաշվետվությունների շարժիչ, որը հիմնված է Prometheus և Grafana լայնորեն օգտագործվող բաց կոդով մոնիտորինգի գործիքների վրա: Արդյունքում մենք ստանում ենք հետադարձ կապ՝ վերահսկելու AI մոդելների օգտագործումը, հատկապես արտադրական միջավայրում:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Այս կերպ Open Data Hub-ն ապահովում է ամպի նման մոտեցում AI/ML կյանքի ողջ ցիկլի ընթացքում՝ սկսած տվյալների հասանելիությունից և պատրաստումից մինչև մոդելային ուսուցում և արտադրություն:

Բոլորը միասին դնելով

Այժմ հարց է առաջանում, թե ինչպես կազմակերպել այս ամենը OpenShift ադմինիստրատորի համար։ Եվ հենց այստեղ է գործում Open Data Hub նախագծերի Kubernetes հատուկ օպերատորը:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Այս օպերատորը կառավարում է Open Data Hub նախագծի տեղադրումը, կազմաձևումը և կյանքի ցիկլը, ներառյալ վերոհիշյալ գործիքների տեղակայումը, ինչպիսիք են JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus և Grafana: Open Data Hub նախագիծը կարելի է գտնել OpenShift վեբ վահանակում, համայնքի օպերատորների բաժնում: Այսպիսով, OpenShift-ի ադմինիստրատորը կարող է նշել, որ համապատասխան OpenShift նախագծերը դասակարգվում են որպես «Open Data Hub նախագիծ»: Սա արվում է մեկ անգամ: Դրանից հետո տվյալների վերլուծաբանը OpenShift վեբ վահանակի միջոցով մուտք է գործում իր նախագծային տարածք և տեսնում է, որ համապատասխան Kubernetes օպերատորը տեղադրված է և հասանելի է իր նախագծերի համար: Այնուհետև նա ստեղծում է Open Data Hub նախագծի օրինակ մեկ սեղմումով և անմիջապես մուտք ունի վերը նկարագրված գործիքներին: Եվ այս ամենը կարելի է կարգավորել բարձր հասանելիության և սխալների հանդուրժողականության ռեժիմում:

Open Data Hub նախագիծը բաց մեքենայական ուսուցման հարթակ է, որը հիմնված է Red Hat OpenShift-ի վրա

Եթե ​​ցանկանում եք փորձել Open Data Hub նախագիծը ձեզ համար, սկսեք տեղադրման հրահանգներ և ներածական ձեռնարկ. Բաց տվյալների հանգույցի ճարտարապետության տեխնիկական մանրամասները կարելի է գտնել այստեղԾրագրի զարգացման պլաններ – այստեղ. Ապագայում մենք նախատեսում ենք լրացուցիչ ինտեգրում իրականացնել Kubeflow-ի հետ, լուծել տվյալների կարգավորման և անվտանգության հետ կապված մի շարք խնդիրներ, ինչպես նաև կազմակերպել ինտեգրում կանոնների վրա հիմնված Drools և Optaplanner համակարգերի հետ: Արտահայտե՛ք ձեր կարծիքը և դարձե՛ք նախագծի մասնակից Բացեք տվյալների հանգույցը հնարավոր է էջում համայնք.

Նշենք, որ մասշտաբային լուրջ մարտահրավերները խանգարում են կազմակերպություններին իրացնել արհեստական ​​ինտելեկտի և մեքենայական ուսուցման ողջ ներուժը: Red Hat OpenShift-ը երկար ժամանակ հաջողությամբ օգտագործվում է ծրագրային ապահովման ոլորտում նմանատիպ խնդիրների լուծման համար: Open Data Hub նախագիծը, որն իրականացվում է բաց կոդով մշակման համայնքում, առաջարկում է տեղեկատու ճարտարապետություն՝ AI/ML գործողությունների ամբողջական ցիկլը կազմակերպելու համար՝ հիմնված OpenShift հիբրիդային ամպի վրա: Մենք ունենք հստակ և մտածված ծրագիր այս նախագծի զարգացման համար, և մենք լրջորեն ցանկանում ենք ստեղծել ակտիվ և արդյունավետ համայնք՝ OpenShift հարթակում դրա շուրջ բաց AI լուծումներ մշակելու համար:

Source: www.habr.com

Добавить комментарий