MLOps. DevOps-ը մեքենայական ուսուցման աշխարհում

2018 թվականին MLOps-ի հայեցակարգը հայտնվեց մասնագիտական ​​շրջանակներում և արհեստական ​​ինտելեկտին նվիրված թեմատիկ կոնֆերանսներում, որն արագորեն տարածվեց արդյունաբերության մեջ և այժմ զարգանում է որպես անկախ ուղղություն: Ապագայում MLO-ները կարող են դառնալ ՏՏ ոլորտում ամենահայտնի ոլորտներից մեկը: Ի՞նչ է այն և ինչո՞վ է այն ուտվում, կիմանանք ստորև։

MLOps. DevOps-ը մեքենայական ուսուցման աշխարհում

Ինչ է MLOps-ը

MLOps-ը (համատեղում է մեքենայական ուսուցման տեխնոլոգիաները և գործընթացները և մշակված մոդելները բիզնես գործընթացներում ներդնելու մոտեցումները) բիզնեսի ներկայացուցիչների, գիտնականների, մաթեմատիկոսների, մեքենայական ուսուցման մասնագետների և ՏՏ ինժեներների միջև համագործակցության նոր միջոց է արհեստական ​​ինտելեկտի համակարգեր ստեղծելիս:

Այլ կերպ ասած, դա մեքենայական ուսուցման մեթոդներն ու տեխնոլոգիաները բիզնեսի խնդիրների լուծման համար օգտակար գործիք դարձնելու միջոց է։ 

Պետք է հասկանալ, որ արտադրողականության շղթան սկսվում է մոդելի մշակումից շատ առաջ։ Դրա առաջին քայլն է սահմանել բիզնես խնդիր, վարկած այն արժեքի մասին, որը կարելի է արդյունահանել տվյալներից և բիզնես գաղափար՝ այն կիրառելու համար: 

MLOps-ի գաղափարն առաջացել է որպես DevOps-ի հայեցակարգի անալոգիա՝ կապված մեքենայական ուսուցման մոդելների և տեխնոլոգիաների հետ: DevOps-ը ծրագրային ապահովման մշակման մոտեցում է, որը թույլ է տալիս բարձրացնել անհատական ​​փոփոխությունների իրականացման արագությունը՝ միաժամանակ պահպանելով ճկունությունն ու հուսալիությունը՝ օգտագործելով մի շարք մոտեցումներ, ներառյալ շարունակական զարգացումը, գործառույթների բաժանումը մի շարք անկախ միկրոծառայությունների, ավտոմատացված թեստավորումը և անհատականության տեղակայումը: փոփոխություններ, գլոբալ առողջության մոնիտորինգ, հայտնաբերված խափանումների արագ արձագանքման համակարգ և այլն: 

DevOps-ը սահմանել է ծրագրաշարի կյանքի ցիկլը, և համայնքը հանդես է եկել նույն մեթոդաբանությունը մեծ տվյալների վրա կիրառելու գաղափարով: DataOps-ը մեթոդաբանությունը հարմարեցնելու և ընդլայնելու փորձ է՝ հաշվի առնելով տարբեր և փոխգործունակ հարթակներում մեծ քանակությամբ տվյալների պահպանման, փոխանցման և մշակման առանձնահատկությունները:
  
Ձեռնարկությունների բիզնես գործընթացներում ներդրված մեքենայական ուսուցման մոդելների որոշակի կրիտիկական զանգվածի հայտնվելով, նկատվեց ուժեղ նմանություն մաթեմատիկական մեքենայական ուսուցման մոդելների կյանքի ցիկլի և ծրագրային ապահովման կյանքի ցիկլի միջև: Միակ տարբերությունն այն է, որ մոդելային ալգորիթմները ստեղծվում են մեքենայական ուսուցման գործիքների և մեթոդների միջոցով: Հետևաբար, գաղափարը, բնականաբար, առաջացավ կիրառել և հարմարեցնել արդեն հայտնի մոտեցումները ծրագրային ապահովման մշակման համար մեքենայական ուսուցման մոդելների համար: Այսպիսով, մեքենայական ուսուցման մոդելների կյանքի ցիկլի մեջ կարելի է առանձնացնել հետևյալ հիմնական փուլերը.

  • բիզնես գաղափարի սահմանում;
  • մոդելային ուսուցում;
  • մոդելի փորձարկում և ներդրում բիզնես գործընթացում.
  • մոդելի շահագործում.

Երբ շահագործման ընթացքում անհրաժեշտություն է առաջանում փոխել կամ վերապատրաստել մոդելը նոր տվյալների վրա, ցիկլը նորից սկսվում է. մոդելը զտվում է, փորձարկվում և տեղադրվում է նոր տարբերակը:

Նահանջ. Ինչու՞ վերապատրաստվել և չվերապատրաստվել: «Մոդելի վերապատրաստում» տերմինը կրկնակի նշանակություն ունի. փորձագետների շրջանում դա նշանակում է մոդելի թերություն, երբ մոդելը լավ է կանխատեսում, իրականում կրկնում է ուսուցման հավաքածուի կանխատեսված պարամետրը, բայց արտաքին տվյալների ընտրանքում շատ ավելի վատ է գործում: Բնականաբար, նման մոդելը թերություն է, քանի որ այս թերությունը թույլ չի տալիս դրա օգտագործումը։

Այս կյանքի ցիկլում տրամաբանական է թվում օգտագործել DevOps գործիքները՝ ավտոմատացված թեստավորում, տեղակայում և մոնիտորինգ, մոդելային հաշվարկների նախագծում առանձին միկրոծառայությունների տեսքով: Բայց կան նաև մի շարք առանձնահատկություններ, որոնք կանխում են այս գործիքների ուղղակի օգտագործումը՝ առանց լրացուցիչ ML-ի կապի:

MLOps. DevOps-ը մեքենայական ուսուցման աշխարհում

Ինչպես անել, որ մոդելները աշխատեն և շահութաբեր լինեն

Որպես օրինակ, որտեղ մենք կցուցադրենք MLOps մոտեցման օգտագործումը, մենք կվերցնենք բանկային (կամ որևէ այլ) արտադրանքի համար չաթի աջակցության ռոբոտիզացման դասական առաջադրանքը: Սովորաբար, զրույցի աջակցության բիզնես գործընթացն ունի հետևյալ տեսքը. հաճախորդը մուտքագրում է հաղորդագրություն՝ հարցով չաթում և ստանում պատասխան մասնագետից նախապես սահմանված երկխոսության ծառի շրջանակներում: Նման զրույցի ավտոմատացման խնդիրը սովորաբար լուծվում է փորձագիտականորեն սահմանված կանոնների միջոցով, որոնք շատ աշխատատար են մշակելու և պահպանելու համար: Նման ավտոմատացման արդյունավետությունը, կախված առաջադրանքի բարդության մակարդակից, կարող է լինել 20–30%: Բնականաբար, միտք է ծագում, որ ավելի շահավետ է արհեստական ​​ինտելեկտի մոդուլի ներդրումը` մեքենայական ուսուցման միջոցով մշակված մոդել, որը.

  • կարողանում է մշակել ավելի մեծ թվով հարցումներ՝ առանց օպերատորի մասնակցության (կախված թեմայից, որոշ դեպքերում արդյունավետությունը կարող է հասնել 70–80%).
  • ավելի լավ է հարմարվում երկխոսության ոչ ստանդարտ ձևակերպմանը - ի վիճակի է որոշել օգտագործողի մտադրությունը, իրական ցանկությունը ոչ հստակ ձևակերպված խնդրանքի հիման վրա.
  • գիտի, թե ինչպես որոշել, թե երբ է մոդելի պատասխանը համարժեք, և երբ կասկածներ կան այս պատասխանի «իրազեկության» վերաբերյալ, և դուք պետք է լրացուցիչ պարզաբանող հարց տաք կամ անցնեք օպերատորին.
  • կարող է լրացուցիչ վերապատրաստվել ավտոմատ կերպով (մի խումբ մշակողների փոխարեն, որոնք անընդհատ հարմարեցնում և ուղղում են պատասխանների սկրիպտները, մոդելը լրացուցիչ վերապատրաստվում է Տվյալների գիտության մասնագետի կողմից՝ օգտագործելով համապատասխան մեքենայական ուսուցման գրադարանները): 

MLOps. DevOps-ը մեքենայական ուսուցման աշխարհում

Ինչպե՞ս անել, որ նման առաջադեմ մոդելը աշխատի: 

Ինչպես ցանկացած այլ խնդիր լուծելու դեպքում, նման մոդուլ մշակելուց առաջ անհրաժեշտ է սահմանել բիզնես գործընթաց և պաշտոնապես նկարագրել կոնկրետ առաջադրանքը, որը մենք կլուծենք՝ օգտագործելով մեքենայական ուսուցման մեթոդը: Այս պահին սկսվում է գործառնականացման գործընթացը, որը նշանակված է Ops հապավումով: 

Հաջորդ քայլն այն է, որ Data Scientist-ը, համագործակցելով Data Engineer-ի հետ, ստուգում է տվյալների առկայությունն ու բավարարությունը և բիզնես գաղափարի կենսունակության մասին բիզնես վարկածը, մշակում է նախատիպի մոդել և փորձարկում դրա իրական արդյունավետությունը: Միայն բիզնեսի կողմից հաստատվելուց հետո կարող է սկսվել անցումը մոդելի մշակումից դեպի այն համակարգերին ինտեգրելը, որոնք իրականացնում են կոնկրետ բիզնես գործընթաց: Իրականացման վերջնական պլանավորումը, յուրաքանչյուր փուլում խորը ըմբռնումը, թե ինչպես կօգտագործվի մոդելը և ինչ տնտեսական ազդեցություն կունենա այն, ընկերության տեխնոլոգիական լանդշաֆտում MLOps մոտեցումների ներդրման գործընթացի հիմնարար կետն է:

AI տեխնոլոգիաների զարգացման հետ մեկտեղ, մեքենայական ուսուցման միջոցով լուծվող խնդիրների քանակն ու բազմազանությունը աճում է երկրաչափական մակարդակով: Յուրաքանչյուր նման բիզնես գործընթաց խնայողություն է ընկերության համար՝ շնորհիվ զանգվածային աշխատողների աշխատանքի ավտոմատացման (զանգերի կենտրոն, փաստաթղթերի ստուգում և տեսակավորում և այլն), դա հաճախորդների բազայի ընդլայնում է՝ ավելացնելով նոր գրավիչ և հարմար գործառույթներ, այն։ գումար է խնայում դրանց օպտիմալ օգտագործման և ռեսուրսների վերաբաշխման շնորհիվ և շատ ավելին: Ի վերջո, ցանկացած գործընթաց ուղղված է արժեք ստեղծելուն և արդյունքում պետք է որոշակի տնտեսական էֆեկտ բերի։ Այստեղ շատ կարևոր է հստակ ձևակերպել բիզնես գաղափարը և հաշվարկել ակնկալվող շահույթը մոդելի ներդրումից ընկերության ընդհանուր արժեքի ստեղծման կառուցվածքում: Կան իրավիճակներ, երբ մոդելի ներդրումն իրեն չի արդարացնում, և մեքենայական ուսուցման մասնագետների ծախսած ժամանակը շատ ավելի թանկ է, քան այս առաջադրանքն իրականացնող օպերատորի աշխատավայրը: Այդ իսկ պատճառով անհրաժեշտ է փորձել բացահայտել նման դեպքերը AI համակարգերի ստեղծման վաղ փուլերում։

Հետևաբար, մոդելները սկսում են շահույթ ստանալ միայն այն դեպքում, երբ բիզնեսի խնդիրը MLOps գործընթացում ճիշտ ձևակերպված է, առաջնահերթություններ են սահմանվում և մոդելը համակարգում ներդնելու գործընթացը ձևակերպվում է զարգացման վաղ փուլերում:

Նոր գործընթաց՝ նոր մարտահրավերներ

Բիզնեսի հիմնարար հարցի համապարփակ պատասխանն այն մասին, թե որքանով են կիրառելի ML մոդելները խնդիրների լուծման համար, AI-ի նկատմամբ վստահության ընդհանուր խնդիրը MLOps մոտեցումների մշակման և ներդրման գործընթացի հիմնական մարտահրավերներից է: Սկզբում բիզնեսները թերահավատորեն են վերաբերվում մեքենայական ուսուցման գործընթացների ներդրմանը. դժվար է ապավինել մոդելներին այն վայրերում, որտեղ նախկինում, որպես կանոն, մարդիկ աշխատել են: Բիզնեսի համար ծրագրերը կարծես «սև արկղ» են, որոնց արդիականությունը դեռ պետք է ապացուցվի: Բացի այդ, բանկային, հեռահաղորդակցության օպերատորների և այլ ոլորտներում կան պետական ​​կարգավորող մարմինների խիստ պահանջներ: Բոլոր համակարգերն ու ալգորիթմները, որոնք ներդրվում են բանկային գործընթացներում, ենթակա են աուդիտի: Այս խնդիրը լուծելու, բիզնեսին և կարգավորող մարմիններին ապացուցելու արհեստական ​​ինտելեկտի պատասխանների վավերականությունն ու ճիշտությունը, մոդելի հետ մեկտեղ ներդրվում են մոնիտորինգի գործիքներ: Բացի այդ, գոյություն ունի կարգավորող մոդելների համար պարտադիր վավերացման անկախ ընթացակարգ, որը համապատասխանում է Կենտրոնական բանկի պահանջներին: Անկախ փորձագիտական ​​խումբը ստուգում է մոդելի կողմից ստացված արդյունքները՝ հաշվի առնելով մուտքային տվյալները:

Երկրորդ մարտահրավերը մեքենայական ուսուցման մոդելի ներդրման ժամանակ մոդելի ռիսկերի գնահատումն ու հաշվի առնելն է: Եթե ​​անգամ մարդը չի կարող հարյուր տոկոսանոց վստահությամբ պատասխանել՝ այդ նույն զգեստը սպիտակ էր, թե կապույտ, ապա արհեստական ​​ինտելեկտը նույնպես սխալվելու իրավունք ունի։ Արժե նաև հաշվի առնել, որ տվյալները կարող են փոխվել ժամանակի ընթացքում, և մոդելները պետք է վերապատրաստվեն՝ բավականաչափ ճշգրիտ արդյունք ստանալու համար: Ապահովելու համար, որ բիզնես գործընթացը չի տուժի, անհրաժեշտ է կառավարել մոդելի ռիսկերը և վերահսկել մոդելի կատարումը՝ պարբերաբար վերապատրաստելով այն նոր տվյալների վրա:

MLOps. DevOps-ը մեքենայական ուսուցման աշխարհում

Բայց անվստահության առաջին փուլից հետո հակառակ էֆեկտը սկսում է ի հայտ գալ։ Որքան շատ մոդելներ հաջողությամբ ներդրվեն գործընթացներում, այնքան մեծանում է բիզնեսի ախորժակը արհեստական ​​ինտելեկտի կիրառման նկատմամբ. հայտնաբերվում են նոր և նոր խնդիրներ, որոնք կարող են լուծվել մեքենայական ուսուցման մեթոդների միջոցով: Յուրաքանչյուր առաջադրանք առաջացնում է մի ամբողջ գործընթաց, որը պահանջում է որոշակի իրավասություններ.

  • տվյալների ինժեներները պատրաստում և մշակում են տվյալները.
  • տվյալների գիտնականները օգտագործում են մեքենայական ուսուցման գործիքներ և մշակում մոդել.
  • ՏՏ-ն մոդելը ներդրում է համակարգում.
  • ML ինժեները որոշում է, թե ինչպես ճիշտ ինտեգրել այս մոդելը գործընթացին, ՏՏ որ գործիքներն օգտագործել՝ կախված մոդելի կիրառման եղանակի պահանջներից՝ հաշվի առնելով հարցումների հոսքը, արձագանքման ժամանակը և այլն: 
  • ML ճարտարապետը նախագծում է, թե ինչպես կարող է ծրագրային արտադրանքը ֆիզիկապես ներդրվել արդյունաբերական համակարգում:

Ամբողջ ցիկլը պահանջում է մեծ թվով բարձր որակավորում ունեցող մասնագետներ։ ML մոդելների բիզնես գործընթացների մշակման և ներթափանցման որոշակի կետում պարզվում է, որ մասնագետների թվի գծային մասշտաբը առաջադրանքների քանակի ավելացմանը համաչափ դառնում է թանկ և անարդյունավետ: Հետևաբար, հարց է առաջանում MLOps գործընթացի ավտոմատացման մասին՝ մեքենայական ուսուցման խնդիրների մի քանի ստանդարտ դասերի սահմանում, տվյալների մշակման ստանդարտ խողովակաշարերի մշակում և մոդելների լրացուցիչ ուսուցում: Իդեալական պատկերի դեպքում, նման խնդիրների լուծումը պահանջում է մասնագետներ, որոնք հավասարապես տիրապետում են մեծ տվյալների, տվյալների գիտության, DevOps-ի և ՏՏ-ի իրավասություններին: Հետևաբար, տվյալների գիտության ոլորտում ամենամեծ խնդիրը և MLOps գործընթացների կազմակերպման ամենամեծ մարտահրավերը նման իրավասության բացակայությունն է առկա վերապատրաստման շուկայում: Այս պահանջներին համապատասխանող մասնագետները ներկայումս հազվադեպ են աշխատաշուկայում և արժեն իրենց քաշը ոսկով:

իրավասությունների հարցով

Տեսականորեն, MLOps-ի բոլոր առաջադրանքները կարող են լուծվել դասական DevOps գործիքների միջոցով և առանց դերի մոդելի մասնագիտացված ընդլայնման դիմելու: Այնուհետև, ինչպես վերևում նշեցինք, տվյալների գիտնականը պետք է լինի ոչ միայն մաթեմատիկոս և տվյալների վերլուծաբան, այլև ամբողջ խողովակաշարի գուրու. նա պատասխանատու է ճարտարապետության մշակման, մի քանի լեզուներով մոդելների ծրագրավորման համար՝ կախված ճարտարապետությունից, պատրաստելու համար: տվյալների մշակում և ինքնին հավելվածի տեղակայում: Այնուամենայնիվ, վերջնական MLOps գործընթացում ներդրված տեխնոլոգիական շրջանակի ստեղծումը պահանջում է աշխատուժի ծախսերի մինչև 80%-ը, ինչը նշանակում է, որ որակյալ մաթեմատիկոսը, ով որակյալ տվյալների գիտաշխատող է, իր ժամանակի միայն 20%-ը կհատկացնի իր մասնագիտությանը։ . Հետևաբար, մեքենայական ուսուցման մոդելների ներդրման գործընթացում ներգրավված մասնագետների դերերի սահմանումը կենսական է դառնում: 

Թե որքան մանրամասն պետք է ուրվագծվեն դերերը, կախված է ձեռնարկության չափից: Մի բան է, երբ ստարտափն ունի մեկ մասնագետ՝ էներգիայի պաշարում աշխատասեր, ով իր սեփական ինժեներն է, ճարտարապետը և DevOps-ը: Բոլորովին այլ հարց է, երբ խոշոր ձեռնարկությունում մոդելի մշակման բոլոր գործընթացները կենտրոնացած են տվյալների գիտության մի քանի բարձր մակարդակի մասնագետների վրա, մինչդեռ ծրագրավորողը կամ տվյալների բազայի մասնագետը, որն ավելի տարածված և ավելի քիչ ծախսատար իրավասություն է աշխատաշուկայում, կարող է ունենալ: աշխատանքի մեծ մասի վրա սովորական առաջադրանքներ.

Այսպիսով, մշակված մոդելների արագությունն ու որակը, թիմի արտադրողականությունը և դրա միկրոկլիման ուղղակիորեն կախված են նրանից, թե որտեղ է սահմանը գտնվում MLOps գործընթացին աջակցելու համար մասնագետների ընտրության մեջ և ինչպես է կազմակերպվում մշակված մոդելների գործարկման գործընթացը: .

Այն, ինչ մեր թիմն արդեն արել է

Մենք վերջերս սկսեցինք կառուցել իրավասությունների կառուցվածք և MLOps գործընթացներ: Բայց մոդելների կյանքի ցիկլի կառավարման և մոդելները որպես ծառայություն օգտագործելու մեր նախագծերն արդեն MVP-ի փորձարկման փուլում են:

Մենք նաև որոշեցինք խոշոր ձեռնարկության իրավասությունների օպտիմալ կառուցվածքը և գործընթացի բոլոր մասնակիցների միջև փոխգործակցության կազմակերպչական կառուցվածքը: Կազմակերպվեցին արագաշարժ թիմեր՝ բիզնես հաճախորդների ողջ շրջանակի համար խնդիրները լուծելու համար, և ստեղծվեց ծրագրի թիմերի հետ փոխգործակցության գործընթաց՝ հարթակներ և ենթակառուցվածքներ ստեղծելու համար, որը հանդիսանում է կառուցվող MLOps շենքի հիմքը:

Հարցեր ապագայի համար

MLOps-ը աճող տարածք է, որը իրավասությունների պակաս է զգում և ապագայում թափ է հավաքելու: Միևնույն ժամանակ, ավելի լավ է հիմնվել DevOps-ի զարգացումների և պրակտիկայի վրա: MLOps-ի հիմնական նպատակն է առավել արդյունավետ օգտագործել ՓԼ մոդելները՝ բիզնես խնդիրների լուծման համար: Բայց սա բազմաթիվ հարցեր է առաջացնում.

  • Ինչպե՞ս կրճատել մոդելների արտադրության մեջ թողարկելու ժամանակը:
  • Ինչպե՞ս նվազեցնել բյուրոկրատական ​​շփումը տարբեր իրավասությունների թիմերի միջև և մեծացնել համագործակցության վրա կենտրոնացումը:
  • Ինչպե՞ս հետևել մոդելներին, կառավարել տարբերակները և կազմակերպել արդյունավետ մոնիտորինգ:
  • Ինչպե՞ս ստեղծել իսկապես շրջանաձև կյանքի ցիկլ ժամանակակից ML մոդելի համար:
  • Ինչպե՞ս ստանդարտացնել մեքենայական ուսուցման գործընթացը:

Այս հարցերի պատասխանները մեծապես կորոշեն, թե որքան արագ MLO-ները կհասնեն իրենց ողջ ներուժին:

Source: www.habr.com

Добавить комментарий