2018 թվականին MLOps-ի հայեցակարգը հայտնվեց մասնագիտական շրջանակներում և արհեստական ինտելեկտին նվիրված թեմատիկ կոնֆերանսներում, որն արագորեն տարածվեց արդյունաբերության մեջ և այժմ զարգանում է որպես անկախ ուղղություն: Ապագայում MLO-ները կարող են դառնալ ՏՏ ոլորտում ամենահայտնի ոլորտներից մեկը: Ի՞նչ է այն և ինչո՞վ է այն ուտվում, կիմանանք ստորև։
Ինչ է MLOps-ը
MLOps-ը (համատեղում է մեքենայական ուսուցման տեխնոլոգիաները և գործընթացները և մշակված մոդելները բիզնես գործընթացներում ներդնելու մոտեցումները) բիզնեսի ներկայացուցիչների, գիտնականների, մաթեմատիկոսների, մեքենայական ուսուցման մասնագետների և ՏՏ ինժեներների միջև համագործակցության նոր միջոց է արհեստական ինտելեկտի համակարգեր ստեղծելիս:
Այլ կերպ ասած, դա մեքենայական ուսուցման մեթոդներն ու տեխնոլոգիաները բիզնեսի խնդիրների լուծման համար օգտակար գործիք դարձնելու միջոց է։
Պետք է հասկանալ, որ արտադրողականության շղթան սկսվում է մոդելի մշակումից շատ առաջ։ Դրա առաջին քայլն է սահմանել բիզնես խնդիր, վարկած այն արժեքի մասին, որը կարելի է արդյունահանել տվյալներից և բիզնես գաղափար՝ այն կիրառելու համար:
MLOps-ի գաղափարն առաջացել է որպես DevOps-ի հայեցակարգի անալոգիա՝ կապված մեքենայական ուսուցման մոդելների և տեխնոլոգիաների հետ: DevOps-ը ծրագրային ապահովման մշակման մոտեցում է, որը թույլ է տալիս բարձրացնել անհատական փոփոխությունների իրականացման արագությունը՝ միաժամանակ պահպանելով ճկունությունն ու հուսալիությունը՝ օգտագործելով մի շարք մոտեցումներ, ներառյալ շարունակական զարգացումը, գործառույթների բաժանումը մի շարք անկախ միկրոծառայությունների, ավտոմատացված թեստավորումը և անհատականության տեղակայումը: փոփոխություններ, գլոբալ առողջության մոնիտորինգ, հայտնաբերված խափանումների արագ արձագանքման համակարգ և այլն:
DevOps-ը սահմանել է ծրագրաշարի կյանքի ցիկլը, և համայնքը հանդես է եկել նույն մեթոդաբանությունը մեծ տվյալների վրա կիրառելու գաղափարով: DataOps-ը մեթոդաբանությունը հարմարեցնելու և ընդլայնելու փորձ է՝ հաշվի առնելով տարբեր և փոխգործունակ հարթակներում մեծ քանակությամբ տվյալների պահպանման, փոխանցման և մշակման առանձնահատկությունները:
Ձեռնարկությունների բիզնես գործընթացներում ներդրված մեքենայական ուսուցման մոդելների որոշակի կրիտիկական զանգվածի հայտնվելով, նկատվեց ուժեղ նմանություն մաթեմատիկական մեքենայական ուսուցման մոդելների կյանքի ցիկլի և ծրագրային ապահովման կյանքի ցիկլի միջև: Միակ տարբերությունն այն է, որ մոդելային ալգորիթմները ստեղծվում են մեքենայական ուսուցման գործիքների և մեթոդների միջոցով: Հետևաբար, գաղափարը, բնականաբար, առաջացավ կիրառել և հարմարեցնել արդեն հայտնի մոտեցումները ծրագրային ապահովման մշակման համար մեքենայական ուսուցման մոդելների համար: Այսպիսով, մեքենայական ուսուցման մոդելների կյանքի ցիկլի մեջ կարելի է առանձնացնել հետևյալ հիմնական փուլերը.
- բիզնես գաղափարի սահմանում;
- մոդելային ուսուցում;
- մոդելի փորձարկում և ներդրում բիզնես գործընթացում.
- մոդելի շահագործում.
Երբ շահագործման ընթացքում անհրաժեշտություն է առաջանում փոխել կամ վերապատրաստել մոդելը նոր տվյալների վրա, ցիկլը նորից սկսվում է. մոդելը զտվում է, փորձարկվում և տեղադրվում է նոր տարբերակը:
Նահանջ. Ինչու՞ վերապատրաստվել և չվերապատրաստվել: «Մոդելի վերապատրաստում» տերմինը կրկնակի նշանակություն ունի. փորձագետների շրջանում դա նշանակում է մոդելի թերություն, երբ մոդելը լավ է կանխատեսում, իրականում կրկնում է ուսուցման հավաքածուի կանխատեսված պարամետրը, բայց արտաքին տվյալների ընտրանքում շատ ավելի վատ է գործում: Բնականաբար, նման մոդելը թերություն է, քանի որ այս թերությունը թույլ չի տալիս դրա օգտագործումը։
Այս կյանքի ցիկլում տրամաբանական է թվում օգտագործել DevOps գործիքները՝ ավտոմատացված թեստավորում, տեղակայում և մոնիտորինգ, մոդելային հաշվարկների նախագծում առանձին միկրոծառայությունների տեսքով: Բայց կան նաև մի շարք առանձնահատկություններ, որոնք կանխում են այս գործիքների ուղղակի օգտագործումը՝ առանց լրացուցիչ ML-ի կապի:
Ինչպես անել, որ մոդելները աշխատեն և շահութաբեր լինեն
Որպես օրինակ, որտեղ մենք կցուցադրենք MLOps մոտեցման օգտագործումը, մենք կվերցնենք բանկային (կամ որևէ այլ) արտադրանքի համար չաթի աջակցության ռոբոտիզացման դասական առաջադրանքը: Սովորաբար, զրույցի աջակցության բիզնես գործընթացն ունի հետևյալ տեսքը. հաճախորդը մուտքագրում է հաղորդագրություն՝ հարցով չաթում և ստանում պատասխան մասնագետից նախապես սահմանված երկխոսության ծառի շրջանակներում: Նման զրույցի ավտոմատացման խնդիրը սովորաբար լուծվում է փորձագիտականորեն սահմանված կանոնների միջոցով, որոնք շատ աշխատատար են մշակելու և պահպանելու համար: Նման ավտոմատացման արդյունավետությունը, կախված առաջադրանքի բարդության մակարդակից, կարող է լինել 20–30%: Բնականաբար, միտք է ծագում, որ ավելի շահավետ է արհեստական ինտելեկտի մոդուլի ներդրումը` մեքենայական ուսուցման միջոցով մշակված մոդել, որը.
- կարողանում է մշակել ավելի մեծ թվով հարցումներ՝ առանց օպերատորի մասնակցության (կախված թեմայից, որոշ դեպքերում արդյունավետությունը կարող է հասնել 70–80%).
- ավելի լավ է հարմարվում երկխոսության ոչ ստանդարտ ձևակերպմանը - ի վիճակի է որոշել օգտագործողի մտադրությունը, իրական ցանկությունը ոչ հստակ ձևակերպված խնդրանքի հիման վրա.
- գիտի, թե ինչպես որոշել, թե երբ է մոդելի պատասխանը համարժեք, և երբ կասկածներ կան այս պատասխանի «իրազեկության» վերաբերյալ, և դուք պետք է լրացուցիչ պարզաբանող հարց տաք կամ անցնեք օպերատորին.
- կարող է լրացուցիչ վերապատրաստվել ավտոմատ կերպով (մի խումբ մշակողների փոխարեն, որոնք անընդհատ հարմարեցնում և ուղղում են պատասխանների սկրիպտները, մոդելը լրացուցիչ վերապատրաստվում է Տվյալների գիտության մասնագետի կողմից՝ օգտագործելով համապատասխան մեքենայական ուսուցման գրադարանները):
Ինչպե՞ս անել, որ նման առաջադեմ մոդելը աշխատի:
Ինչպես ցանկացած այլ խնդիր լուծելու դեպքում, նման մոդուլ մշակելուց առաջ անհրաժեշտ է սահմանել բիզնես գործընթաց և պաշտոնապես նկարագրել կոնկրետ առաջադրանքը, որը մենք կլուծենք՝ օգտագործելով մեքենայական ուսուցման մեթոդը: Այս պահին սկսվում է գործառնականացման գործընթացը, որը նշանակված է Ops հապավումով:
Հաջորդ քայլն այն է, որ Data Scientist-ը, համագործակցելով Data Engineer-ի հետ, ստուգում է տվյալների առկայությունն ու բավարարությունը և բիզնես գաղափարի կենսունակության մասին բիզնես վարկածը, մշակում է նախատիպի մոդել և փորձարկում դրա իրական արդյունավետությունը: Միայն բիզնեսի կողմից հաստատվելուց հետո կարող է սկսվել անցումը մոդելի մշակումից դեպի այն համակարգերին ինտեգրելը, որոնք իրականացնում են կոնկրետ բիզնես գործընթաց: Իրականացման վերջնական պլանավորումը, յուրաքանչյուր փուլում խորը ըմբռնումը, թե ինչպես կօգտագործվի մոդելը և ինչ տնտեսական ազդեցություն կունենա այն, ընկերության տեխնոլոգիական լանդշաֆտում MLOps մոտեցումների ներդրման գործընթացի հիմնարար կետն է:
AI տեխնոլոգիաների զարգացման հետ մեկտեղ, մեքենայական ուսուցման միջոցով լուծվող խնդիրների քանակն ու բազմազանությունը աճում է երկրաչափական մակարդակով: Յուրաքանչյուր նման բիզնես գործընթաց խնայողություն է ընկերության համար՝ շնորհիվ զանգվածային աշխատողների աշխատանքի ավտոմատացման (զանգերի կենտրոն, փաստաթղթերի ստուգում և տեսակավորում և այլն), դա հաճախորդների բազայի ընդլայնում է՝ ավելացնելով նոր գրավիչ և հարմար գործառույթներ, այն։ գումար է խնայում դրանց օպտիմալ օգտագործման և ռեսուրսների վերաբաշխման շնորհիվ և շատ ավելին: Ի վերջո, ցանկացած գործընթաց ուղղված է արժեք ստեղծելուն և արդյունքում պետք է որոշակի տնտեսական էֆեկտ բերի։ Այստեղ շատ կարևոր է հստակ ձևակերպել բիզնես գաղափարը և հաշվարկել ակնկալվող շահույթը մոդելի ներդրումից ընկերության ընդհանուր արժեքի ստեղծման կառուցվածքում: Կան իրավիճակներ, երբ մոդելի ներդրումն իրեն չի արդարացնում, և մեքենայական ուսուցման մասնագետների ծախսած ժամանակը շատ ավելի թանկ է, քան այս առաջադրանքն իրականացնող օպերատորի աշխատավայրը: Այդ իսկ պատճառով անհրաժեշտ է փորձել բացահայտել նման դեպքերը AI համակարգերի ստեղծման վաղ փուլերում։
Հետևաբար, մոդելները սկսում են շահույթ ստանալ միայն այն դեպքում, երբ բիզնեսի խնդիրը MLOps գործընթացում ճիշտ ձևակերպված է, առաջնահերթություններ են սահմանվում և մոդելը համակարգում ներդնելու գործընթացը ձևակերպվում է զարգացման վաղ փուլերում:
Նոր գործընթաց՝ նոր մարտահրավերներ
Բիզնեսի հիմնարար հարցի համապարփակ պատասխանն այն մասին, թե որքանով են կիրառելի ML մոդելները խնդիրների լուծման համար, AI-ի նկատմամբ վստահության ընդհանուր խնդիրը MLOps մոտեցումների մշակման և ներդրման գործընթացի հիմնական մարտահրավերներից է: Սկզբում բիզնեսները թերահավատորեն են վերաբերվում մեքենայական ուսուցման գործընթացների ներդրմանը. դժվար է ապավինել մոդելներին այն վայրերում, որտեղ նախկինում, որպես կանոն, մարդիկ աշխատել են: Բիզնեսի համար ծրագրերը կարծես «սև արկղ» են, որոնց արդիականությունը դեռ պետք է ապացուցվի: Բացի այդ, բանկային, հեռահաղորդակցության օպերատորների և այլ ոլորտներում կան պետական կարգավորող մարմինների խիստ պահանջներ: Բոլոր համակարգերն ու ալգորիթմները, որոնք ներդրվում են բանկային գործընթացներում, ենթակա են աուդիտի: Այս խնդիրը լուծելու, բիզնեսին և կարգավորող մարմիններին ապացուցելու արհեստական ինտելեկտի պատասխանների վավերականությունն ու ճիշտությունը, մոդելի հետ մեկտեղ ներդրվում են մոնիտորինգի գործիքներ: Բացի այդ, գոյություն ունի կարգավորող մոդելների համար պարտադիր վավերացման անկախ ընթացակարգ, որը համապատասխանում է Կենտրոնական բանկի պահանջներին: Անկախ փորձագիտական խումբը ստուգում է մոդելի կողմից ստացված արդյունքները՝ հաշվի առնելով մուտքային տվյալները:
Երկրորդ մարտահրավերը մեքենայական ուսուցման մոդելի ներդրման ժամանակ մոդելի ռիսկերի գնահատումն ու հաշվի առնելն է: Եթե անգամ մարդը չի կարող հարյուր տոկոսանոց վստահությամբ պատասխանել՝ այդ նույն զգեստը սպիտակ էր, թե կապույտ, ապա արհեստական ինտելեկտը նույնպես սխալվելու իրավունք ունի։ Արժե նաև հաշվի առնել, որ տվյալները կարող են փոխվել ժամանակի ընթացքում, և մոդելները պետք է վերապատրաստվեն՝ բավականաչափ ճշգրիտ արդյունք ստանալու համար: Ապահովելու համար, որ բիզնես գործընթացը չի տուժի, անհրաժեշտ է կառավարել մոդելի ռիսկերը և վերահսկել մոդելի կատարումը՝ պարբերաբար վերապատրաստելով այն նոր տվյալների վրա:
Բայց անվստահության առաջին փուլից հետո հակառակ էֆեկտը սկսում է ի հայտ գալ։ Որքան շատ մոդելներ հաջողությամբ ներդրվեն գործընթացներում, այնքան մեծանում է բիզնեսի ախորժակը արհեստական ինտելեկտի կիրառման նկատմամբ. հայտնաբերվում են նոր և նոր խնդիրներ, որոնք կարող են լուծվել մեքենայական ուսուցման մեթոդների միջոցով: Յուրաքանչյուր առաջադրանք առաջացնում է մի ամբողջ գործընթաց, որը պահանջում է որոշակի իրավասություններ.
- տվյալների ինժեներները պատրաստում և մշակում են տվյալները.
- տվյալների գիտնականները օգտագործում են մեքենայական ուսուցման գործիքներ և մշակում մոդել.
- ՏՏ-ն մոդելը ներդրում է համակարգում.
- ML ինժեները որոշում է, թե ինչպես ճիշտ ինտեգրել այս մոդելը գործընթացին, ՏՏ որ գործիքներն օգտագործել՝ կախված մոդելի կիրառման եղանակի պահանջներից՝ հաշվի առնելով հարցումների հոսքը, արձագանքման ժամանակը և այլն:
- ML ճարտարապետը նախագծում է, թե ինչպես կարող է ծրագրային արտադրանքը ֆիզիկապես ներդրվել արդյունաբերական համակարգում:
Ամբողջ ցիկլը պահանջում է մեծ թվով բարձր որակավորում ունեցող մասնագետներ։ ML մոդելների բիզնես գործընթացների մշակման և ներթափանցման որոշակի կետում պարզվում է, որ մասնագետների թվի գծային մասշտաբը առաջադրանքների քանակի ավելացմանը համաչափ դառնում է թանկ և անարդյունավետ: Հետևաբար, հարց է առաջանում MLOps գործընթացի ավտոմատացման մասին՝ մեքենայական ուսուցման խնդիրների մի քանի ստանդարտ դասերի սահմանում, տվյալների մշակման ստանդարտ խողովակաշարերի մշակում և մոդելների լրացուցիչ ուսուցում: Իդեալական պատկերի դեպքում, նման խնդիրների լուծումը պահանջում է մասնագետներ, որոնք հավասարապես տիրապետում են մեծ տվյալների, տվյալների գիտության, DevOps-ի և ՏՏ-ի իրավասություններին: Հետևաբար, տվյալների գիտության ոլորտում ամենամեծ խնդիրը և MLOps գործընթացների կազմակերպման ամենամեծ մարտահրավերը նման իրավասության բացակայությունն է առկա վերապատրաստման շուկայում: Այս պահանջներին համապատասխանող մասնագետները ներկայումս հազվադեպ են աշխատաշուկայում և արժեն իրենց քաշը ոսկով:
իրավասությունների հարցով
Տեսականորեն, MLOps-ի բոլոր առաջադրանքները կարող են լուծվել դասական DevOps գործիքների միջոցով և առանց դերի մոդելի մասնագիտացված ընդլայնման դիմելու: Այնուհետև, ինչպես վերևում նշեցինք, տվյալների գիտնականը պետք է լինի ոչ միայն մաթեմատիկոս և տվյալների վերլուծաբան, այլև ամբողջ խողովակաշարի գուրու. նա պատասխանատու է ճարտարապետության մշակման, մի քանի լեզուներով մոդելների ծրագրավորման համար՝ կախված ճարտարապետությունից, պատրաստելու համար: տվյալների մշակում և ինքնին հավելվածի տեղակայում: Այնուամենայնիվ, վերջնական MLOps գործընթացում ներդրված տեխնոլոգիական շրջանակի ստեղծումը պահանջում է աշխատուժի ծախսերի մինչև 80%-ը, ինչը նշանակում է, որ որակյալ մաթեմատիկոսը, ով որակյալ տվյալների գիտաշխատող է, իր ժամանակի միայն 20%-ը կհատկացնի իր մասնագիտությանը։ . Հետևաբար, մեքենայական ուսուցման մոդելների ներդրման գործընթացում ներգրավված մասնագետների դերերի սահմանումը կենսական է դառնում:
Թե որքան մանրամասն պետք է ուրվագծվեն դերերը, կախված է ձեռնարկության չափից: Մի բան է, երբ ստարտափն ունի մեկ մասնագետ՝ էներգիայի պաշարում աշխատասեր, ով իր սեփական ինժեներն է, ճարտարապետը և DevOps-ը: Բոլորովին այլ հարց է, երբ խոշոր ձեռնարկությունում մոդելի մշակման բոլոր գործընթացները կենտրոնացած են տվյալների գիտության մի քանի բարձր մակարդակի մասնագետների վրա, մինչդեռ ծրագրավորողը կամ տվյալների բազայի մասնագետը, որն ավելի տարածված և ավելի քիչ ծախսատար իրավասություն է աշխատաշուկայում, կարող է ունենալ: աշխատանքի մեծ մասի վրա սովորական առաջադրանքներ.
Այսպիսով, մշակված մոդելների արագությունն ու որակը, թիմի արտադրողականությունը և դրա միկրոկլիման ուղղակիորեն կախված են նրանից, թե որտեղ է սահմանը գտնվում MLOps գործընթացին աջակցելու համար մասնագետների ընտրության մեջ և ինչպես է կազմակերպվում մշակված մոդելների գործարկման գործընթացը: .
Այն, ինչ մեր թիմն արդեն արել է
Մենք վերջերս սկսեցինք կառուցել իրավասությունների կառուցվածք և MLOps գործընթացներ: Բայց մոդելների կյանքի ցիկլի կառավարման և մոդելները որպես ծառայություն օգտագործելու մեր նախագծերն արդեն MVP-ի փորձարկման փուլում են:
Մենք նաև որոշեցինք խոշոր ձեռնարկության իրավասությունների օպտիմալ կառուցվածքը և գործընթացի բոլոր մասնակիցների միջև փոխգործակցության կազմակերպչական կառուցվածքը: Կազմակերպվեցին արագաշարժ թիմեր՝ բիզնես հաճախորդների ողջ շրջանակի համար խնդիրները լուծելու համար, և ստեղծվեց ծրագրի թիմերի հետ փոխգործակցության գործընթաց՝ հարթակներ և ենթակառուցվածքներ ստեղծելու համար, որը հանդիսանում է կառուցվող MLOps շենքի հիմքը:
Հարցեր ապագայի համար
MLOps-ը աճող տարածք է, որը իրավասությունների պակաս է զգում և ապագայում թափ է հավաքելու: Միևնույն ժամանակ, ավելի լավ է հիմնվել DevOps-ի զարգացումների և պրակտիկայի վրա: MLOps-ի հիմնական նպատակն է առավել արդյունավետ օգտագործել ՓԼ մոդելները՝ բիզնես խնդիրների լուծման համար: Բայց սա բազմաթիվ հարցեր է առաջացնում.
- Ինչպե՞ս կրճատել մոդելների արտադրության մեջ թողարկելու ժամանակը:
- Ինչպե՞ս նվազեցնել բյուրոկրատական շփումը տարբեր իրավասությունների թիմերի միջև և մեծացնել համագործակցության վրա կենտրոնացումը:
- Ինչպե՞ս հետևել մոդելներին, կառավարել տարբերակները և կազմակերպել արդյունավետ մոնիտորինգ:
- Ինչպե՞ս ստեղծել իսկապես շրջանաձև կյանքի ցիկլ ժամանակակից ML մոդելի համար:
- Ինչպե՞ս ստանդարտացնել մեքենայական ուսուցման գործընթացը:
Այս հարցերի պատասխանները մեծապես կորոշեն, թե որքան արագ MLO-ները կհասնեն իրենց ողջ ներուժին:
Source: www.habr.com