MLOps: DevOps Machine Learning munduan

2018an, MLOps kontzeptua zirkulu profesionaletan eta AIari eskainitako biltzar tematikoetan agertu zen, industrian azkar hartu zuen indarra eta orain norabide independente gisa garatzen ari dena. Etorkizunean, MLOps IT arlo ezagunenetako bat bihur daiteke. Zer da eta zerrekin jaten da?Jakin dezagun jarraian.

MLOps: DevOps Machine Learning munduan

Zer da MLOps

MLOps (ikaskuntza automatikoko teknologiak eta prozesuak eta negozio-prozesuetan garatutako ereduak ezartzeko planteamenduak konbinatzea) negozio-ordezkarien, zientzialarien, matematikarien, ikaskuntza automatikoko espezialisten eta IT ingeniarien arteko lankidetza-modu berri bat da, adimen artifizialaren sistemak sortzerakoan.

Beste era batera esanda, ikaskuntza automatikoko metodoak eta teknologiak negozio-arazoak konpontzeko tresna baliagarri bihurtzeko modu bat da. 

Ulertu behar da produktibitatearen katea eredua garatu baino askoz lehenago hasten dela. Bere lehen urratsa negozio-arazo bat, datuetatik atera daitekeen balioari buruzko hipotesi bat eta aplikatzeko negozio-ideia bat definitzea da. 

MLOps kontzeptua bera DevOps kontzeptuaren analogia gisa sortu zen ikaskuntza automatikoko eredu eta teknologiekin lotuta. DevOps software garapenerako ikuspegi bat da, aldaketa indibidualen ezarpenaren abiadura handitzeko aukera ematen duena, malgutasuna eta fidagarritasuna mantenduz, hainbat ikuspegi erabiliz, besteak beste, etengabeko garapena, funtzioak mikrozerbitzu independente batzuetan banatzea, proba automatizatuak eta banakako hedapena. aldaketak, osasunaren jarraipena globala, hautemandako hutsegiteetarako erantzun azkar sistema, etab. 

DevOps-ek softwarearen bizi-zikloa definitu du, eta komunitateak big datari metodologia bera aplikatzea bururatu zaio. DataOps metodologia egokitzeko eta zabaltzeko saiakera bat da datu kopuru handiak gordetzeko, transmititzeko eta prozesatzeko plataforma askotariko eta elkarreragingarrietan dauden ezaugarriak kontuan hartuta.
  
Enpresen negozio-prozesuetan inplementatutako makina-ikasketa-ereduen masa kritiko jakin baten etorrerarekin, antzekotasun handia nabaritu zen ikaskuntza-makinen eredu matematikoen bizi-zikloaren eta softwarearen bizi-zikloaren artean. Desberdintasun bakarra da eredu-algoritmoak ikaskuntza automatikoko tresnak eta metodoak erabiliz sortzen direla. Hori dela eta, modu naturalean sortu zen ikaskuntza automatikoko ereduetarako softwarearen garapenean jada ezagutzen diren ikuspegiak aplikatzeko eta egokitzeko ideia. Beraz, ikaskuntza automatikoko ereduen bizitza-zikloan funtsezko fase hauek bereiz daitezke:

  • negozio-ideia definitzea;
  • ereduzko prestakuntza;
  • eredua negozio-prozesuan probatzea eta ezartzea;
  • ereduaren funtzionamendua.

Funtzionamenduan zehar eredua datu berrietan aldatu edo trebatu beharra dagoenean, zikloa berriro hasten da - eredua findu, probatu eta bertsio berri bat zabaltzen da.

Erretiroa. Zergatik birziklatzea eta ez birziklatzea? "Ereduen birziklatze" terminoak esanahi bikoitza du: adituen artean ereduaren akatsa esan nahi du, ereduak ondo aurreikusten duenean, benetan aurreikusitako parametroa errepikatzen du prestakuntza-multzoan, baina kanpoko datuen laginean askoz okerragoa da. Jakina, eredu hori akats bat da, akats horrek ez baitu bere erabilera onartzen.

Bizi-ziklo honetan, logikoa dirudi DevOps tresnak erabiltzea: proba automatikoak, hedapena eta monitorizazioa, ereduen kalkuluak diseinatzea mikrozerbitzu bereizi moduan. Baina ML lotespen gehigarririk gabe tresna hauen erabilera zuzena eragozten duten ezaugarri batzuk ere badaude.

MLOps: DevOps Machine Learning munduan

Nola egin ereduak funtzionatu eta errentagarriak izan

MLOps ikuspegiaren erabilera erakutsiko dugun adibide gisa, banku-produktu baterako (edo beste edozein) txat euskarria robotizatzeko zeregin klasikoa hartuko dugu. Normalean, txat-laguntzako negozio-prozesu batek itxura hau du: bezero batek txat batean galdera batekin mezu bat sartzen du eta espezialista baten erantzuna jasotzen du aurrez zehaztutako elkarrizketa-zuhaitz batean. Halako txat bat automatizatzeko zeregina adituek definitutako arau-multzoen bidez konpontzen da normalean, garatzeko eta mantentzeko oso lan intentsiboa dutenak. Automatizazio horren eraginkortasuna, zereginaren konplexutasun mailaren arabera, % 20-30 izan daiteke. Jakina, adimen artifizialaren modulua sartzea errentagarriagoa dela ideia sortzen da, ikasketa automatikoa erabiliz garatutako eredua, hau da:

  • gai da eskari kopuru handiagoa prozesatzeko operadorearen parte-hartzerik gabe (gaiaren arabera, kasu batzuetan eraginkortasuna %70-80ra irits daiteke);
  • hobeto egokitzen da elkarrizketako hitz ez-estandarretara - argi formulatu gabeko eskaera batean oinarrituta erabiltzailearen asmoa, benetako nahia zehazteko gai da;
  • badaki ereduaren erantzuna egokia noiz den zehazten, eta erantzun horren β€œkontzientziaren” inguruan zalantzak daudenean eta galdera argigarri gehigarri bat egin behar duzunean edo operadorearengana aldatu behar duzunean;
  • Gainera, automatikoki entrenatu daiteke (garatzaile talde batek erantzun scriptak etengabe egokitu eta zuzentzen beharrean, eredua Datu Zientzietako espezialista batek trebatzen du ikaskuntza automatikoko liburutegi egokiak erabiliz). 

MLOps: DevOps Machine Learning munduan

Nola egin horren funtzionamendu eredu aurreratu bat? 

Beste edozein arazo konpontzearekin gertatzen den bezala, halako modulu bat garatu aurretik, negozio-prozesu bat definitu eta formalki deskribatu behar da machine learning metodoa erabiliz ebatziko dugun zeregin zehatza. Une honetan, operatibatze-prozesua hasten da, Ops siglek izendatzen dutena. 

Hurrengo urratsa da Data Scientist-ek, Datuen Ingeniariarekin elkarlanean, datuen erabilgarritasuna eta nahikotasuna egiaztatzea eta negozio-ideiaren bideragarritasunari buruzko negozio-hipotesia, prototipo-eredu bat garatuz eta benetako eraginkortasuna probatuz. Negozioak baieztatu ondoren soilik hasi daiteke eredu bat garatzetik negozio prozesu zehatz bat egiten duten sistemetan integratzera igarotzea. Muturreko ezarpenaren plangintza, eredua nola erabiliko den eta zer eragin ekonomiko ekarriko duen fase bakoitzean sakon ulertzea, oinarrizko puntua da MLOps ikuspegiak enpresaren panorama teknologikoan sartzeko prozesuetan.

AI teknologien garapenarekin, ikaskuntza automatikoa erabiliz ebatzi daitezkeen arazoen kopurua eta askotarikotasuna esponentzialki handitzen ari da. Horrelako negozio-prozesu bakoitza aurrezkia da enpresarentzat, langileen lanaren automatizazioaren ondorioz, masa-postuetan (dei-zentroa, dokumentuak egiaztatzea eta ordenatzea, etab.), bezero-basearen hedapena da, funtzio erakargarri eta eroso berriak gehituz. , dirua aurrezten ari da baliabideen erabilera eta birbanaketa optimoagatik eta askoz gehiago. Azken batean, edozein prozesu balioa sortzera bideratzen da eta, ondorioz, eragin ekonomiko jakin bat ekarri behar du. Hemen oso garrantzitsua da negozio-ideia argi eta garbi formulatzea eta eredua enpresaren balioa sortzeko egitura orokorrean ezartzearen ondorioz espero den irabazia kalkulatzea. Eredu bat ezartzeak bere burua justifikatzen ez duen egoerak daude, eta ikaskuntza automatikoko espezialistek emandako denbora zeregin hori egiten duen operadorearen lantokia baino askoz garestiagoa da. Horregatik beharrezkoa da horrelako kasuak identifikatzen saiatu AI sistemak sortzeko lehen faseetan.

Ondorioz, ereduak irabaziak sortzen hasten dira soilik negozio-arazoa MLOps prozesuan behar bezala formulatu denean, lehentasunak ezarri eta eredua sisteman sartzeko prozesua garapenaren hasierako faseetan formulatu denean.

Prozesu berria - erronka berriak

Arazoak konpontzeko ML ereduak nola aplikagarri direnei buruzko negozioaren oinarrizko galderari erantzun integrala, AIarekiko konfiantzaren arazo orokorra da MLOps planteamenduak garatzeko eta ezartzeko prozesuan funtsezko erronketako bat. Hasieran, negozioak eszeptikoak dira ikaskuntza automatikoa prozesuetan sartzeari buruz; zaila da ereduetan fidatzea, oro har, jendeak lan egiten zuen lekuetan. Enpresentzat, programak "kutxa beltza" direla dirudi, eta horren garrantzia oraindik frogatu behar da. Horrez gain, bankuan, telekomunikazio operadoreen negozioetan eta beste batzuetan, gobernuko erregulatzaileen baldintza zorrotzak daude. Banku-prozesuetan ezartzen diren sistema eta algoritmo guztiak auditoretzaren menpe daude. Arazo hau konpontzeko, negozioei eta erregulatzaileei adimen artifizialaren erantzunen baliozkotasuna eta zuzentasuna frogatzeko, ereduarekin batera monitorizazio tresnak sartzen ari dira. Horrez gain, baliozkotze prozedura independente bat dago, arauzko ereduetarako derrigorrezkoa, Banku Zentralaren eskakizunak betetzen dituena. Aditu talde independente batek ereduak lortutako emaitzak ikuskatzen ditu sarrerako datuak kontuan hartuta.

Bigarren erronka ereduaren arriskuak ebaluatzea eta kontuan hartzea da ikaskuntza automatikoko eredua ezartzerakoan. Nahiz eta pertsona batek ezin erantzun ehuneko ehuneko ziurtasunez soineko hori zuria ala urdina zen galderari, orduan adimen artifizialak ere akatsak egiteko eskubidea du. Kontuan izan behar da, halaber, datuak denboran zehar alda daitezkeela, eta ereduak birziklatu behar direla emaitza aski zehatza lortzeko. Negozio-prozesuak sufritzen ez duela ziurtatzeko, beharrezkoa da ereduaren arriskuak kudeatzea eta ereduaren errendimendua kontrolatzea, datu berrietan aldian-aldian birziklatuz.

MLOps: DevOps Machine Learning munduan

Baina mesfidantza lehen etaparen ondoren, kontrako efektua agertzen hasten da. Zenbat eta eredu gehiago arrakastaz inplementatu prozesuetan, orduan eta gehiago hazten da negozioen adimen artifiziala erabiltzeko gosea; arazo berriak eta berriak aurkitzen ari dira, ikaskuntza automatikoko metodoak erabiliz konpondu daitezkeenak. Zeregin bakoitzak gaitasun batzuk behar dituen prozesu oso bat abiarazten du:

  • datu-ingeniariek datuak prestatzen eta prozesatzen dituzte;
  • datu-zientzialariek ikaskuntza automatikoko tresnak erabiltzen dituzte eta eredu bat garatzen dute;
  • IT eredua sisteman ezartzen du;
  • ML ingeniariak zehazten du nola txertatu behar den eredu hori prozesuan, zein informatikako tresnak erabili, ereduaren aplikazio-moduaren eskakizunen arabera, eskaeren fluxua, erantzun-denbora, etab. kontuan hartuta. 
  • ML arkitekto batek software-produktu bat industria-sistema batean fisikoki nola inplementa daitekeen diseinatzen du.

Ziklo osoak kualifikazio handiko espezialista kopuru handia behar du. ML ereduak negozio prozesuetan garatzeko eta sartze-mailaren une jakin batean, espezialisten kopurua linealki eskalatzea zereginen kopurua handitzearen proportzioan garestia eta eraginkorra bihurtzen da. Hori dela eta, MLOps prozesua automatizatzea sortzen da: ikaskuntza automatikoko arazoen klase estandar batzuk definitzea, datuak prozesatzeko kanalizazio estandarrak garatzea eta ereduen prestakuntza osagarria garatzea. Irudi ideal batean, horrelako arazoak konpontzeko gaitasunetan berdin trebeak diren profesionalak behar dira Big Data, Data Science, DevOps eta IT arteko elkargunean. Hori dela eta, Datu Zientzien industriaren arazo handiena eta MLOps prozesuak antolatzeko erronkarik handiena egungo prestakuntza-merkatuan gaitasun hori ez izatea da. Baldintza hauek betetzen dituzten espezialistak gutxi dira gaur egun lan-merkatuan eta urrez balio dute.

Konpetentzien gaian

Teorian, MLOps zeregin guztiak DevOps tresna klasikoak erabiliz ebatzi daitezke eta ereduaren luzapen espezializatu batera jo gabe. Orduan, goian adierazi dugun bezala, datu-zientzilariak matematikari eta datu-analista ez ezik, kanalizazio osoaren guru bat ere izan behar du - arkitektura garatzeaz arduratzen da, arkitekturaren arabera hainbat hizkuntzatan programatzeko ereduak, prestatzeaz arduratzen dena. datu-mart bat eta aplikazioa bera zabaltzea. Dena den, muturreko MLOps prozesuan inplementatutako marko teknologikoa sortzeak lan-kostuen %80a hartzen du, hau da, matematikari kualifikatu batek, kalitatezko Data Scientist denak, bere denboraren %20a baino ez du eskainiko bere espezialitateari. . Horregatik, ikaskuntza automatikoko ereduak ezartzeko prozesuan parte hartzen duten espezialisten eginkizunak zehaztea ezinbestekoa da. 

Rolak nola zehaztu behar diren enpresaren tamainaren araberakoa da. Gauza bat da startup batek espezialista bat, energia-erreserban langile gogor bat, bere ingeniaria, arkitektoa eta DevOps-a izatea. Guztiz bestelakoa da enpresa handi batean ereduak garatzeko prozesu guztiak goi-mailako datu-zientzietako espezialista batzuengan kontzentratzen direnean, programatzaile edo datu-baseetako espezialista batek -lan-merkatuan ohikoagoa eta garestiagoa den gaitasun bat- har dezakeen bitartean. lan gehienetan.ohiko zereginak.

Beraz, garatutako ereduen abiadura eta kalitatea, taldearen produktibitatea eta bertako mikroklima zuzenean MLOps prozesuan laguntzeko espezialisten aukeraketan muga non dagoen eta garatutako ereduen operatibatze prozesua nola antolatzen den araberakoa da. .

Gure taldeak dagoeneko egin duena

Duela gutxi konpetentzien egitura eta MLOps prozesuak eraikitzen hasi gara. Baina ereduen bizi-zikloaren kudeaketari eta ereduak zerbitzu gisa erabiltzeari buruzko gure proiektuak MVP probatzeko fasean daude dagoeneko.

Enpresa handi baterako gaitasun-egitura optimoa eta prozesuko parte-hartzaile guztien arteko elkarrekintzaren antolaketa-egitura ere zehaztu ditugu. Agile taldeak antolatu ziren negozio-bezero sorta osoaren arazoak konpontzeko, eta proiektu-taldeekin interakzio-prozesu bat ezarri zen, eraikitzen ari den MLOps eraikinaren oinarria den plataformak eta azpiegiturak sortzeko.

Etorkizunerako galderak

MLOps hazten ari den eremua da, gaitasun eskasia jasaten ari dena eta etorkizunean indarra hartuko du. Bitartean, hobe da DevOps garapen eta praktiketan oinarritzea. MLOps-en helburu nagusia ML ereduak modu eraginkorragoan erabiltzea da negozio-arazoak konpontzeko. Baina honek galdera asko sortzen ditu:

  • Nola murriztu ereduak ekoizpenera abiarazteko denbora?
  • Nola murriztu gaitasun ezberdinetako taldeen arteko marruskadura burokratikoa eta lankidetzan arreta handitu?
  • Nola egin ereduen jarraipena, bertsioak kudeatu eta monitorizazio eraginkorra antolatu?
  • Nola sortu benetako bizi-ziklo zirkularra ML eredu moderno baterako?
  • Nola estandarizatu ikasketa automatikoko prozesua?

Galdera hauen erantzunak neurri handi batean MLOps-ek bere potentzial osoa zenbateraino iritsiko diren zehaztuko dute.

Iturria: www.habr.com

Gehitu iruzkin berria