Yandex rezidentu programma jeb Kā pieredzējis aizmugure var kļūt par ML inženieri

Yandex rezidentu programma jeb Kā pieredzējis aizmugure var kļūt par ML inženieri

Yandex atver maŔīnmācÄ«bas rezidences programmu pieredzējuÅ”iem aizmugursistēmas izstrādātājiem. Ja esi daudz rakstÄ«jis C++/Python valodā un vēlies Ŕīs zināŔanas pielietot ML, tad mēs Tev iemācÄ«sim veikt praktiskus pētÄ«jumus un nodroÅ”ināsim pieredzējuÅ”us mentorus. JÅ«s strādāsit pie galvenajiem Yandex pakalpojumiem un iegÅ«sit prasmes tādās jomās kā lineārie modeļi un gradientu paaugstināŔana, ieteikumu sistēmas, neironu tÄ«kli attēlu, teksta un skaņas analÄ«zei. JÅ«s arÄ« uzzināsit, kā pareizi novērtēt savus modeļus, izmantojot metriku bezsaistē un tieÅ”saistē.

Programmas ilgums ir viens gads, kura laikā dalÄ«bnieki strādās Yandex maŔīntelpas un pētniecÄ«bas nodaļā, kā arÄ« apmeklēs lekcijas un seminārus. DalÄ«ba ir apmaksāta un ietver pilnas slodzes darbu: 40 stundas nedēļā, sākot ar Ŕī gada 1. jÅ«liju. Pieteikumi tagad ir atvērti un ilgs lÄ«dz 1. maijam. 

Un tagad sīkāk - par to, kādu auditoriju gaidām, kāds būs darba process un vispār, kā back-end speciālists var pārslēgties uz karjeru ML.

OrientÄ“Å”anās

Daudziem uzņēmumiem ir rezidences programmas, tostarp, piemēram, Google un Facebook. Tie galvenokārt ir vērsti uz jaunākā un vidējā lÄ«meņa speciālistiem, kuri cenÅ”as spert soli pretÄ« ML pētniecÄ«bai. MÅ«su programma ir paredzēta citai auditorijai. Aicinām aizmugursistēmas izstrādātājus, kuri jau ir uzkrājuÅ”i pietiekami daudz pieredzes un droÅ”i zina, ka savās kompetencēs viņiem ir jāvirzās uz ML, lai iegÅ«tu praktiskas iemaņas, nevis zinātnieka prasmes, risinot rÅ«pnieciskās maŔīnmācÄ«Å”anās problēmas. Tas nenozÄ«mē, ka mēs neatbalstām jaunos pētniekus. Mēs esam viņiem organizējuÅ”i atseviŔķu programmu - piemaksa nosaukts Iļjas Segaloviča vārdā, kas arÄ« ļauj strādāt Yandex.

Kur rezidents strādās?

MaŔīninteliÄ£ences un pētniecÄ«bas nodaļā mēs paÅ”i izstrādājam projektu idejas. Galvenais iedvesmas avots ir zinātniskā literatÅ«ra, raksti un tendences pētnieku aprindās. Mēs ar kolēģiem analizējam lasÄ«to, meklējot, kā mēs varam uzlabot vai paplaÅ”ināt zinātnieku piedāvātās metodes. Tajā paŔā laikā katrs no mums ņem vērā savu zināŔanu un intereÅ”u jomu, formulē uzdevumu, pamatojoties uz jomām, kuras viņŔ uzskata par svarÄ«gām. Ideja par projektu parasti dzimst ārējo pētÄ«jumu rezultātu un paÅ”u kompetenču krustpunktā.

Å Ä« sistēma ir laba, jo tā lielā mērā atrisina Yandex pakalpojumu tehnoloÄ£iskās problēmas pat pirms to raÅ”anās. Kad serviss saskaras ar problēmu, pie mums ierodas tā pārstāvji, kuri, visticamāk, paņem mÅ«su jau sagatavotās tehnoloÄ£ijas, kuras atliek tikai pareizi iestrādāt produktā. Ja kaut kas nebÅ«s gatavs, tad vismaz ātri atcerēsimies, kur var ā€œsākt raktā€ un kuros rakstos meklēt risinājumu. Kā zināms, zinātniskā pieeja ir stāvēt uz milžu pleciem.

Ko darīt

Uzņēmumā Yandex ā€” un pat Ä«paÅ”i mÅ«su vadÄ«bā ā€” tiek izstrādātas visas atbilstoŔās ML jomas. MÅ«su mērÄ·is ir uzlabot visdažādāko produktu kvalitāti, un tas kalpo kā stimuls pārbaudÄ«t visu jauno. Turklāt regulāri parādās jauni pakalpojumi. Tātad lekciju programmā ir visas galvenās (labi pārbaudÄ«tās) maŔīnmācÄ«bas jomas rÅ«pnieciskajā attÄ«stÄ«bā. Veidojot savu kursa daļu, izmantoju savu pasniegÅ”anas pieredzi Datu analÄ«zes skolā, kā arÄ« citu SHAD pasniedzēju materiālus un darbu. Es zinu, ka mani kolēģi darÄ«ja tāpat.

Pirmajos mēneÅ”os apmācÄ«ba pēc kursu programmas veidos aptuveni 30% no JÅ«su darba laika, pēc tam ap 10%. Tomēr ir svarÄ«gi saprast, ka darbs ar paÅ”iem ML modeļiem arÄ« turpmāk prasÄ«s aptuveni četras reizes mazāk nekā visi saistÄ«tie procesi. Tie ietver aizmugursistēmas sagatavoÅ”anu, datu saņemÅ”anu, konveijera rakstÄ«Å”anu to pirmapstrādei, koda optimizÄ“Å”anu, pielāgoÅ”anos noteiktai aparatÅ«rai utt. ML inženieris, ja vēlaties, ir pilnas kaudzes izstrādātājs (tikai ar lielāku uzsvaru uz maŔīnmācÄ«Å”anos). , spēj atrisināt problēmu no sākuma lÄ«dz beigām. Pat ar gatavu modeli, iespējams, bÅ«s jāveic vēl vairākas darbÄ«bas: paralēli tā izpildei vairākās iekārtās, jāsagatavo implementācija roktura, bibliotēkas vai paÅ”a pakalpojuma komponentu veidā.

Studentu izvēle
Ja jums radās iespaids, ka labāk ir kļūt par ML inženieri, vispirms strādājot par aizmugursistēmas izstrādātāju, tā nav taisnÄ«ba. Lieliska iespēja ir reÄ£istrēties tajā paŔā SHAD bez reālas pieredzes pakalpojumu izstrādē, mācÄ«ties un kļūt ļoti pieprasÄ«tam tirgÅ«. Tādā veidā daudzi Yandex speciālisti nokļuva paÅ”reizējās amatos. Ja kāds uzņēmums ir gatavs piedāvāt darbu ML jomā uzreiz pēc studiju beigÅ”anas, iespējams, arÄ« jums vajadzētu pieņemt piedāvājumu. Mēģiniet iekļūt labā komandā ar pieredzējuÅ”u mentoru un esiet gatavi daudz mācÄ«ties.

Kas jums parasti traucē nodarboties ar ML?

Ja aizmugure vēlas kļūt par ML inženieri, viņŔ var izvēlēties no divām attÄ«stÄ«bas jomām ā€“ neņemot vērā rezidentÅ«ras programmu.

Pirmkārt, mācieties kāda izglÄ«tÄ«bas kursa ietvaros. NodarbÄ«bas Coursera tuvinās pamatmetožu izpratnei, taču, lai profesijā pietiekami iedziļinātos, tai jāvelta krietni vairāk laika. Piemēram, pabeidziet ShaD. Gadu gaitā ShaD bija atŔķirÄ«gs kursu skaits tieÅ”i par maŔīnmācÄ«bu ā€” vidēji aptuveni astoņi. Katrs no tiem ir patieŔām svarÄ«gs un noderÄ«gs, arÄ« pēc absolventu domām. 

Otrkārt, var piedalÄ«ties kaujas projektos, kur nepiecieÅ”ams ieviest vienu vai otru ML algoritmu. Tomēr IT izstrādes tirgÅ« ir ļoti maz Ŕādu projektu: maŔīnmācÄ«ba netiek izmantota lielākajā daļā uzdevumu. Pat bankās, kas aktÄ«vi pēta ar ML saistÄ«tas iespējas, tikai dažas nodarbojas ar datu analÄ«zi. Ja jÅ«s nevarējāt pievienoties kādai no Ŕīm komandām, jÅ«su vienÄ«gā iespēja ir vai nu sākt savu projektu (kur, visticamāk, jÅ«s pats noteiksiet savus termiņus, un tam ir maz sakara ar kaujas ražoÅ”anas uzdevumiem), vai arÄ« sākt sacensties Kaggle.

Patiesi, sadarbojieties ar citiem kopienas locekļiem un izmēģiniet sevi sacensÄ«bās salÄ«dzinoÅ”i viegli - it Ä«paÅ”i, ja atbalstāt savas prasmes ar apmācÄ«bām un minētajiem kursiem vietnē Coursera. Katram konkursam ir noteikts termiņŔ ā€“ tas kalpos jums kā stimuls un sagatavos lÄ«dzÄ«gai sistēmai IT uzņēmumos. Tas ir labs veids ā€“ kas tomēr arÄ« ir nedaudz atrauts no reāliem procesiem. Kaggle jums tiek sniegti iepriekÅ” apstrādāti, lai gan ne vienmēr perfekti dati; nepiedāvā domāt par ieguldÄ«jumu produktā; un pats galvenais, tiem nav nepiecieÅ”ami ražoÅ”anai piemēroti risinājumi. JÅ«su algoritmi, iespējams, darbosies un bÅ«s ļoti precÄ«zi, taču jÅ«su modeļi un kods bÅ«s kā FrankenÅ”teins, kas saŔūts no dažādām daļām - ražoÅ”anas projektā visa struktÅ«ra darbosies pārāk lēni, to bÅ«s grÅ«ti atjaunināt un paplaÅ”ināt (piemēram, valodas un balss algoritmi vienmēr tiks daļēji pārrakstÄ«ti, valodai attÄ«stoties). Uzņēmumi ir ieinteresēti, lai uzskaitÄ«tos darbus varētu veikt ne tikai jÅ«s pats (skaidrs, ka jÅ«s kā risinājuma autors to varat izdarÄ«t), bet arÄ« jebkurÅ” jÅ«su kolēģis. Tiek apspriesta atŔķirÄ«ba starp sporta un industriālo programmÄ“Å”anu Š¼Š½Š¾Š³Š¾, un Kaggle izglÄ«to tieÅ”i ā€œsportistusā€ ā€“ pat ja tas izdodas ļoti labi, ļaujot viņiem iegÅ«t zināmu pieredzi.

Es aprakstÄ«ju divus iespējamos attÄ«stÄ«bas virzienus - apmācÄ«bu, izmantojot izglÄ«tÄ«bas programmas, un apmācÄ«bu "kaujā", piemēram, uz Kaggle. Rezidences programma ir Å”o divu metožu kombinācija. JÅ«s gaida lekcijas un semināri ShaD lÄ«menÄ«, kā arÄ« patiesi kaujinieciski projekti.

Avots: www.habr.com

Pievieno komentāru