Yandexi residentprogramm ehk kuidas kogenud taustaprogrammist võib saada ML-insener

Yandexi residentprogramm ehk kuidas kogenud taustaprogrammist võib saada ML-insener

Yandex avab masinõppe residentuuriprogrammi kogenud taustaprogrammi arendajatele. Kui oled C++/Pythonis palju kirjutanud ja soovid neid teadmisi ML-is rakendada, siis õpetame Sind tegema praktilist uurimistööd ja pakume kogemustega mentoreid. Töötate Yandexi võtmeteenustega ja omandate oskusi sellistes valdkondades nagu lineaarsed mudelid ja gradiendi suurendamine, soovitussüsteemid, närvivõrgud piltide, teksti ja heli analüüsimiseks. Samuti saate teada, kuidas oma mudeleid õigesti hinnata võrguühenduseta ja võrgus mõõdikute abil.

Programmi kestus on üks aasta, mille jooksul osalejad töötavad Yandexi masinluure ja -uuringute osakonnas, samuti käivad loengutel ja seminaridel. Osalemine on tasuline ja täistööajaga: 40 tundi nädalas, alates selle aasta 1. juulist. Taotlused on nüüd avatud ja kestab 1. maini. 

Ja nüüd täpsemalt - sellest, millist publikut ootame, milline saab olema tööprotsess ja üleüldse, kuidas saab taustaspetsialist ML-i karjäärile lülituda.

Suundumus

Paljudel ettevõtetel on residentuuriprogrammid, sealhulgas näiteks Google ja Facebook. Need on suunatud peamiselt noorem- ja keskastme spetsialistidele, kes üritavad astuda sammu ML-uuringute suunas. Meie programm on mõeldud erinevale publikule. Kutsume üles taustaarendajaid, kes on juba piisavalt kogemusi omandanud ja teavad kindlalt, et oma kompetentsides on vaja nihkuda ML-i poole, et omandada praktilisi – ja mitte teadlase oskusi – tööstuslike masinõppeprobleemide lahendamisel. See ei tähenda, et me ei toetaks noori teadlasi. Oleme neile korraldanud eraldi programmi - lisatasu Ilja Segalovitši nimeline, mis võimaldab teil ka Yandexis töötada.

Kus resident tööle hakkab?

Masinintellekti ja -uuringute osakonnas arendame ise projektiideid. Peamiseks inspiratsiooniallikaks on teaduskirjandus, artiklid ja teadlaskonna suundumused. Mina ja mu kolleegid analüüsime loetut, uurides, kuidas saaksime teadlaste pakutud meetodeid parandada või laiendada. Samas arvestab igaüks meist oma teadmiste- ja huvialadega, sõnastab ülesande lähtuvalt valdkondadest, mida ta oluliseks peab. Projektiidee sünnib tavaliselt välisuuringute tulemuste ja enda kompetentside ristumiskohas.

See süsteem on hea, kuna see lahendab suures osas Yandexi teenuste tehnoloogilised probleemid juba enne nende tekkimist. Kui teenus seisab silmitsi probleemiga, tulevad meie poole selle esindajad, kes võtavad tõenäoliselt meie poolt juba ettevalmistatud tehnoloogiad, mis jääb üle vaid tootes õigesti rakendada. Kui midagi valmis pole, siis meenub vähemalt kiiresti, kust saab “kaevama hakata” ja millistest artiklitest lahendust otsida. Nagu me teame, on teaduslik lähenemine seisma hiiglaste õlgadel.

Mida teha

Yandexis – ja isegi konkreetselt meie juhtkonnas – arendatakse kõiki asjakohaseid ML-i valdkondi. Meie eesmärk on parandada väga erinevate toodete kvaliteeti ja see on stiimul kõike uut testima. Lisaks ilmuvad regulaarselt uued teenused. Seega sisaldab loenguprogramm kõiki peamisi (hästi tõestatud) masinõppe valdkondi tööstusarengus. Oma kursuseosa koostamisel kasutasin oma õpetamiskogemust Andmeanalüüsi Koolis, aga ka teiste SHAD-i õppejõudude materjale ja töid. Ma tean, et mu kolleegid tegid sama.

Esimestel kuudel moodustab kursuseprogrammi kohane koolitus ligikaudu 30% teie tööajast, seejärel umbes 10%. Siiski on oluline mõista, et ML-mudelite endaga töötamine võtab jätkuvalt ligikaudu neli korda vähem aega kui kõik seotud protsessid. Nende hulka kuuluvad taustaprogrammi ettevalmistamine, andmete vastuvõtmine, konveieri kirjutamine nende eeltöötlemiseks, koodi optimeerimine, konkreetse riistvaraga kohanemine jne. ML-insener on, kui soovite, täispinu arendaja (ainult suurema rõhuasetusega masinõppel) , suudab probleemi algusest lõpuni lahendada. Isegi valmis mudeli puhul peate tõenäoliselt tegema veel mitmeid toiminguid: paralleelseerima selle täitmist mitmes masinas, valmistama ette teostuse käepideme, teegi või teenuse enda komponentide kujul.

Õpilase valik
Kui teile jäi mulje, et parem on saada ML-i inseneriks, töötades esmalt taustaarendajana, pole see tõsi. Samasse ShaD-i registreerumine ilma tõelise kogemuseta teenuste arendamise, õppimise ja turul ülinõudlikuna on suurepärane võimalus. Paljud Yandexi spetsialistid sattusid sel viisil oma praegustele ametikohtadele. Kui mõni ettevõte on valmis Sulle kohe pärast lõpetamist ML valdkonnas tööd pakkuma, siis peaksid ilmselt ka pakkumise vastu võtma. Proovige sattuda heasse meeskonda koos kogenud mentoriga ja olla valmis palju õppima.

Mis tavaliselt takistab teil ML-i tegemast?

Kui backender ihkab ML-i inseneriks saada, saab ta valida kahe arendusvaldkonna vahel – residentuuriprogrammi arvestamata.

Esiteks, õppige mõne õppekursuse osana. Õppetunnid Coursera viib teid põhitehnikate mõistmisele lähemale, kuid selleks, et erialasse piisaval määral süveneda, peate sellele pühendama palju rohkem aega. Näiteks lõpetage ShaD. Aastate jooksul oli ShaDil erinev arv kursusi otseselt masinõppe kohta – keskmiselt umbes kaheksa. Igaüks neist on tõesti oluline ja kasulik, ka lõpetajate arvates. 

Teiseks saab osaleda võitlusprojektides, kus on vaja rakendada üht või teist ML-i algoritmi. Selliseid projekte on IT-arendusturul aga väga vähe: masinõpet enamikus ülesannetes ei kasutata. Isegi pankades, mis aktiivselt rahapesuga seotud võimalusi uurivad, tegelevad andmeanalüüsiga vähesed. Kui teil ei õnnestunud ühega neist meeskondadest liituda, on teie ainus võimalus alustada oma projektiga (kus suure tõenäosusega määrate ise oma tähtajad ja sellel on lahingutootmisülesannetega vähe pistmist) või hakata võistlema Kaggle.

Tõepoolest, tehke koostööd teiste kogukonnaliikmetega ja proovige end võistlustel suhteliselt lihtne - eriti kui toetate oma oskusi koolituste ja Coursera mainitud kursustega. Igal konkursil on tähtaeg – see on teile stiimuliks ja valmistab ette sarnase süsteemi jaoks IT-ettevõtetes. See on hea viis – mis aga on ka reaalsetest protsessidest veidi lahutatud. Kaggle'is antakse teile eeltöödeldud, kuigi mitte alati täiuslikud andmed; ei paku mõelda toote panusele; ja mis kõige tähtsam, need ei vaja tootmiseks sobivaid lahendusi. Teie algoritmid tõenäoliselt töötavad ja on väga täpsed, kuid teie mudelid ja kood on nagu erinevatest osadest kokku õmmeldud Frankenstein – tootmisprojektis töötab kogu struktuur liiga aeglaselt, seda on raske värskendada ja laiendada (näiteks keele- ja häälealgoritmid kirjutatakse keele arenedes alati osaliselt ümber). Ettevõtted on huvitatud sellest, et loetletud töid saaksid teha mitte ainult teie ise (selge on see, et teie kui lahenduse autor saate seda teha), vaid ka teie kolleegid. Arutletakse spordi- ja tööstusprogrammide erinevuste üle много, ja Kaggle koolitab täpselt “sportlasi” – isegi kui see teeb seda väga hästi, võimaldades neil kogemusi omandada.

Kirjeldasin kahte võimalikku arengusuunda - koolitust haridusprogrammide kaudu ja koolitust "lahingus", näiteks Kaggle'il. Residentuuriprogramm on nende kahe meetodi kombinatsioon. Sind ootavad nii loengud ja seminarid ShaD tasemel kui ka tõeliselt võitluslikud projektid.

Allikas: www.habr.com

Lisa kommentaar