Yandex Egoiliarren Programa, edo Backender esperientziadun bat ML ingeniari nola bihur daitekeen

Yandex Egoiliarren Programa, edo Backender esperientziadun bat ML ingeniari nola bihur daitekeen

Yandex-ek ikaskuntza automatikoan egonaldi-programa bat irekitzen ari da esperientziadun backend garatzaileentzat. C++/Python-en asko idatzi baduzu eta ezagutza hori MLra aplikatu nahi baduzu, ikerketa praktikoa nola egin eta esperientziadun tutoreak eskaintzen irakatsiko dizugu. Yandex zerbitzu gakoetan lan egingo duzu eta trebetasunak lortuko dituzu, hala nola, eredu linealak eta gradienteen sustapena, gomendio sistemak, irudiak, testua eta soinua aztertzeko sare neuronalak. Halaber, zure ereduak behar bezala ebaluatzen ikasiko duzu neurketak lineaz kanpo eta linean erabiliz.

Programaren iraupena urtebetekoa da, eta parte-hartzaileek Yandex-eko makinen adimen eta ikerketa sailean lan egingo dute, baita hitzaldi eta mintegietara joango ere. Parte hartzea ordainpekoa da eta lanaldi osokoa da: astean 40 ordu, aurtengo uztailaren 1etik aurrera. Eskaerak irekita daude orain eta maiatzaren 1era arte iraungo du. 

Eta orain xehetasun gehiagorekin: zer-nolako publikoaren zain gauden, zer lan-prozesua izango den eta, oro har, back-end espezialista bat ML-ko karrerara nola alda daitekeen.

Fokua

Enpresa askok Egoitza Programak dituzte, besteak beste, Google eta Facebook. Batez ere, ML ikerketarako urrats bat ematen saiatzen ari diren junior eta erdi mailako espezialistei zuzenduta daude. Gure programa beste publiko baterako da. Dagoeneko eskarmentu nahikoa lortu duten eta ziur dakiten backend garatzaileak gonbidatzen ditugu beren konpetentzietan MLra aldatu behar dutela, trebetasun praktikoak lortzeko, eta ez zientzialari baten trebetasunak, makinen ikaskuntza industrialaren arazoak konpontzeko. Horrek ez du esan nahi ikertzaile gazteak onartzen ez ditugunik. Haientzako egitarau bereizia antolatu dugu - prima Ilya Segalovich-en izena du, Yandex-en lan egiteko aukera ematen duena.

Non egingo du lan egoiliarrak?

Makinen Adimen eta Ikerketa Sailean, guk geuk garatzen ditugu proiektu ideiak. Inspirazio iturri nagusia literatura zientifikoa, artikuluak eta ikerketa komunitateko joerak dira. Nire lankideek eta biok irakurtzen duguna aztertzen dugu, zientzialariek proposatzen dituzten metodoak nola hobetu edo zabal ditzakegun aztertzen. Aldi berean, gutako bakoitzak bere jakintza eta interesen arloa hartzen du kontuan, zeregina garrantzitsutzat jotzen dituen arloetan oinarrituta formulatzen du. Proiektu baten ideia kanpoko ikerketaren emaitzen eta norberaren gaitasunen arteko elkargunean jaio ohi da.

Sistema hau ona da Yandex zerbitzuen arazo teknologikoak sortu baino lehen konpontzen dituelako. Zerbitzu batek arazoren bati aurre egiten dionean, bere ordezkariak etortzen dira guregana, ziurrenik dagoeneko prestatu ditugun teknologiak hartzera, produktuan behar bezala aplikatzea baino ez dena geratzen. Zerbait prest ez badago, gutxienez azkar gogoratuko dugu non "hasi gaitezkeen zulatzen" eta zein artikulutan bilatu irtenbidea. Dakigunez, ikuspegi zientifikoa erraldoien sorbaldetan jartzea da.

Zer egin

Yandex-en - eta baita bereziki gure kudeaketan - ML-ren arlo garrantzitsu guztiak garatzen ari dira. Gure helburua askotariko produktuen kalitatea hobetzea da, eta hori guztia berria probatzeko pizgarri gisa balio du. Gainera, zerbitzu berriak aldizka agertzen dira. Beraz, hitzaldi-programak industria-garapeneko ikaskuntza automatikoaren funtsezko (ondo frogatutako) arlo guztiak biltzen ditu. Ikastaroaren zatia osatzerakoan, Datuen Analisi Eskolako irakaskuntza-esperientzia erabili nuen, baita SHADeko beste irakasle batzuen materialak eta lanak ere. Badakit nire lankideek gauza bera egin zutela.

Lehenengo hilabeteetan, ikastaroaren programaren araberako prestakuntzak zure lanaldiaren %30 inguru hartuko du, gero %10 inguru. Hala ere, garrantzitsua da ulertzea ML ereduekin lan egiteak lotutako prozesu guztiek baino lau aldiz gutxiago behar izaten jarraituko dutela. Besteak beste, backend-a prestatzea, datuak jasotzea, kanalizazio bat idaztea aldez aurretik prozesatzeko, kodea optimizatzea, hardware zehatzetara egokitzea, etab. ML ingeniari bat, nahi izanez gero, full-stack garatzailea da (makinen ikaskuntzari garrantzia handiagoa ematen diona soilik) , arazo bat hasieratik amaierara konpontzeko gai da. Nahiz eta prest egindako eredua izan, ziurrenik ekintza gehiago egin beharko dituzu: bere exekuzioa paralelizatu hainbat makinatan, inplementazio bat prestatu heldulekua, liburutegia edo zerbitzuaren beraren osagaiak.

Ikasleen aukeraketa
Lehen backend garatzaile gisa lan eginez hobe dela ML ingeniari bihurtzea iruditzen bazaizu, hori ez da egia. Zerbitzuak garatzen, ikasteko eta merkatuan eskaria izateko benetako esperientziarik gabe ShAD berean izena ematea aukera bikaina da. Yandexeko espezialista askok gaur egungo postuetan amaitu zuten horrela. Edozein enpresa prest badago ML arloan lana eskaintzeko gradua amaitu eta berehala, ziurrenik eskaintza ere onartu beharko zenuke. Saiatu talde on batean sartzen esperientziadun tutore batekin eta prestatu asko ikasteko.

Zerk eragozten dizu normalean ML egitea?

Backender batek ML ingeniari bihurtu nahi badu, bi garapen-arloren artean aukeratu ahal izango ditu, egoitza programa kontuan hartu gabe.

Lehenik eta behin, ikasketak heziketa-ikastaro baten barruan. Ikasgaiak Courserak oinarrizko teknikak ulertzera hurbilduko zaitu, baina lanbidean neurri nahikoan murgiltzeko, askoz denbora gehiago eskaini behar diozu. Adibidez, ShaD-en lizentziatua. Urteetan zehar, ShAD-ek ikaskuntza automatikoari buruzko ikastaro-kopuru desberdina izan zuen zuzenean - batez beste, zortzi inguru. Horietako bakoitza benetan garrantzitsua eta erabilgarria da, baita lizentziadunen iritziz ere. 

Bigarrenik, ML algoritmo bat edo beste ezarri behar duzun borroka proiektuetan parte hartu dezakezu. Hala ere, horrelako proiektu gutxi daude IT garapenaren merkatuan: ikaskuntza automatikoa ez da zeregin gehienetan erabiltzen. MLrekin lotutako aukerak aktiboki aztertzen ari diren bankuetan ere, gutxi batzuk baino ez dira aritzen datuen analisian. Talde horietako batean sartu ezin bazenuen, zure aukera bakarra zure proiektua abiaraztea da (non, ziurrenik, zure epeak ezarriko dituzun, eta horrek ez du zerikusi handirik borroka-ekoizpen lanekin), edo lehiatzen hastea. Kaggle.

Izan ere, elkartu beste komunitateko kideekin eta probatu zeure burua lehiaketetan nahiko erraza - batez ere, zure trebetasunak babesten badituzu prestakuntzarekin eta Coursera-n aipatutako ikastaroekin. Lehiaketa bakoitzak epe bat du - pizgarri gisa balioko dizu eta informatikako enpresetan antzeko sistema baterako prestatuko zaitu. Modu ona da hau, baina benetako prozesuetatik apur bat aldenduta dagoena. Kaggle-n aurrez prozesatutako datuak ematen zaizkizu, beti perfektuak ez badira ere; ez eskaini produktuari egindako ekarpenaz pentsatzea; eta garrantzitsuena, ez dute ekoizpenerako egokiak diren irtenbiderik behar. Zure algoritmoek ziurrenik funtzionatuko dute eta oso zehatzak izango dira, baina zure ereduak eta kodea zati ezberdinetatik jositako Frankenstein bezalakoak izango dira; ekoizpen-proiektu batean, egitura osoa astiroegi funtzionatuko du, zaila izango da eguneratzea eta zabaltzea (adibidez, hizkuntza eta ahots algoritmoak partzialki berridatziko dira beti hizkuntza garatu ahala). Enpresei interesatzen zaie zerrendatutako lana zuk zeuk ez ezik (argi dago zuk, irtenbidearen egile gisa, hori egin dezakezula), baita zure lankideetako batek ere. Kirol eta industria programazioaren arteko ezberdintasuna eztabaidatzen da ΠΌΠ½ΠΎΠ³ΠΎ, eta Kaggle-k "kirolariak" hezten ditu, oso ondo egiten badu ere, esperientzia pixka bat irabazteko aukera emanez.

Bi garapen ildo posible deskribatu nituen: heziketa programen bidez trebatzea eta "borrokan" entrenatzea, adibidez, Kaggle-n. Egoitza programa bi metodo hauen konbinazioa da. ShAD mailako hitzaldiak eta mintegiak, baita proiektu benetan borrokalariak ere, zure zain daude.

Iturria: www.habr.com

Gehitu iruzkin berria