Programa per a residents de Yandex, o com un backender experimentat pot convertir-se en enginyer ML

Programa per a residents de Yandex, o com un backender experimentat pot convertir-se en enginyer ML

Yandex està obrint un programa de residència en aprenentatge automàtic per a desenvolupadors backend experimentats. Si heu escrit molt en C++/Python i voleu aplicar aquests coneixements a ML, us ensenyarem a fer investigacions pràctiques i proporcionarem mentors experimentats. Treballaràs en serveis clau de Yandex i adquiriràs habilitats en àrees com ara models lineals i augment del gradient, sistemes de recomanació, xarxes neuronals per analitzar imatges, text i so. També aprendràs a avaluar correctament els teus models mitjançant mètriques fora de línia i en línia.

La durada del programa és d'un any, durant el qual els participants treballaran al departament d'investigació i intel·ligència de màquines de Yandex, així com assistiran a conferències i seminaris. La participació és retribuïda i implica una jornada completa: 40 hores setmanals, a partir de l'1 de juliol d'enguany. Les sol·licituds ja estan obertes i s'allargarà fins l'1 de maig. 

I ara amb més detall: sobre quin tipus de públic estem esperant, quin serà el procés de treball i, en general, com un especialista en back-end pot canviar a una carrera en ML.

Enfocament

Moltes empreses tenen programes de residència, com ara Google i Facebook. S'adrecen principalment a especialistes de nivell júnior i mitjà que intenten fer un pas cap a la investigació en ML. El nostre programa és per a un públic diferent. Convidem els desenvolupadors de backend que ja hagin adquirit prou experiència i que sàpiguen amb certesa que en les seves competències han de canviar cap a ML, per adquirir habilitats pràctiques, i no les habilitats d'un científic, per resoldre problemes d'aprenentatge automàtic industrial. Això no vol dir que no donem suport als investigadors joves. Hem organitzat un programa separat per a ells: premium el nom d'Ilya Segalovich, que també us permet treballar a Yandex.

On treballarà el resident?

Al Departament d'Intel·ligència i Recerca de Màquines, nosaltres mateixos desenvolupem idees de projectes. La principal font d'inspiració és la literatura científica, els articles i les tendències de la comunitat investigadora. Els meus companys i jo analitzem el que llegim, mirant com podem millorar o ampliar els mètodes proposats pels científics. Al mateix temps, cadascú de nosaltres té en compte la seva àrea de coneixement i interessos, formula la tasca en funció de les àrees que considera importants. La idea de projecte neix normalment a la intersecció dels resultats de la recerca externa i de les competències pròpies.

Aquest sistema és bo perquè resol en gran mesura els problemes tecnològics dels serveis Yandex fins i tot abans que sorgeixin. Quan un servei s'enfronta a un problema, els seus representants acudeixen a nosaltres, el més probable és que agafin les tecnologies que ja tenim preparades, que només queda aplicar-les correctament al producte. Si alguna cosa no està a punt, almenys recordarem ràpidament on podem "començar a cavar" i en quins articles buscar una solució. Com sabem, l'enfocament científic és posar-se sobre les espatlles dels gegants.

Què fer

A Yandex, i fins i tot específicament a la nostra gestió, s'estan desenvolupant totes les àrees rellevants de l'ML. El nostre objectiu és millorar la qualitat d'una gran varietat de productes, i això serveix d'incentiu per provar tot el nou. A més, apareixen nous serveis regularment. Així, el programa de conferències conté totes les àrees clau (ben provades) de l'aprenentatge automàtic en el desenvolupament industrial. En compilar la meva part del curs, vaig utilitzar la meva experiència docent a l'Escola d'Anàlisi de Dades, així com els materials i el treball d'altres professors SHAD. Sé que els meus companys van fer el mateix.

Durant els primers mesos, la formació d'acord amb el programa del curs representarà aproximadament el 30% del temps de treball, després al voltant del 10%. Tanmateix, és important entendre que treballar amb els mateixos models de ML continuarà prenent aproximadament quatre vegades menys que tots els processos associats. Aquests inclouen preparar el backend, rebre dades, escriure un pipeline per preprocessar-lo, optimitzar el codi, adaptar-se a un maquinari específic, etc. Un enginyer ML és, si voleu, un desenvolupador full-stack (només amb un major èmfasi en l'aprenentatge automàtic) , capaç de resoldre un problema de principi a fi. Fins i tot amb un model ja preparat, probablement haureu de fer una sèrie d'accions més: paral·lelitzeu la seva execució en diverses màquines, prepareu una implementació en forma de maneig, biblioteca o components del propi servei.

Elecció de l'estudiant
Si teníeu la impressió que és millor convertir-se en enginyer ML treballant primer com a desenvolupador backend, això no és cert. Inscriure's al mateix ShAD sense experiència real en el desenvolupament de serveis, l'aprenentatge i l'extrema demanda al mercat és una excel·lent opció. Molts especialistes de Yandex van acabar en les seves posicions actuals d'aquesta manera. Si alguna empresa està preparada per oferir-vos una feina en el camp de l'ML immediatament després de la graduació, probablement també hauríeu d'acceptar l'oferta. Intenta formar part d'un bon equip amb un mentor experimentat i prepara't per aprendre molt.

Què us impedeix normalment fer ML?

Si un backender aspira a convertir-se en enginyer ML, pot triar entre dues àrees de desenvolupament, sense tenir en compte el programa de residència.

En primer lloc, estudiar com a part d'algun curs educatiu. Lliçons Coursera t'aproparà a la comprensió de les tècniques bàsiques, però per submergir-te en la professió en una mesura suficient, cal dedicar-hi molt més temps. Per exemple, graduar-se a l'SHAD. Amb els anys, ShAD va tenir un nombre diferent de cursos directament sobre aprenentatge automàtic: de mitjana, uns vuit. Cadascun d'ells és realment important i útil, fins i tot segons l'opinió dels graduats. 

En segon lloc, podeu participar en projectes de combat on necessiteu implementar un o un altre algorisme de ML. Tanmateix, hi ha molt pocs projectes d'aquest tipus al mercat de desenvolupament informàtic: l'aprenentatge automàtic no s'utilitza en la majoria de tasques. Fins i tot als bancs que estan explorant activament oportunitats relacionades amb ML, només uns pocs es dediquen a l'anàlisi de dades. Si no has pogut unir-te a un d'aquests equips, la teva única opció és iniciar el teu propi projecte (on, molt probablement, establiràs els teus propis terminis, i això té poc a veure amb les tasques de producció de combat), o començar a competir. Kaggle.

De fet, feu equip amb altres membres de la comunitat i proveu-vos a les competicions relativament fàcil - sobretot si recolzeu les vostres habilitats amb formació i els cursos esmentats a Coursera. Cada concurs té una data límit: us servirà d'incentiu i us prepararà per a un sistema similar a les empreses de TI. Aquesta és una bona manera, que, però, també està una mica divorciada dels processos reals. A Kaggle se't donen dades preprocessades, encara que no sempre perfectes; no oferiu pensar en la contribució al producte; i el més important, no requereixen solucions adequades per a la producció. Els vostres algorismes probablement funcionaran i seran altament precisos, però els vostres models i codi seran com Frankenstein units a partir de diferents parts: en un projecte de producció, tota l'estructura funcionarà massa lentament, serà difícil d'actualitzar i ampliar (per exemple, els algorismes de llenguatge i veu sempre es reescriuran parcialment a mesura que es desenvolupi el llenguatge). A les empreses els interessa que els treballs enumerats no els pugueu fer només vosaltres mateixos (és clar que vosaltres, com a autor de la solució, ho podeu fer), sinó també qualsevol dels vostres companys. Es parla de la diferència entre la programació esportiva i la industrial много, i Kaggle educa precisament "esportistes", encara que ho faci molt bé, cosa que els permet obtenir una mica d'experiència.

Vaig descriure dues possibles línies de desenvolupament: la formació mitjançant programes educatius i la formació "en combat", per exemple a Kaggle. El programa de residència és una combinació d'aquests dos mètodes. T'esperen conferències i seminaris a nivell ShAD, així com projectes realment combatius.

Font: www.habr.com

Afegeix comentari