Pavel Klemenkov, NVIDIA: Estem intentant reduir la bretxa entre el que pot fer un científic de dades i el que hauria de ser capaç de fer

Ha començat la segona convocatòria d'estudiants del programa de màster en ciència de dades i intel·ligència empresarial Ozon Masters, i per facilitar la decisió de deixar una sol·licitud i fer la prova en línia, vam preguntar als professors del programa què esperar d'estudiar i treballar. amb dades.

Pavel Klemenkov, NVIDIA: Estem intentant reduir la bretxa entre el que pot fer un científic de dades i el que hauria de ser capaç de fer Científic de dades en cap de NVIDIA i professor cursos sobre Big Data i Enginyeria de Dades Pavel Klemenkov va parlar de per què els matemàtics necessiten escriure codi i estudiar a Ozon Masters durant dos anys.

— Hi ha moltes empreses que utilitzen algorismes de ciència de dades?

- De fet, bastant. Moltes empreses grans que tenen dades realment grans estan començant a treballar-hi de manera eficaç o han estat treballant-hi durant molt de temps. És evident que la meitat del mercat utilitza dades que poden cabre en un full de càlcul d'Excel o que es poden calcular en un gran servidor, però no es pot dir que només hi hagi unes poques empreses que puguin treballar amb dades.

— Parla'ns una mica dels projectes on s'utilitza la ciència de dades.

— Per exemple, mentre treballàvem a Rambler, estàvem fent un sistema de publicitat que funcionava amb els principis de RTB (Real Time Bidding): calia construir molts models que optimitzessin la compra de publicitat o, per exemple, poguessin predir la probabilitat. d'un clic, conversió, etc. Al mateix temps, una subhasta publicitària genera moltes dades: registres de sol·licituds de llocs a compradors potencials de publicitat, registres d'impressions publicitàries, registres de clics - això són desenes de terabytes de dades al dia.

A més, per a aquestes tasques hem observat un fenomen interessant: com més dades doneu per entrenar el model, major serà la seva qualitat. Normalment, després d'una certa quantitat de dades, la qualitat de la previsió deixa de millorar i, per millorar encara més la precisió, cal utilitzar un model fonamentalment diferent, un enfocament diferent per preparar dades, funcions, etc. Aquí hem penjat més dades i la qualitat ha augmentat.

Aquest és un cas típic en què els analistes havien de treballar, en primer lloc, amb grans conjunts de dades per tal, com a mínim, de dur a terme un experiment, i on era impossible sortir-se'n amb una petita mostra que encaixi en un MacBook acollidor. Al mateix temps, necessitem models distribuïts, perquè sinó no es podrien entrenar. Amb la introducció de la visió per ordinador a la producció, aquests exemples són cada cop més habituals, ja que les imatges són una gran quantitat de dades i per formar un model gran es necessiten milions d'imatges.

Immediatament sorgeix la pregunta: com emmagatzemar tota aquesta informació, com processar-la de manera eficaç, com utilitzar algorismes d'aprenentatge distribuït: el focus està passant de les matemàtiques pures a l'enginyeria. Fins i tot si no escriviu codi en producció, heu de poder treballar amb eines d'enginyeria per dur a terme un experiment.

— Com ha canviat el plantejament de les vacants de ciència de dades en els darrers anys?

— El big data ha deixat de ser bombo i s'ha convertit en una realitat. Els discs durs són bastant barats, la qual cosa significa que és possible recollir totes les dades perquè en el futur n'hi hagi prou per provar qualsevol hipòtesi. Com a conseqüència, el coneixement d'eines per treballar amb big data s'està popularitzant i, com a conseqüència, cada cop apareixen més vacants per a enginyers de dades.

Al meu entendre, el resultat del treball d'un científic de dades no és un experiment, sinó un producte que ha arribat a la producció. I només des d'aquest punt de vista, abans de l'arribada del bombo al voltant del big data, el procés era més senzill: els enginyers es dedicaven a l'aprenentatge automàtic per resoldre problemes específics i no hi havia problemes per portar els algorismes a la producció.

— Què cal per seguir sent un especialista sol·licitat?

— Ara han arribat a la ciència de dades moltes persones que han estudiat matemàtiques, teoria de l'aprenentatge automàtic i han participat en concursos d'anàlisi de dades, on es proporciona una infraestructura ja feta: es netegen les dades, es defineixen les mètriques i no hi ha requisits perquè la solució sigui reproducible i ràpida.

Com a resultat, els nois arriben a treballar mal preparats per a la realitat dels negocis i es forma una bretxa entre els novells i els desenvolupadors experimentats.

Amb el desenvolupament d'eines que permeten muntar el vostre propi model a partir de mòduls ja fets -i Microsoft, Google i molts altres ja disposen de solucions d'aquest tipus- i l'automatització de l'aprenentatge automàtic, aquesta bretxa es farà encara més acusada. En el futur, la professió tindrà una demanda d'investigadors seriosos que inventin nous algorismes i empleats amb habilitats d'enginyeria desenvolupades que implementaran models i automatitzaran processos. El curs Màster Ozon en enginyeria de dades està dissenyat per desenvolupar habilitats d'enginyeria i la capacitat d'utilitzar algorismes d'aprenentatge automàtic distribuïts en grans dades. Estem intentant reduir la bretxa entre el que un científic de dades pot fer i el que hauria de ser capaç de fer a la pràctica.

— Per què un matemàtic diplomat hauria d'anar a estudiar negocis?

— La comunitat russa de la ciència de dades ha arribat a entendre que les habilitats i l'experiència es converteixen molt ràpidament en diners, per tant, tan aviat com un especialista té experiència pràctica, el seu cost comença a créixer molt ràpidament, les persones més qualificades són molt cares, i això és cert en el moment actual del mercat de desenvolupament.

Una gran part de la feina d'un científic de dades és analitzar les dades, entendre què hi ha, consultar amb les persones responsables dels processos empresarials i generar aquestes dades, i només després utilitzar-les per crear models. Per començar a treballar amb big data, és extremadament important tenir habilitats d'enginyeria; això fa que sigui molt més fàcil evitar els racons pronunciats, dels quals n'hi ha molts en ciència de dades.

Una història típica: heu escrit una consulta en SQL que s'executa amb el marc Hive que s'executa amb big data. La sol·licitud es processa en deu minuts, en el pitjor dels casos, en una o dues hores, i sovint, quan rebeu descàrregues d'aquestes dades, us adoneu que us oblideu de tenir en compte algun factor o informació addicional. Heu de tornar a enviar la sol·licitud i esperar aquests minuts i hores. Si ets un geni de l'eficiència, assumiràs una altra tasca, però, com demostra la pràctica, tenim pocs genis de l'eficiència i la gent només està esperant. Per tant, en els cursos dedicarem molt de temps a l'eficiència laboral per tal de redactar inicialment consultes que funcionin no durant dues hores, sinó durant diversos minuts. Aquesta habilitat multiplica la productivitat, i amb ella el valor d'un especialista.

– En què es diferencia l'Ozon Masters d'altres cursos?

— Ozon Masters és impartit per empleats d'Ozon, i les tasques es basen en casos reals de negoci que es resolen a les empreses. De fet, a més de la manca de coneixements d'enginyeria, una persona que va estudiar ciència de dades a la universitat té un altre problema: la tasca d'una empresa es formula en el llenguatge dels negocis, i el seu objectiu és força senzill: guanyar més diners. I un matemàtic sap bé com optimitzar les mètriques matemàtiques, però trobar un indicador que es correlacioni amb una mètrica empresarial és difícil. I cal entendre que esteu resolent un problema empresarial i, juntament amb el negoci, formular mètriques que es puguin optimitzar matemàticament. Aquesta habilitat s'adquireix a través de casos reals, i els dóna Ozon.
I encara que ignorem els casos, l'escola és impartida per molts professionals que resolen problemes empresarials en empreses reals. Com a resultat, l'enfocament de l'ensenyament en si està encara més orientat a la pràctica. Almenys en el meu curs, intentaré centrar-me en com utilitzar les eines, quins enfocaments existeixen, etc. Juntament amb els alumnes, entendrem que cada tasca té la seva pròpia eina, i cada eina té el seu àmbit d'aplicabilitat.

— El programa de formació en anàlisi de dades més famós, per descomptat, és ShAD; quina és exactament la diferència?

— És evident que ShAD i Ozon Masters, a més de la funció educativa, resolen el problema local de la formació del personal. Els millors graduats de SHAD es recluten principalment a Yandex, però el problema és que Yandex, a causa de les seves especificitats, és gran i es va crear quan hi havia poques eines bones per treballar amb grans dades, té la seva pròpia infraestructura i eines per treballar amb dades. , és a dir, els hauràs de dominar. Ozon Masters té un missatge diferent: si has dominat amb èxit el programa i Ozon o una del 99% d'altres empreses et convida a treballar, serà molt més fàcil començar a beneficiar-te del negoci; el conjunt d'habilitats adquirits com a part d'Ozon Masters. serà suficient per començar a treballar.

— El curs té una durada de dos anys. Per què necessites dedicar tant de temps a això?

- Bona pregunta. Es necessita molt de temps, perquè pel que fa als continguts i al nivell del professorat, es tracta d'un màster integral que requereix molt de temps per dominar, inclosos els deures.

Des del meu punt de vista del curs, és habitual esperar que un estudiant passi 2-3 hores a la setmana en tasques. En primer lloc, les tasques es realitzen en un clúster d'entrenament, i qualsevol clúster compartit implica que diverses persones l'utilitzin simultàniament. És a dir, haureu d'esperar que la tasca comenci a executar-se; alguns recursos es poden seleccionar i transferir a una cua de prioritat més alta. D'altra banda, qualsevol treball amb big data requereix molt de temps.

Si teniu més preguntes sobre el programa, treballant amb grans dades o habilitats d'enginyeria, Ozon Masters celebrarà una jornada de portes obertes en línia el dissabte 25 d'abril a les 12:00. Ens reunim amb professors i alumnes zoom i YouTube.

Font: www.habr.com

Afegeix comentari