Pavel Klemenkov, NVIDIA: Vi prøver å redusere gapet mellom hva en dataforsker kan gjøre og hva han bør kunne gjøre

Det andre opptaket av studenter på masterstudiet i datavitenskap og business intelligence Ozon Masters har startet – og for å gjøre det lettere å bestemme seg for å legge igjen en søknad og ta nettprøven, spurte vi programlærerne om hva de kan forvente av å studere og jobbe med data.

Pavel Klemenkov, NVIDIA: Vi prøver å redusere gapet mellom hva en dataforsker kan gjøre og hva han bør kunne gjøre Chief Data Scientist NVIDIA og lærer kurs i Big Data og Data Engineering Pavel Klemenkov snakket om hvorfor matematikere trenger å skrive kode og studere ved Ozon Masters i to år.

— Er det mange bedrifter som bruker datavitenskapelige algoritmer?

– Egentlig ganske mye. Ganske mange store selskaper som har virkelig store data begynner enten å jobbe effektivt med det eller har jobbet med det i lang tid. Det er klart at halvparten av markedet bruker data som kan passe inn i et Excel-regneark eller kan beregnes på en stor server, men det kan ikke sies at det kun er noen få virksomheter som kan jobbe med data.

— Fortell litt om prosjektene der datavitenskap brukes.

— Mens vi jobbet hos Rambler, laget vi for eksempel et annonseringssystem som fungerte etter prinsippene for RTB (Real Time Bidding) – vi trengte å bygge mange modeller som ville optimere kjøp av reklame eller for eksempel kunne forutsi sannsynligheten av et klikk, konvertering og så videre. Samtidig genererer en reklameauksjon mye data: logger over nettstedsforespørsler til potensielle annonsekjøpere, logger over annonsevisninger, logger over klikk - dette er titalls terabyte med data per dag.

For disse oppgavene observerte vi dessuten et interessant fenomen: Jo mer data du gir for å trene modellen, jo høyere er kvaliteten. Vanligvis, etter en viss mengde data, slutter kvaliteten på prognosen å forbedres, og for å forbedre nøyaktigheten ytterligere, må du bruke en fundamentalt annen modell, en annen tilnærming til å forberede data, funksjoner og så videre. Her lastet vi opp mer data og kvaliteten økte.

Dette er et typisk tilfelle hvor analytikere for det første måtte jobbe med store datasett for i det minste å gjennomføre et eksperiment, og hvor det var umulig å klare seg med et lite utvalg som fikk plass i en koselig MacBook. Samtidig trengte vi distribuerte modeller, for ellers kunne de ikke trenes. Med introduksjonen av datasyn i produksjonen blir slike eksempler mer vanlig, siden bilder er en stor mengde data, og for å trene en stor modell trengs det millioner av bilder.

Spørsmålet oppstår umiddelbart: hvordan lagre all denne informasjonen, hvordan behandle den effektivt, hvordan bruke distribuerte læringsalgoritmer - fokuset skifter fra ren matematikk til ingeniørfag. Selv om du ikke skriver kode i produksjon, må du kunne jobbe med tekniske verktøy for å gjennomføre et eksperiment.

— Hvordan har tilnærmingen til ledige stillinger innen datavitenskap endret seg de siste årene?

— Big data har sluttet å være hype og har blitt en realitet. Harddisker er ganske billige, noe som betyr at det er mulig å samle alle dataene slik at det i fremtiden vil være nok til å teste eventuelle hypoteser. Som et resultat blir kunnskap om verktøy for å jobbe med big data veldig populær, og som et resultat dukker det opp flere og flere ledige stillinger for dataingeniører.

Etter min forståelse er resultatet av en dataforskers arbeid ikke et eksperiment, men et produkt som har nådd produksjon. Og akkurat fra dette synspunktet, før hypen rundt big data kom, var prosessen enklere: ingeniører var engasjert i maskinlæring for å løse spesifikke problemer, og det var ingen problemer med å bringe algoritmene til produksjon.

— Hva skal til for å forbli en ettertraktet spesialist?

— Nå har mange mennesker kommet til datavitenskap som har studert matematikk, teorien om maskinlæring, og deltatt i dataanalysekonkurranser, der en ferdiglaget infrastruktur tilbys: dataene er renset, metrikkene er definert, og det er ingen krav til at løsningen skal være reproduserbar og rask.

Som et resultat kommer gutta på jobb dårlig forberedt på virksomhetens realiteter, og det dannes et gap mellom nybegynnere og erfarne utviklere.

Med utviklingen av verktøy som lar deg sette sammen din egen modell fra ferdige moduler – og Microsoft, Google og mange andre har allerede slike løsninger – og automatisering av maskinlæring, vil dette gapet bli enda mer uttalt. I fremtiden vil profesjonen være etterspurt etter seriøse forskere som kommer med nye algoritmer, og ansatte med utviklet ingeniørkompetanse som skal implementere modeller og automatisere prosesser. Ozon Masters-kurset i datateknikk er utviklet for å utvikle tekniske ferdigheter og evnen til å bruke distribuerte maskinlæringsalgoritmer på big data. Vi prøver å redusere gapet mellom hva en dataforsker kan og hva han skal kunne i praksis.

— Hvorfor skal en matematiker med vitnemål gå for å studere business?

— Det russiske datavitenskapssamfunnet har forstått at ferdigheter og erfaring veldig raskt omdannes til penger, så snart en spesialist har praktisk erfaring, begynner kostnadene å vokse veldig raskt, de mest dyktige menneskene er veldig dyre - og dette er sant i det nåværende utviklingsmarkedet.

En stor del av en dataforskers jobb er å gå inn i dataene, forstå hva som ligger der, rådføre seg med personene som er ansvarlige for forretningsprosesser og generere disse dataene – og først da bruke dem til å bygge modeller. For å begynne å jobbe med big data er det ekstremt viktig å ha ingeniørkompetanse – dette gjør det mye lettere å unngå skarpe hjørner, som det er mange av innen datavitenskap.

En typisk historie: du skrev en spørring i SQL som utføres ved hjelp av Hive-rammeverket som kjører på big data. Forespørselen behandles på ti minutter, i verste fall - i løpet av en time eller to, og ofte, når du mottar nedlastinger av disse dataene, innser du at du har glemt å ta hensyn til en eller annen faktor eller tilleggsinformasjon. Du må sende forespørselen på nytt og vente disse minuttene og timene. Hvis du er et effektivitetsgeni, vil du ta en annen oppgave, men som praksis viser, har vi få effektivitetsgenier, og folk bare venter. Derfor vil vi i kursene bruke mye tid på arbeidseffektivitet for å i utgangspunktet skrive spørringer som ikke fungerer i to timer, men i flere minutter. Denne ferdigheten multipliserer produktiviteten, og med den verdien av en spesialist.

– Hvordan skiller Ozon Masters seg fra andre kurs?

— Ozon Masters undervises av Ozon-ansatte, og oppgavene er basert på reelle businesscases som løses i bedrifter. Faktisk, i tillegg til mangelen på ingeniørferdigheter, har en person som studerte datavitenskap ved universitetet et annet problem: oppgaven til en virksomhet er formulert på forretningsspråket, og målet er ganske enkelt: å tjene mer penger. Og en matematiker vet godt hvordan man optimaliserer matematiske beregninger - men det er vanskelig å finne en indikator som vil korrelere med en forretningsberegning. Og du må forstå at du løser et forretningsproblem, og sammen med virksomheten formulere beregninger som kan matematisk optimaliseres. Denne ferdigheten erverves gjennom virkelige tilfeller, og de er gitt av Ozon.
Og selv om vi ser bort fra sakene, undervises skolen av mange praktikere som løser forretningsproblemer i ekte bedrifter. Som et resultat er tilnærmingen til selve undervisningen fortsatt mer praksisorientert. I hvert fall i kurset mitt vil jeg prøve å flytte fokus til hvordan man bruker verktøyene, hvilke tilnærminger som finnes, og så videre. Sammen med studentene vil vi forstå at hver oppgave har sitt eget verktøy, og hvert verktøy har sitt bruksområde.

— Det mest kjente treningsprogrammet for dataanalyse er selvfølgelig ShAD — hva er egentlig forskjellen fra det?

— Det er klart at ShAD og Ozon Masters i tillegg til utdanningsfunksjonen løser det lokale problemet med opplæring av personell. Topp SHAD-kandidater rekrutteres primært til Yandex, men fangsten er at Yandex, på grunn av dets spesifikasjoner - og det er stort og ble opprettet da det var få gode verktøy for å jobbe med big data - har sin egen infrastruktur og verktøy for å jobbe med data , som betyr at du må mestre dem. Ozon Masters har et annet budskap - hvis du har mestret programmet og Ozon eller en av 99 % av andre selskaper inviterer deg til å jobbe, vil det være mye lettere å begynne å dra nytte av virksomheten; ferdighetssettet tilegnet som en del av Ozon Masters vil være nok til å bare begynne å jobbe.

— Kurset går over to år. Hvorfor trenger du å bruke så mye tid på dette?

- Godt spørsmål. Det tar lang tid, for innholdsmessig og lærernivået er dette et integrert masterprogram som krever mye tid å mestre, inkludert lekser.

Fra mitt kursperspektiv er det vanlig å forvente at en student bruker 2-3 timer i uken på oppgaver. For det første utføres oppgaver på en treningsklynge, og enhver delt klynge innebærer at flere bruker den samtidig. Det vil si at du må vente på at oppgaven skal begynne å utføre; noen ressurser kan velges og overføres til en kø med høyere prioritet. På den annen side tar alt arbeid med big data mye tid.

Hvis du har flere spørsmål om programmet, arbeid med big data eller ingeniørferdigheter, har Ozon Masters en online åpen dag lørdag 25. april kl 12:00. Vi møter lærere og elever i Zoom og YouTube.

Kilde: www.habr.com

Legg til en kommentar