Pavel Klemenkov, NVIDIA: Vi försöker minska klyftan mellan vad en dataforskare kan göra och vad han borde kunna göra

Den andra antagningen av studenter på masterprogrammet i datavetenskap och business intelligence Ozon Masters har startat - och för att göra det lättare att bestämma sig för att lämna en ansökan och göra onlinetestet frågade vi programlärarna om vad man kan förvänta sig av att studera och arbeta med data.

Pavel Klemenkov, NVIDIA: Vi försöker minska klyftan mellan vad en dataforskare kan göra och vad han borde kunna göra Chief Data Scientist NVIDIA och lärare kurser i Big Data och Data Engineering Pavel Klemenkov pratade om varför matematiker behöver skriva kod och studera vid Ozon Masters i två år.

— Finns det många företag som använder datavetenskapliga algoritmer?

– Egentligen ganska mycket. En hel del stora företag som har riktigt stor data börjar antingen arbeta effektivt med det eller har jobbat med det länge. Det är klart att hälften av marknaden använder data som kan passa in i ett Excel-kalkylblad eller kan beräknas på en stor server, men man kan inte säga att det bara finns ett fåtal företag som kan arbeta med data.

— Berätta lite om de projekt där datavetenskap används.

— Till exempel, när vi arbetade på Rambler, gjorde vi ett reklamsystem som fungerade enligt principerna för RTB (Real Time Bidding) - vi behövde bygga många modeller som skulle optimera köpet av reklam eller till exempel kunde förutsäga sannolikheten av ett klick, omvandling och så vidare. Samtidigt genererar en reklamauktion mycket data: loggar över webbplatsförfrågningar till potentiella reklamköpare, loggar över annonsvisningar, loggar över klick - det här är tiotals terabyte data per dag.

Dessutom, för dessa uppgifter observerade vi ett intressant fenomen: ju mer data du ger för att träna modellen, desto högre kvalitet. Vanligtvis, efter en viss mängd data, slutar kvaliteten på prognosen att förbättras, och för att ytterligare förbättra noggrannheten måste du använda en fundamentalt annorlunda modell, ett annat tillvägagångssätt för att förbereda data, funktioner och så vidare. Här laddade vi upp mer data och kvaliteten ökade.

Det här är ett typiskt fall där analytiker i första hand var tvungna att arbeta med stora datamängder för att åtminstone genomföra ett experiment, och där det var omöjligt att klara sig med ett litet urval som ryms i en mysig MacBook. Samtidigt behövde vi distribuerade modeller, för annars gick de inte att träna. Med introduktionen av datorseende i produktionen blir sådana exempel vanligare, eftersom bilder är en stor mängd data och för att träna en stor modell behövs miljontals bilder.

Frågan uppstår omedelbart: hur man lagrar all denna information, hur man bearbetar den effektivt, hur man använder distribuerade lärandealgoritmer - fokus skiftar från ren matematik till ingenjörskonst. Även om du inte skriver kod i produktionen måste du kunna arbeta med ingenjörsverktyg för att genomföra ett experiment.

— Hur har inställningen till lediga tjänster inom datavetenskap förändrats de senaste åren?

— Big data har upphört att vara hype och har blivit verklighet. Hårddiskar är ganska billiga, vilket innebär att det är möjligt att samla in all data så att det i framtiden kommer att finnas tillräckligt för att testa eventuella hypoteser. Som ett resultat blir kunskap om verktyg för att arbeta med big data mycket populär, och som ett resultat dyker det upp fler och fler lediga jobb för dataingenjörer.

Enligt min uppfattning är resultatet av en datavetares arbete inte ett experiment, utan en produkt som har nått produktion. Och precis ur denna synvinkel, innan hypen kring big data kom, var processen enklare: ingenjörer var engagerade i maskininlärning för att lösa specifika problem, och det fanns inga problem med att få algoritmerna till produktion.

— Vad krävs för att förbli en eftertraktad specialist?

— Nu har många människor kommit till datavetenskap som har studerat matematik, teorin om maskininlärning och deltagit i dataanalystävlingar, där en färdig infrastruktur tillhandahålls: data rensas, mätvärdena definieras och det finns inga krav på att lösningen ska vara reproducerbar och snabb.

Som ett resultat kommer killar till jobbet dåligt förberedda på verkligheten i verksamheten, och en klyfta bildas mellan nybörjare och erfarna utvecklare.

Med utvecklingen av verktyg som låter dig sätta ihop din egen modell från färdiga moduler – och Microsoft, Google och många andra har redan sådana lösningar – och automatiseringen av maskininlärning kommer denna klyfta att bli ännu mer uttalad. I framtiden kommer professionen att efterfrågas av seriösa forskare som kommer med nya algoritmer, och medarbetare med utvecklad ingenjörskompetens som ska implementera modeller och automatisera processer. Ozon Masters-kursen i datateknik är utformad för att utveckla ingenjörsfärdigheter och förmågan att använda distribuerade maskininlärningsalgoritmer på big data. Vi försöker minska klyftan mellan vad en datavetare kan och vad han borde kunna göra i praktiken.

— Varför ska en matematiker med examen gå för att studera företagsekonomi?

— Det ryska datavetenskapssamhället har förstått att skicklighet och erfarenhet mycket snabbt omvandlas till pengar, så snart en specialist har praktisk erfarenhet börjar hans kostnader att växa mycket snabbt, de mest skickliga människorna är mycket dyra - och detta är sant i det nuvarande ögonblicket av utvecklingsmarknaden.

En stor del av en datavetares jobb är att gå in i datan, förstå vad som ligger där, rådgöra med de personer som är ansvariga för affärsprocesser och generera denna data – och först därefter använda den för att bygga modeller. För att börja jobba med big data är det oerhört viktigt att ha ingenjörskunskaper – det gör det mycket lättare att undvika skarpa hörn, som det finns många av inom datavetenskap.

En typisk historia: du skrev en fråga i SQL som körs med hjälp av Hive-ramverket som körs på big data. Begäran behandlas på tio minuter, i värsta fall - inom en timme eller två, och ofta, när du får nedladdningar av denna data, inser du att du glömt att ta hänsyn till någon faktor eller ytterligare information. Du måste skicka om begäran och vänta dessa minuter och timmar. Om du är ett effektivitetsgeni kommer du att ta dig an en annan uppgift, men som praktiken visar har vi få effektivitetsgenier, och folk bara väntar. Därför kommer vi i kurserna att ägna mycket tid åt arbetseffektivitet för att initialt skriva frågor som inte fungerar i två timmar utan i flera minuter. Denna färdighet multiplicerar produktiviteten och med den värdet av en specialist.

– Hur skiljer sig Ozon Masters från andra kurser?

— Ozon Masters undervisas av Ozon-anställda, och uppgifterna bygger på verkliga affärscases som löses i företag. I själva verket, förutom bristen på ingenjörskunskaper, har en person som studerade datavetenskap vid universitetet ett annat problem: ett företags uppgift är formulerad på affärsspråket, och dess mål är ganska enkelt: att tjäna mer pengar. Och en matematiker vet väl hur man optimerar matematiska mått - men att hitta en indikator som kommer att korrelera med ett affärsmått är svårt. Och du måste förstå att du löser ett affärsproblem, och tillsammans med verksamheten formulera mått som kan matematiskt optimeras. Denna färdighet förvärvas genom verkliga fall, och de ges av Ozon.
Och även om vi bortser från fallen, undervisas skolan av många praktiker som löser affärsproblem i riktiga företag. Som ett resultat av detta är själva inställningen till undervisningen fortfarande mer praktikinriktad. Åtminstone i min kurs ska jag försöka flytta fokus till hur man använder verktygen, vilka förhållningssätt som finns osv. Tillsammans med eleverna kommer vi att förstå att varje uppgift har sitt eget verktyg, och varje verktyg har sitt tillämpningsområde.

— Det mest kända träningsprogrammet för dataanalys är naturligtvis ShAD — exakt vad är skillnaden från det?

— Det är tydligt att ShAD och Ozon Masters, utöver utbildningsfunktionen, löser det lokala problemet med personalutbildning. Top SHAD-akademiker rekryteras i första hand till Yandex, men haken är att Yandex, på grund av dess särdrag - och det är stort och skapades när det fanns få bra verktyg för att arbeta med big data - har sin egen infrastruktur och verktyg för att arbeta med data , vilket betyder att du måste bemästra dem. Ozon Masters har ett annat budskap - om du har lyckats bemästra programmet och Ozon eller ett av de 99 % av andra företagen bjuder in dig att arbeta, kommer det att bli mycket lättare att börja gynna verksamheten; den kompetens som förvärvats som en del av Ozon Masters kommer att räcka för att bara börja arbeta.

— Kursen varar i två år. Varför behöver du lägga så mycket tid på detta?

- Bra fråga. Det tar lång tid, för vad gäller innehåll och lärares nivå är detta ett integrerat masterprogram som kräver mycket tid att bemästra, inklusive läxor.

Ur mitt kursperspektiv är det vanligt att en student lägger 2-3 timmar i veckan på uppgifter. För det första utförs uppgifter på ett träningskluster, och varje delat kluster innebär att flera personer använder det samtidigt. Det vill säga, du måste vänta på att uppgiften ska börja köras; vissa resurser kan väljas och överföras till en högre prioritetskö. Å andra sidan tar allt arbete med big data mycket tid.

Om du har några fler frågor om programmet, arbete med big data eller ingenjörskunskaper, har Ozon Masters en öppen dag online lördagen den 25 april kl 12:00. Vi träffar lärare och elever i Zoom och Youtube.

Källa: will.com

Lägg en kommentar