Pavel Klemenkov, NVIDIA: Vi forsøger at mindske kløften mellem, hvad en dataforsker kan, og hvad han burde være i stand til at gøre

Andet optag af studerende på kandidatuddannelsen i data science og business intelligence Ozon Masters er startet - og for at gøre det nemmere at beslutte at forlade en ansøgning og tage onlinetesten, spurgte vi uddannelsens undervisere om, hvad de kan forvente af at studere og arbejde med data.

Pavel Klemenkov, NVIDIA: Vi forsøger at mindske kløften mellem, hvad en dataforsker kan, og hvad han burde være i stand til at gøre Chief Data Scientist NVIDIA og lærer kurser om Big Data og Data Engineering Pavel Klemenkov talte om, hvorfor matematikere skal skrive kode og studere på Ozon Masters i to år.

— Er der mange virksomheder, der bruger datavidenskabelige algoritmer?

- Faktisk ret meget. Rigtig mange store virksomheder, der har virkelig store data, begynder enten at arbejde effektivt med det eller har arbejdet med det i lang tid. Det er klart, at halvdelen af ​​markedet bruger data, der kan passe ind i et Excel-regneark eller kan beregnes på en stor server, men man kan ikke sige, at der kun er få virksomheder, der kan arbejde med data.

— Fortæl os lidt om de projekter, hvor datavidenskab bliver brugt.

— For eksempel, mens vi arbejdede hos Rambler, lavede vi et annonceringssystem, der fungerede efter principperne for RTB (Real Time Bidding) - vi skulle bygge mange modeller, der ville optimere køb af reklamer eller for eksempel kunne forudsige sandsynligheden af et klik, konvertering og så videre. Samtidig genererer en annonceauktion en masse data: logfiler over webstedsanmodninger til potentielle reklamekøbere, logfiler over annonceindtryk, logs over klik - det er titusvis af terabyte data pr. dag.

Til disse opgaver observerede vi desuden et interessant fænomen: Jo flere data du giver for at træne modellen, jo højere kvalitet. Normalt, efter en vis mængde data, stopper kvaliteten af ​​prognosen med at forbedres, og for yderligere at forbedre nøjagtigheden skal du bruge en fundamentalt anderledes model, en anden tilgang til at forberede data, funktioner og så videre. Her uploadede vi flere data og kvaliteten steg.

Dette er et typisk tilfælde, hvor analytikere for det første skulle arbejde med store datasæt for i det mindste at kunne gennemføre et eksperiment, og hvor det var umuligt at komme udenom med en lille prøve, der passede ind i en hyggelig MacBook. Samtidig havde vi brug for distribuerede modeller, for ellers kunne de ikke trænes. Med introduktionen af ​​computersyn i produktionen bliver sådanne eksempler mere almindelige, da billeder er en stor mængde data, og for at træne en stor model er der brug for millioner af billeder.

Spørgsmålet melder sig straks: hvordan gemmer man al denne information, hvordan man behandler den effektivt, hvordan man bruger distribuerede læringsalgoritmer - fokus skifter fra ren matematik til teknik. Selvom du ikke skriver kode i produktionen, skal du kunne arbejde med tekniske værktøjer for at udføre et eksperiment.

— Hvordan har tilgangen til ledige stillinger inden for datavidenskab ændret sig i de seneste år?

— Big data er holdt op med at være hype og er blevet en realitet. Harddiske er ret billige, hvilket betyder, at det er muligt at indsamle alle data, så der i fremtiden vil være nok til at teste eventuelle hypoteser. Som følge heraf er viden om værktøjer til at arbejde med big data ved at blive meget populær, og som følge heraf opstår der flere og flere ledige stillinger for dataingeniører.

Efter min forståelse er resultatet af en dataforskers arbejde ikke et eksperiment, men et produkt, der har nået produktion. Og netop fra dette synspunkt, før fremkomsten af ​​hypen omkring big data, var processen enklere: Ingeniører var engageret i maskinlæring for at løse specifikke problemer, og der var ingen problemer med at bringe algoritmerne til produktion.

— Hvad skal der til for at forblive en efterspurgt specialist?

— Nu er der kommet mange mennesker til datavidenskab, som har studeret matematik, teorien om maskinlæring og deltaget i dataanalysekonkurrencer, hvor en færdiglavet infrastruktur er tilvejebragt: dataene renses, metrikken er defineret, og der er ingen krav til, at løsningen er reproducerbar og hurtig.

Som et resultat kommer fyre på arbejde dårligt forberedte på erhvervslivets realiteter, og der dannes et hul mellem nybegyndere og erfarne udviklere.

Med udviklingen af ​​værktøjer, der giver dig mulighed for at sammensætte din egen model ud fra færdige moduler - og Microsoft, Google og mange andre har allerede sådanne løsninger - og automatiseringen af ​​maskinlæring, vil dette hul blive endnu mere udtalt. I fremtiden vil faget være efterspurgt efter seriøse forskere, der kommer med nye algoritmer, og medarbejdere med udviklede ingeniørkompetencer, som skal implementere modeller og automatisere processer. Ozon Masters-kurset i datateknik er designet til at udvikle ingeniørfærdigheder og evnen til at bruge distribuerede maskinlæringsalgoritmer på big data. Vi forsøger at mindske kløften mellem, hvad en dataforsker kan, og hvad han skal kunne i praksis.

— Hvorfor skal en matematiker med et eksamensbevis gå for at studere business?

- Det russiske datavidenskabssamfund har forstået, at dygtighed og erfaring meget hurtigt omdannes til penge, så snart en specialist har praktisk erfaring, begynder hans omkostninger at vokse meget hurtigt, de dygtigste mennesker er meget dyre - og dette er sandt i det nuværende udviklingsmarked.

En stor del af en data scientists opgave er at gå ind i dataene, forstå, hvad der ligger der, rådføre sig med de mennesker, der er ansvarlige for forretningsprocesser, og generere disse data – og først derefter bruge dem til at bygge modeller. For at begynde at arbejde med big data er det ekstremt vigtigt at have ingeniørkompetencer – det gør det meget nemmere at undgå skarpe hjørner, som der er mange af inden for data science.

En typisk historie: du skrev en forespørgsel i SQL, der udføres ved hjælp af Hive-rammeværket, der kører på big data. Anmodningen behandles på ti minutter, i værste fald - på en time eller to, og ofte, når du modtager downloads af disse data, indser du, at du har glemt at tage hensyn til en eller anden faktor eller yderligere information. Du skal sende anmodningen igen og vente i disse minutter og timer. Hvis du er et effektivitetsgeni, vil du påtage dig en anden opgave, men som praksis viser, har vi få effektivitetsgenier, og folk venter bare. Derfor vil vi på kurserne bruge meget tid på arbejdseffektivitet for i første omgang at skrive forespørgsler, der ikke fungerer i to timer, men i flere minutter. Denne færdighed multiplicerer produktiviteten og dermed værdien af ​​en specialist.

– Hvordan adskiller Ozon Masters sig fra andre kurser?

— Ozon Masters undervises af Ozon-medarbejdere, og opgaverne tager udgangspunkt i reelle business cases, der løses i virksomheder. Faktisk, ud over manglen på ingeniørfærdigheder, har en person, der studerede datavidenskab på universitetet, et andet problem: en virksomheds opgave er formuleret på forretningssproget, og dens mål er ret simpelt: at tjene flere penge. Og en matematiker ved godt, hvordan man optimerer matematiske metrics - men at finde en indikator, der vil korrelere med en forretningsmetrik, er svært. Og du skal forstå, at du løser et forretningsproblem, og sammen med forretningen formulere målinger, der kan matematisk optimeres. Denne færdighed er erhvervet gennem rigtige tilfælde, og de er givet af Ozon.
Og selvom vi ser bort fra sagerne, bliver skolen undervist af mange praktikere, der løser forretningsproblemer i rigtige virksomheder. Som følge heraf er tilgangen til selve undervisningen stadig mere praksisorienteret. Jeg vil i hvert fald i mit forløb forsøge at flytte fokus til, hvordan man bruger værktøjerne, hvilke tilgange der findes, og så videre. Sammen med eleverne vil vi forstå, at hver opgave har sit eget værktøj, og hvert værktøj har sit anvendelsesområde.

— Det mest berømte træningsprogram for dataanalyse er selvfølgelig ShAD — hvad er egentlig forskellen fra det?

— Det er klart, at ShAD og Ozon Masters udover uddannelsesfunktionen løser det lokale problem med personaleuddannelse. Top SHAD-kandidater rekrutteres primært til Yandex, men fangsten er, at Yandex på grund af dets detaljer - og det er stort og blev skabt, da der var få gode værktøjer til at arbejde med big data - har sin egen infrastruktur og værktøjer til at arbejde med data , hvilket betyder, at du bliver nødt til at mestre dem. Ozon Masters har et andet budskab - hvis du har mestret programmet med succes, og Ozon eller en af ​​de 99 % af andre virksomheder inviterer dig til at arbejde, vil det være meget nemmere at begynde at gavne forretningen; de færdigheder, der er erhvervet som en del af Ozon Masters vil være nok til bare at begynde at arbejde.

- Uddannelsen varer to år. Hvorfor skal du bruge så meget tid på det her?

- Godt spørgsmål. Det tager lang tid, for indholdsmæssigt og lærerniveau er der tale om en integreret kandidatuddannelse, som kræver meget tid at mestre, herunder lektier.

Fra mit kursusperspektiv er det almindeligt at forvente, at en studerende bruger 2-3 timer om ugen på opgaver. For det første udføres opgaver på en træningsklynge, og enhver delt klynge indebærer, at flere personer bruger den samtidigt. Det vil sige, at du skal vente på, at opgaven begynder at udføre; nogle ressourcer kan vælges og overføres til en højere prioritetskø. På den anden side tager alt arbejde med big data meget tid.

Hvis du har flere spørgsmål om programmet, arbejdet med big data eller ingeniørfærdigheder, har Ozon Masters en online åben dag lørdag den 25. april kl. 12:00. Vi mødes med lærere og elever i linse zoom og YouTube.

Kilde: www.habr.com

Tilføj en kommentar