Pavel Klemenkov, NVIDIA: Ons probeer om die gaping te verklein tussen wat 'n datawetenskaplike kan doen en wat hy behoort te kan doen

Die tweede inname van studente van die meestersgraadprogram in datawetenskap en besigheidsintelligensie Ozon Masters het begin - en om dit makliker te maak om te besluit om 'n aansoek te verlaat en die aanlyntoets af te lê, het ons die programonderwysers gevra oor wat om te verwag van studeer en werk met data.

Pavel Klemenkov, NVIDIA: Ons probeer om die gaping te verklein tussen wat 'n datawetenskaplike kan doen en wat hy behoort te kan doen Hoofdatawetenskaplike NVIDIA en onderwyser kursusse oor Big Data en Data Engineering Pavel Klemenkov het gepraat oor hoekom wiskundiges kode moet skryf en vir twee jaar by Ozon Masters moet studeer.

— Is daar baie maatskappye wat datawetenskapalgoritmes gebruik?

- Eintlik nogal baie. Heelwat groot maatskappye wat werklik groot data het, begin óf effektief daarmee werk óf werk al lank daarmee. Dit is duidelik dat die helfte van die mark data gebruik wat in 'n Excel-sigblad kan pas of op 'n groot bediener bereken kan word, maar daar kan nie gesê word dat daar net 'n paar besighede is wat met data kan werk nie.

— Vertel ons 'n bietjie van die projekte waar datawetenskap gebruik word.

— Byvoorbeeld, terwyl ons by Rambler gewerk het, het ons 'n advertensiestelsel gemaak wat op die beginsels van RTB (Real Time Bidding) gewerk het - ons moes baie modelle bou wat die aankoop van advertensies sou optimaliseer of, byvoorbeeld, die waarskynlikheid kon voorspel van 'n klik, omskakeling, ensovoorts. Terselfdertyd genereer 'n advertensieveiling baie data: logs van werfversoeke aan potensiële advertensiekopers, logs van advertensie-indrukke, logs van klikke - dit is tiene teragrepe data per dag.

Boonop het ons vir hierdie take 'n interessante verskynsel waargeneem: hoe meer data jy gee om die model op te lei, hoe hoër is die kwaliteit daarvan. Gewoonlik, na 'n sekere hoeveelheid data, hou die kwaliteit van die voorspelling op om te verbeter, en om die akkuraatheid verder te verbeter, moet jy 'n fundamenteel ander model gebruik, 'n ander benadering tot die voorbereiding van data, kenmerke, ensovoorts. Hier het ons meer data opgelaai en die kwaliteit het toegeneem.

Dit is 'n tipiese geval waar ontleders eerstens met groot datastelle moes werk om ten minste 'n eksperiment uit te voer, en waar dit onmoontlik was om oor die weg te kom met 'n klein steekproef wat in 'n knus MacBook pas. Terselfdertyd het ons verspreide modelle nodig gehad, want anders kon hulle nie opgelei word nie. Met die bekendstelling van rekenaarvisie in produksie, word sulke voorbeelde meer algemeen, aangesien prente 'n groot hoeveelheid data is, en om 'n groot model op te lei, is miljoene prente nodig.

Die vraag ontstaan ​​dadelik: hoe om al hierdie inligting te stoor, hoe om dit effektief te verwerk, hoe om verspreide leeralgoritmes te gebruik – die fokus verskuif van suiwer wiskunde na ingenieurswese. Selfs as jy nie kode in produksie skryf nie, moet jy met ingenieursinstrumente kan werk om 'n eksperiment uit te voer.

— Hoe het die benadering tot vakatures in datawetenskap die afgelope jare verander?

- Groot data het opgehou om hype te wees en het 'n werklikheid geword. Hardeskywe is redelik goedkoop, wat beteken dat dit moontlik is om al die data te versamel sodat daar in die toekoms genoeg sal wees om enige hipoteses te toets. Gevolglik word kennis van gereedskap om met groot data te werk baie gewild, en gevolglik verskyn al hoe meer vakatures vir data-ingenieurs.

Na my verstaan ​​is die resultaat van 'n datawetenskaplike se werk nie 'n eksperiment nie, maar 'n produk wat produksie bereik het. En net vanuit hierdie oogpunt, voor die koms van die hype rondom groot data, was die proses eenvoudiger: ingenieurs was besig met masjienleer om spesifieke probleme op te los, en daar was geen probleme om die algoritmes na produksie te bring nie.

— Wat verg dit om 'n gesogte spesialis te bly?

— Nou het baie mense na datawetenskap gekom wat wiskunde, die teorie van masjienleer bestudeer het en aan data-ontledingskompetisies deelgeneem het, waar 'n klaargemaakte infrastruktuur voorsien word: die data word skoongemaak, die maatstawwe is gedefinieer, en daar is geen vereistes vir die oplossing om reproduceerbaar en vinnig te wees.

Gevolglik kom ouens werk toe wat swak voorbereid is vir die realiteite van besigheid, en 'n gaping word gevorm tussen nuwelinge en ervare ontwikkelaars.

Met die ontwikkeling van gereedskap wat jou toelaat om jou eie model uit klaargemaakte modules saam te stel – en Microsoft, Google en vele ander het reeds sulke oplossings – en die outomatisering van masjienleer, sal hierdie gaping selfs meer uitgesproke word. In die toekoms sal die beroep in aanvraag wees vir ernstige navorsers wat met nuwe algoritmes vorendag kom, en werknemers met ontwikkelde ingenieursvaardighede wat modelle sal implementeer en prosesse sal outomatiseer. Die Ozon Meesterskursus in data-ingenieurswese is ontwerp om ingenieursvaardighede te ontwikkel en die vermoë om verspreide masjienleeralgoritmes op groot data te gebruik. Ons probeer om die gaping te verklein tussen wat 'n datawetenskaplike kan doen en wat hy in die praktyk behoort te kan doen.

— Hoekom moet 'n wiskundige met 'n diploma besigheid gaan studeer?

— Die Russiese datawetenskapgemeenskap het verstaan ​​dat vaardigheid en ondervinding baie vinnig in geld omgeskakel word, so sodra 'n spesialis praktiese ondervinding het, begin sy koste baie vinnig groei, die mees geskoolde mense is baie duur - en dit is waar op die huidige oomblik van ontwikkelingsmark.

’n Groot deel van ’n datawetenskaplike se werk is om in die data in te gaan, te verstaan ​​wat daar lê, te konsulteer met die mense wat verantwoordelik is vir besigheidsprosesse en hierdie data te genereer – en dit dan eers te gebruik om modelle te bou. Om met groot data te begin werk, is dit uiters belangrik om ingenieursvaardighede te hê – dit maak dit baie makliker om skerp hoeke te vermy, waarvan daar baie in datawetenskap is.

'n Tipiese storie: jy het 'n navraag in SQL geskryf wat uitgevoer word met die Hive-raamwerk wat op groot data loop. Die versoek word in tien minute verwerk, in die ergste geval - in 'n uur of twee, en dikwels, wanneer jy aflaaie van hierdie data ontvang, besef jy dat jy vergeet het om een ​​of ander faktor of bykomende inligting in ag te neem. Jy moet die versoek weer stuur en hierdie minute en ure wag. As jy 'n doeltreffendheidsgenie is, sal jy 'n ander taak aanpak, maar, soos die praktyk toon, het ons min doeltreffendheidsgenieë, en mense wag net. Daarom sal ons in die kursusse baie tyd aan werkdoeltreffendheid bestee om aanvanklik navrae te skryf wat nie vir twee uur werk nie, maar vir etlike minute. Hierdie vaardigheid vermenigvuldig produktiwiteit, en daarmee saam die waarde van 'n spesialis.

– Hoe verskil Ozon Masters van ander kursusse?

— Ozon Masters word deur Ozon-werknemers onderrig, en die take is gebaseer op werklike sakegevalle wat in maatskappye opgelos word. Trouens, bykomend tot die gebrek aan ingenieursvaardighede, het 'n persoon wat datawetenskap aan die universiteit gestudeer het nog 'n probleem: die taak van 'n besigheid is geformuleer in die taal van besigheid, en sy doel is redelik eenvoudig: om meer geld te verdien. En 'n wiskundige weet goed hoe om wiskundige statistieke te optimaliseer - maar om 'n aanwyser te vind wat met 'n besigheidsmetriek sal korreleer, is moeilik. En jy moet verstaan ​​dat jy besig is om 'n besigheidsprobleem op te los, en saam met die besigheid maatstawwe formuleer wat wiskundig geoptimaliseer kan word. Hierdie vaardigheid word verkry deur werklike gevalle, en hulle word deur Ozon gegee.
En selfs al ignoreer ons die gevalle, word die skool deur baie praktisyns onderrig wat sakeprobleme in regte maatskappye oplos. Gevolglik is die benadering tot onderrig self steeds meer praktykgerig. Ek sal ten minste in my kursus probeer om die fokus te verskuif na hoe om die gereedskap te gebruik, watter benaderings bestaan, ensovoorts. Saam met die studente sal ons verstaan ​​dat elke taak sy eie instrument het, en elke instrument het sy toepaslike area.

- Die bekendste opleidingsprogram vir data-analise is natuurlik ShAD - wat presies is die verskil daarvan?

— Dit is duidelik dat ShAD en Ozon Masters, benewens die opvoedkundige funksie, die plaaslike probleem van personeelopleiding oplos. Top SHAD-gegradueerdes word hoofsaaklik na Yandex gewerf, maar die vangplek is dat Yandex, as gevolg van sy besonderhede - en dit is groot en is geskep toe daar min goeie nutsmiddels was om met groot data te werk - sy eie infrastruktuur en gereedskap het om met data te werk. , wat beteken, jy sal hulle moet bemeester. Ozon Masters het 'n ander boodskap - as jy die program suksesvol bemeester het en Ozon of een van die 99% van ander maatskappye nooi jou om te werk, sal dit baie makliker wees om die besigheid te begin bevoordeel; die vaardighede wat as deel van Ozon Masters aangeleer is sal genoeg wees om net te begin werk.

— Die kursus duur twee jaar. Hoekom moet jy soveel tyd hieraan spandeer?

- Goeie vraag. Dit neem lank, want in terme van inhoud en die vlak van onderwysers is hierdie 'n integrale meestersgraadprogram wat baie tyd verg om te bemeester, insluitend huiswerk.

Vanuit my kursusperspektief is dit algemeen om van 'n student te verwag om 2-3 uur per week aan werkopdragte te bestee. Eerstens word take op 'n opleidingskluster uitgevoer, en enige gedeelde groep impliseer dat verskeie mense dit gelyktydig gebruik. Dit wil sê, jy sal moet wag vir die taak om te begin uitvoer; sommige hulpbronne kan gekies word en oorgedra word na 'n hoër prioriteit tou. Aan die ander kant neem enige werk met groot data baie tyd in beslag.

As jy nog vrae het oor die program, werk met groot data of ingenieursvaardighede, hou Ozon Masters 'n aanlyn opedag op Saterdag, 25 April om 12:00. Ons ontmoet met onderwysers en studente in Klik op en YouTube.

Bron: will.com

Voeg 'n opmerking