Pavel Klemenkov, NVIDIA: Poskušamo zmanjšati vrzel med tem, kaj podatkovni znanstvenik lahko naredi, in tem, kar bi moral biti sposoben narediti

Začel se je drugi sprejem študentov magistrskega programa podatkovne znanosti in poslovne inteligence Ozon Masters – in da bi se lažje odločili za oddajo prijave in opravljanje spletnega testa, smo učitelje programa povprašali, kaj lahko pričakujemo od študija in dela. s podatki.

Pavel Klemenkov, NVIDIA: Poskušamo zmanjšati vrzel med tem, kaj podatkovni znanstvenik lahko naredi, in tem, kar bi moral biti sposoben narediti Glavni podatkovni znanstvenik NVIDIA in učitelj tečaji Big Data in Data Engineering Pavel Klemenkov je spregovoril o tem, zakaj morajo matematiki pisati kodo in se dve leti učiti na Ozon Mastersu.

— Ali obstaja veliko podjetij, ki uporabljajo algoritme podatkovne znanosti?

- Pravzaprav precej. Precej velikih podjetij, ki imajo res velike podatke, začnejo z njimi učinkovito delati ali pa z njimi delajo že dolgo. Jasno je, da polovica trga uporablja podatke, ki se lahko prilegajo v Excelovo preglednico ali jih je mogoče izračunati na velikem strežniku, vendar ni mogoče reči, da je le nekaj podjetij, ki lahko delajo s podatki.

— Povejte nam nekaj o projektih, kjer se uporablja podatkovna znanost.

— Na primer, ko smo delali pri Ramblerju, smo izdelovali oglaševalski sistem, ki je deloval po načelih RTB (Real Time Bidding) - zgraditi smo morali veliko modelov, ki bi optimizirali nakup oglaševanja ali bi lahko na primer predvideli verjetnost klika, konverzije itd. Hkrati oglaševalska dražba ustvari veliko podatkov: dnevnike povpraševanj po spletnih mestih potencialnih kupcev oglaševanja, dnevnike oglasnih prikazov, dnevnike klikov - to je na desetine terabajtov podatkov na dan.

Poleg tega smo pri teh nalogah opazili zanimiv pojav: več podatkov kot daste za usposabljanje modela, višja je njegova kakovost. Običajno se po določeni količini podatkov kakovost napovedi ne izboljšuje in za nadaljnje izboljšanje natančnosti morate uporabiti bistveno drugačen model, drugačen pristop k pripravi podatkov, lastnosti itd. Tukaj smo naložili več podatkov in kakovost se je povečala.

To je tipičen primer, ko so morali analitiki najprej delati z velikimi nabori podatkov, da bi vsaj izvedli poskus, in kjer je bilo nemogoče preživeti z majhnim vzorcem, ki se prilega udobnemu MacBooku. Hkrati smo potrebovali porazdeljene modele, saj jih drugače ni bilo mogoče usposobiti. Z uvedbo računalniškega vida v proizvodnjo je takšnih primerov vse več, saj so slike velika količina podatkov, za šolanje velikega modela pa je potrebnih na milijone slik.

Takoj se pojavi vprašanje: kako shraniti vse te informacije, kako jih učinkovito obdelati, kako uporabljati algoritme porazdeljenega učenja – fokus se s čiste matematike seli na inženiring. Tudi če ne pišete kode v produkciji, morate biti sposobni delati z inženirskimi orodji, da izvedete poskus.

— Kako se je pristop k prostim delovnim mestom v znanosti o podatkih spremenil v zadnjih letih?

— Veliki podatki niso več hype in so postali resničnost. Trdi diski so precej poceni, kar pomeni, da je mogoče zbrati vse podatke, da jih bo v prihodnosti dovolj za preverjanje morebitnih hipotez. Posledično postaja poznavanje orodij za delo z velikimi podatki zelo popularno, posledično pa se pojavlja vedno več prostih delovnih mest za podatkovne inženirje.

Po mojem mnenju rezultat dela podatkovnega znanstvenika ni eksperiment, ampak izdelek, ki je dosegel proizvodnjo. In prav s tega vidika je bil pred pojavom navdušenja nad velikimi podatki proces enostavnejši: inženirji so se ukvarjali s strojnim učenjem za reševanje specifičnih problemov in ni bilo težav s prenosom algoritmov v proizvodnjo.

— Kaj je potrebno, da ostaneš iskan strokovnjak?

— Zdaj je v znanost o podatkih prišlo veliko ljudi, ki so študirali matematiko, teorijo strojnega učenja in sodelovali na tekmovanjih v analizi podatkov, kjer je zagotovljena že pripravljena infrastruktura: podatki so očiščeni, metrike definirane in ni zahteva, da je rešitev ponovljiva in hitra.

Posledično pridejo fantje na delo slabo pripravljeni na realnost poslovanja, med novinci in izkušenimi razvijalci pa nastane vrzel.

Z razvojem orodij, ki vam omogočajo sestavljanje lastnega modela iz že pripravljenih modulov – Microsoft, Google in številni drugi pa takšne rešitve že imajo – ter avtomatizacijo strojnega učenja bo ta vrzel postala še bolj izrazita. V prihodnosti bodo poklici iskani po resnih raziskovalcih, ki se bodo domislili novih algoritmov, in zaposlenih z razvitimi inženirskimi veščinami, ki bodo implementirali modele in avtomatizirali procese. Tečaj Ozon Masters v podatkovnem inženiringu je zasnovan za razvoj inženirskih veščin in sposobnosti uporabe algoritmov porazdeljenega strojnega učenja na velikih podatkih. Poskušamo zmanjšati razkorak med tem, kaj podatkovni znanstvenik lahko naredi, in tem, kar bi moral biti sposoben narediti v praksi.

— Zakaj bi moral matematik z diplomo študirat posel?

— Ruska podatkovna znanstvena skupnost je spoznala, da se spretnost in izkušnje zelo hitro pretvorijo v denar, zato takoj, ko ima specialist praktične izkušnje, njegovi stroški začnejo zelo hitro rasti, najbolj usposobljeni ljudje so zelo dragi - in to velja v trenutnem trenutku razvoja trga.

Velik del naloge podatkovnega znanstvenika je, da se poglobi v podatke, razume, kaj se tam skriva, posvetuje z ljudmi, ki so odgovorni za poslovne procese, in ustvari te podatke – in jih šele nato uporabi za izdelavo modelov. Za začetek dela z velikimi podatki je izredno pomembno imeti inženirske veščine – tako se je veliko lažje izogniti ostrim vogalom, ki jih je v podatkovni znanosti veliko.

Tipična zgodba: napisali ste poizvedbo v SQL, ki se izvaja z uporabo ogrodja Hive, ki deluje na velikih podatkih. Zahteva je obdelana v desetih minutah, v najslabšem primeru - v uri ali dveh in pogosto, ko prejmete prenose teh podatkov, ugotovite, da ste pozabili upoštevati kakšen dejavnik ali dodatne informacije. Ponovno morate poslati zahtevo in počakati te minute in ure. Če ste genij učinkovitosti, boste prevzeli drugo nalogo, a kot kaže praksa, imamo malo genijev učinkovitosti in ljudje samo čakajo. Zato bomo na tečajih veliko časa posvetili delovni učinkovitosti, da bi sprva napisali poizvedbe, ki ne delujejo dve uri, ampak nekaj minut. Ta veščina pomnoži produktivnost in s tem vrednost strokovnjaka.

– Kako se Ozon Masters razlikuje od drugih tečajev?

— Ozon Masters poučujejo zaposleni v Ozonu, naloge pa temeljijo na realnih poslovnih primerih, ki se rešujejo v podjetjih. Pravzaprav ima oseba, ki je študirala podatkovno znanost na univerzi, poleg pomanjkanja inženirskih znanj še eno težavo: naloga podjetja je oblikovana v jeziku poslovanja, njegov cilj pa je povsem preprost: zaslužiti več denarja. In matematik dobro ve, kako optimizirati matematične metrike - vendar je težko najti indikator, ki bo v korelaciji s poslovno metriko. Razumeti morate, da rešujete poslovni problem, in skupaj s podjetjem oblikovati metrike, ki jih je mogoče matematično optimizirati. To veščino pridobijo na resničnih primerih, podarja pa jih Ozon.
In tudi če slučaje zanemarimo, šolo poučuje veliko praktikov, ki rešujejo poslovne probleme v realnih podjetjih. Zato je sam pristop k poučevanju še vedno bolj usmerjen v prakso. Vsaj pri svojem predmetu bom skušal preusmeriti fokus na to, kako uporabljati orodja, kakšni pristopi obstajajo ipd. Skupaj s študenti bomo razumeli, da ima vsaka naloga svoje orodje in vsako orodje svoje področje uporabe.

— Najbolj znan program usposabljanja za analizo podatkov je seveda ShaAD — v čem je točno razlika od njega?

— Jasno je, da ShaAD in Ozon Masters poleg izobraževalne funkcije rešujeta lokalni problem usposabljanja osebja. Najboljše diplomante SHAD primarno rekrutirajo v Yandex, a fora je v tem, da ima Yandex zaradi svoje specifike – ta je velik in je nastal, ko je bilo malo dobrih orodij za delo z velikimi podatki – lastno infrastrukturo in orodja za delo s podatki. , kar pomeni , jih boste morali obvladati. Ozon Masters ima drugačno sporočilo - če ste uspešno osvojili program in vas Ozon ali eno od 99% drugih podjetij povabi na delo, boste veliko lažje začeli koristiti poslu; nabor veščin, pridobljen v okviru Ozon Masters bo dovolj, da šele začnete delati.

— Tečaj traja dve leti. Zakaj morate porabiti toliko časa za to?

- Dobro vprašanje. Traja dolgo časa, saj je to po vsebini in stopnji učiteljev celovit magistrski program, ki zahteva veliko časa za obvladovanje, tudi domače naloge.

Z moje perspektive tečaja je pričakovati, da študent porabi 2-3 ure na teden za naloge, kar je običajno. Prvič, naloge se izvajajo na vadbeni gruči, vsaka skupna gruče pa pomeni, da jo uporablja več ljudi hkrati. To pomeni, da boste morali počakati, da se naloga začne izvajati; nekateri viri bodo morda izbrani in preneseni v čakalno vrsto z višjo prioriteto. Po drugi strani pa vsako delo z velikimi podatki zahteva veliko časa.

Če imate še kakšno vprašanje o programu, delu z velikimi podatki ali inženirskih veščinah, ima Ozon Masters v soboto, 25. aprila ob 12 spletni dan odprtih vrat. Z učitelji in učenci se srečamo v Zoom in YouTube.

Vir: www.habr.com

Dodaj komentar