Pavel Klemenkov, NVIDIA: Pokušavamo smanjiti jaz između onoga što podatkovni znanstvenik može učiniti i onoga što bi trebao moći učiniti

Počeo je drugi upis studenata magistarskog programa znanosti o podacima i poslovne inteligencije Ozon Masters – a kako bismo se lakše odlučili na prijavu i polaganje online testa, pitali smo nastavnike programa što očekivati ​​od studiranja i rada s podacima.

Pavel Klemenkov, NVIDIA: Pokušavamo smanjiti jaz između onoga što podatkovni znanstvenik može učiniti i onoga što bi trebao moći učiniti Chief Data Scientist NVIDIA i učitelj tečajevi Big Data i Data Engineering Pavel Klemenkov govorio je o tome zašto matematičari moraju pisati kod i učiti na Ozon Mastersu dvije godine.

— Postoji li mnogo tvrtki koje koriste algoritme znanosti o podacima?

- Zapravo dosta. Priličan broj velikih tvrtki koje imaju stvarno velike podatke ili počinju učinkovito raditi s njima ili rade s njima već duže vrijeme. Jasno je da polovica tržišta koristi podatke koji mogu stati u Excel proračunsku tablicu ili se mogu izračunati na velikom poslužitelju, ali ne može se reći da postoji samo nekoliko tvrtki koje mogu raditi s podacima.

— Recite nam nešto o projektima u kojima se koristi podatkovna znanost.

— Na primjer, dok smo radili u Rambleru, izrađivali smo sustav oglašavanja koji je radio na principima RTB-a (Real Time Bidding) - trebali smo izgraditi mnoge modele koji bi optimizirali kupnju oglašavanja ili, na primjer, mogli predvidjeti vjerojatnost klika, konverzije i tako dalje. Istodobno, dražba oglašavanja generira mnogo podataka: zapise zahtjeva za web mjesto potencijalnih kupaca oglašavanja, zapise pojavljivanja oglasa, zapise klikova - to su deseci terabajta podataka dnevno.

Štoviše, za ove smo zadatke uočili zanimljiv fenomen: što više podataka date za obuku modela, to je njegova kvaliteta veća. Obično, nakon određene količine podataka, kvaliteta prognoze se prestaje poboljšavati, a za daljnje poboljšanje točnosti potrebno je koristiti bitno drugačiji model, drugačiji pristup pripremi podataka, značajke i tako dalje. Ovdje smo učitali više podataka i kvaliteta se povećala.

Ovo je tipičan slučaj u kojem su analitičari prvo morali raditi s velikim skupovima podataka kako bi barem proveli eksperiment i gdje je bilo nemoguće proći s malim uzorkom koji stane u udoban MacBook. U isto vrijeme, trebali smo distribuirane modele, jer se inače ne bi mogli trenirati. Uvođenjem računalnog vida u proizvodnju ovakvi primjeri su sve češći, budući da su slike velika količina podataka, a za treniranje velikog modela potrebni su milijuni slika.

Odmah se postavlja pitanje: kako pohraniti sve te informacije, kako ih učinkovito obraditi, kako koristiti distribuirane algoritme učenja – fokus se pomiče sa čiste matematike na inženjerstvo. Čak i ako ne pišete kod u proizvodnji, morate znati raditi s inženjerskim alatima da biste proveli eksperiment.

— Kako se pristup slobodnim radnim mjestima u znanosti o podacima promijenio posljednjih godina?

— Big data je prestala biti hype i postala je stvarnost. Tvrdi diskovi su prilično jeftini, što znači da je moguće prikupiti sve podatke kako bi ih u budućnosti bilo dovoljno za testiranje bilo koje hipoteze. Kao rezultat toga, poznavanje alata za rad s velikim podacima postaje vrlo popularno, a samim time i sve više slobodnih radnih mjesta za podatkovne inženjere.

Po mom razumijevanju, rezultat rada podatkovnog znanstvenika nije eksperiment, već proizvod koji je došao do proizvodnje. I upravo s ove točke gledišta, prije pojave pompe oko velikih podataka, proces je bio jednostavniji: inženjeri su se bavili strojnim učenjem za rješavanje specifičnih problema i nije bilo problema s dovođenjem algoritama u proizvodnju.

— Što je potrebno da ostanete traženi stručnjak?

— Sada su mnogi ljudi došli u podatkovnu znanost koji su proučavali matematiku, teoriju strojnog učenja i sudjelovali u natjecanjima u analizi podataka, gdje je osigurana gotova infrastruktura: podaci su očišćeni, metrika definirana, a nema zahtjevi da rješenje bude ponovljivo i brzo.

Kao rezultat toga, dečki dolaze na posao loše pripremljeni za stvarnost poslovanja, a između početnika i iskusnih programera stvara se jaz.

Razvojem alata koji vam omogućuju sastavljanje vlastitog modela od gotovih modula – a Microsoft, Google i mnogi drugi već imaju takva rješenja – te automatizacijom strojnog učenja taj će jaz postati još izraženiji. U budućnosti će struka biti tražena za ozbiljne istraživače koji smišljaju nove algoritme, te zaposlenike s razvijenim inženjerskim vještinama koji će implementirati modele i automatizirati procese. Ozon Masters tečaj za podatkovno inženjerstvo osmišljen je za razvoj inženjerskih vještina i sposobnosti korištenja distribuiranih algoritama strojnog učenja na velikim podacima. Pokušavamo smanjiti jaz između onoga što podatkovni znanstvenik može učiniti i onoga što bi trebao biti u stanju učiniti u praksi.

— Zašto bi diplomirani matematičar trebao ići studirati biznis?

— Ruska zajednica znanosti o podacima shvatila je da se vještina i iskustvo vrlo brzo pretvaraju u novac, stoga, čim stručnjak stekne praktično iskustvo, njegov trošak počinje rasti vrlo brzo, najvještiji ljudi su vrlo skupi - a ovo vrijedi u trenutnom trenutku razvoja tržišta.

Velik dio posla podatkovnog znanstvenika je ući u podatke, razumjeti što se tamo nalazi, konzultirati se s ljudima koji su odgovorni za poslovne procese i generirati te podatke – a tek onda ih koristiti za izradu modela. Za početak rada s velikim podacima izuzetno je važno posjedovati inženjerske vještine - to znatno olakšava izbjegavanje oštrih kutova, kojih u podatkovnoj znanosti ima mnogo.

Tipična priča: napisali ste upit u SQL-u koji se izvršava pomoću okvira Hive koji radi na velikim podacima. Zahtjev se obradi za desetak minuta, u najgorem slučaju za sat-dva, a često, kada dobijete download tih podataka, shvatite da ste zaboravili uzeti u obzir neki faktor ili dodatnu informaciju. Morate ponovno poslati zahtjev i pričekati ove minute i sate. Ako ste genij za učinkovitost, prihvatit ćete se drugog zadatka, ali, kao što praksa pokazuje, imamo malo genija za učinkovitost, a ljudi samo čekaju. Stoga ćemo na tečajevima posvetiti puno vremena učinkovitosti rada kako bismo u početku pisali upite koji rade ne dva sata, već nekoliko minuta. Ova vještina višestruko povećava produktivnost, a time i vrijednost stručnjaka.

– Po čemu se Ozon Masters razlikuje od ostalih tečajeva?

— Ozon Masters podučavaju zaposlenici Ozona, a zadaci se temelje na stvarnim poslovnim slučajevima koji se rješavaju u tvrtkama. Zapravo, osim nedostatka inženjerskih vještina, osoba koja je studirala podatkovnu znanost na sveučilištu ima još jedan problem: zadatak poduzeća formuliran je jezikom poslovanja, a cilj mu je vrlo jednostavan: zaraditi više novca. A matematičar dobro zna kako optimizirati matematičku metriku – ali teško je pronaći pokazatelj koji će korelirati s poslovnom metrikom. I morate shvatiti da rješavate poslovni problem, te zajedno s poslom formulirati metriku koja se može matematički optimizirati. Ova vještina se stječe na stvarnim slučajevima, a daje ih Ozon.
Čak i ako zanemarimo slučajeve, školu predaju mnogi praktičari koji rješavaju poslovne probleme u stvarnim tvrtkama. Zbog toga je sam pristup nastavi još uvijek više orijentiran na praksu. Barem ću u svom tečaju pokušati prebaciti fokus na to kako koristiti alate, koji pristupi postoje i tako dalje. Zajedno s učenicima ćemo shvatiti da svaki zadatak ima svoj alat, a svaki alat ima svoje područje primjene.

— Najpoznatiji program obuke za analizu podataka je, naravno, ShaAD — koja je točno razlika od njega?

— Jasno je da ShAD i Ozon Masters, osim obrazovne funkcije, rješavaju lokalni problem školovanja kadrova. Najbolji SHAD diplomanti primarno se regrutiraju u Yandex, no caka je u tome što Yandex zbog svoje specifičnosti – a velik je i nastao je kad je bilo malo dobrih alata za rad s velikim podacima – ima svoju infrastrukturu i alate za rad s podacima , što znači , morat ćete ih svladati. Ozon Masters ima drugačiju poruku - ako ste uspješno savladali program i Ozon ili neka od 99% drugih tvrtki vas pozove na posao, bit će vam puno lakše početi koristiti poslu; skup vještina stečenih u sklopu Ozon Mastersa bit će dovoljno samo početi raditi.

— Tečaj traje dvije godine. Zašto morate potrošiti toliko vremena na ovo?

- Dobro pitanje. Dugo traje, jer je to po sadržaju i razini predavača cjeloviti magistarski program koji zahtijeva puno vremena za svladavanje, uključujući i domaće zadaće.

Iz moje perspektive kolegija, uobičajeno je očekivati ​​da student provede 2-3 sata tjedno na zadacima. Prvo, zadaci se izvode na trenažnom klasteru, a svaki dijeljeni klaster podrazumijeva da ga više ljudi koristi istovremeno. To jest, morat ćete pričekati da se zadatak počne izvršavati; neki resursi mogu biti odabrani i prebačeni u red višeg prioriteta. S druge strane, svaki rad s velikim podacima oduzima puno vremena.

Ako imate još pitanja o programu, radu s velikim podacima ili inženjerskim vještinama, Ozon Masters u subotu, 25. travnja u 12:00 održava online otvoren dan. Sastajemo se s profesorima i učenicima u Zum i YouTube.

Izvor: www.habr.com

Dodajte komentar