Pavel Klemenkov, NVIDIA: Pokušavamo da smanjimo jaz između onoga što naučnik podataka može da uradi i onoga što bi trebalo da bude u stanju da uradi

Počeo je drugi prijem studenata na magistarski program nauke o podacima i poslovne inteligencije Ozon Masters – a kako bismo lakše odlučili da ostavite prijavu i polažete online testiranje, pitali smo profesore programa šta očekivati ​​od studiranja i rada sa podacima.

Pavel Klemenkov, NVIDIA: Pokušavamo da smanjimo jaz između onoga što naučnik podataka može da uradi i onoga što bi trebalo da bude u stanju da uradi Glavni Data Scientist NVIDIA i nastavnik kursevi Big Data i Data Engineering Pavel Klemenkov je govorio o tome zašto matematičari treba da pišu kod i studiraju na Ozon Mastersu dve godine.

— Ima li mnogo kompanija koje koriste algoritme nauke o podacima?

- Zapravo dosta. Dosta velikih kompanija koje imaju zaista velike podatke ili počinju djelotvorno da rade s njima ili rade s njima već duže vrijeme. Jasno je da polovina tržišta koristi podatke koji mogu stati u Excel tabelu ili se mogu izračunati na velikom serveru, ali se ne može reći da postoji samo nekoliko preduzeća koja mogu raditi s podacima.

— Recite nam nešto o projektima u kojima se koristi nauka o podacima.

— Na primjer, dok smo radili u Rambleru, pravili smo sistem oglašavanja koji je radio na principima RTB-a (Real Time Bidding) – trebali smo izgraditi mnogo modela koji bi optimizirali kupovinu oglašavanja ili, na primjer, mogli predvidjeti vjerovatnoću klika, konverzije i tako dalje. Istovremeno, aukcija oglašavanja generira mnogo podataka: evidencije zahtjeva za web-lokaciju potencijalnim kupcima oglašavanja, evidencije impresija oglašavanja, evidencije klikova - to su desetine terabajta podataka dnevno.

Štaviše, za ove zadatke uočili smo zanimljiv fenomen: što više podataka date za obuku modela, to je veći njegov kvalitet. Obično, nakon određene količine podataka, kvalitet prognoze prestaje da se poboljšava, a da biste dodatno poboljšali tačnost, potrebno je koristiti fundamentalno drugačiji model, drugačiji pristup pripremi podataka, karakteristika i tako dalje. Ovdje smo učitali više podataka i kvalitet se povećao.

Ovo je tipičan slučaj kada su analitičari prvo morali da rade sa velikim skupovima podataka da bi barem sproveli eksperiment i gde je bilo nemoguće proći sa malim uzorkom koji stane u udoban MacBook. Istovremeno, bili su nam potrebni distribuirani modeli, jer se inače ne bi mogli obučiti. Sa uvođenjem kompjuterskog vida u proizvodnju, ovakvi primjeri su sve češći, jer su slike velika količina podataka, a za treniranje velikog modela potrebni su milioni slika.

Odmah se postavlja pitanje: kako pohraniti sve te informacije, kako ih efikasno obraditi, kako koristiti distribuirane algoritme učenja – fokus se pomjera sa čiste matematike na inženjerstvo. Čak i ako ne pišete kod u produkciji, morate biti u mogućnosti da radite sa inženjerskim alatima da biste sproveli eksperiment.

— Kako se pristup upražnjenim radnim mjestima u nauci o podacima promijenio posljednjih godina?

— Veliki podaci su prestali da budu hype i postali su stvarnost. Tvrdi diskovi su prilično jeftini, što znači da je moguće prikupiti sve podatke kako bi ih u budućnosti bilo dovoljno za testiranje bilo koje hipoteze. Kao rezultat toga, znanje o alatima za rad s velikim podacima postaje vrlo popularno, a kao rezultat toga, pojavljuje se sve više radnih mjesta za inženjere podataka.

Po mom shvatanju, rezultat rada naučnika podataka nije eksperiment, već proizvod koji je stigao u proizvodnju. I upravo sa ove tačke gledišta, prije pojave pompe oko velikih podataka, proces je bio jednostavniji: inženjeri su se bavili strojnim učenjem kako bi riješili specifične probleme, a nije bilo problema s dovođenjem algoritama u proizvodnju.

— Šta je potrebno da ostanete traženi specijalista?

— Sada su u nauku o podacima došli mnogi ljudi koji su studirali matematiku, teoriju mašinskog učenja i učestvovali u takmičenjima u analizi podataka, gde je obezbeđena gotova infrastruktura: podaci se čiste, metrika se definiše i nema zahtjevi da rješenje bude ponovljivo i brzo.

Kao rezultat toga, momci dolaze na posao loše pripremljeni za realnost poslovanja, a stvara se jaz između početnika i iskusnih programera.

Razvojem alata koji vam omogućavaju da sastavite vlastiti model od gotovih modula – a Microsoft, Google i mnogi drugi već imaju takva rješenja – i automatizacijom mašinskog učenja, ovaj jaz će postati još izraženiji. U budućnosti će profesija biti tražena za ozbiljne istraživače koji smišljaju nove algoritme, te zaposlenike sa razvijenim inženjerskim vještinama koji će implementirati modele i automatizirati procese. Ozon Masters kurs iz inženjerstva podataka je dizajniran da razvije inženjerske vještine i sposobnost korištenja distribuiranih algoritama za strojno učenje na velikim podacima. Pokušavamo da smanjimo jaz između onoga što naučnik podataka može da uradi i onoga što bi trebalo da bude u stanju da uradi u praksi.

— Zašto bi matematičar sa diplomom trebao da studira biznis?

— Ruska zajednica nauke o podacima je shvatila da se vještina i iskustvo vrlo brzo pretvaraju u novac, stoga, čim stručnjak ima praktično iskustvo, njegov trošak počinje vrlo brzo rasti, najvještiji ljudi su vrlo skupi - i to je tačno u trenutnom trenutku razvoja tržišta.

Veliki dio posla naučnika podataka je da uđe u podatke, shvati šta se tu nalazi, konsultuje se sa ljudima koji su odgovorni za poslovne procese i generišu te podatke – i tek onda ih koriste za izgradnju modela. Da biste počeli raditi s velikim podacima, izuzetno je važno posjedovati inženjerske vještine - to znatno olakšava izbjegavanje oštrih uglova, kojih u nauci o podacima ima mnogo.

Tipična priča: napisali ste upit u SQL-u koji se izvršava pomoću Hive frameworka koji radi na velikim podacima. Zahtjev se obrađuje za deset minuta, u najgorem slučaju - za sat-dva, a često, kada dobijete preuzimanja ovih podataka, shvatite da ste zaboravili uzeti u obzir neki faktor ili dodatnu informaciju. Morate ponovo poslati zahtjev i pričekati ove minute i sate. Ako ste genije za efikasnost, prihvatićete još jedan zadatak, ali, kao što praksa pokazuje, imamo malo genija efikasnosti, a ljudi samo čekaju. Stoga ćemo na kursevima posvetiti dosta vremena efikasnosti rada kako bismo u početku pisali upite koji ne rade dva sata, već nekoliko minuta. Ova vještina umnožava produktivnost, a time i vrijednost stručnjaka.

– Po čemu se Ozon Masters razlikuje od drugih kurseva?

— Ozon Masters predaju zaposleni u Ozonu, a zadaci su zasnovani na stvarnim poslovnim slučajevima koji se rješavaju u kompanijama. Zapravo, pored nedostatka inženjerskih vještina, osoba koja je studirala nauku o podacima na fakultetu ima još jedan problem: zadatak poslovanja je formulisan na poslovnom jeziku, a cilj mu je prilično jednostavan: zaraditi više novca. A matematičar dobro zna kako optimizirati matematičku metriku - ali teško je pronaći indikator koji će korelirati s poslovnom metrikom. I morate shvatiti da rješavate poslovni problem, te zajedno s poslom formulirati metriku koja se može matematički optimizirati. Ova vještina se stječe kroz stvarne slučajeve, a daje ih Ozon.
A čak i ako zanemarimo slučajeve, školu predaju mnogi praktičari koji rješavaju poslovne probleme u pravim kompanijama. Kao rezultat toga, sam pristup nastavi je i dalje više orijentisan na praksu. Barem u svom kursu, pokušaću da prebacim fokus na to kako koristiti alate, koji pristupi postoje itd. Zajedno sa studentima shvatićemo da svaki zadatak ima svoj alat, a svaki alat ima svoje područje primjene.

— Najpoznatiji program obuke analize podataka, naravno, je ShAD — u čemu je tačno razlika od njega?

— Jasno je da ShAD i Ozon Masters, pored obrazovne funkcije, rješavaju lokalni problem obuke kadrova. Najbolji diplomci SHAD-a prvenstveno se regrutuju u Yandex, ali kvaka je u tome što Yandex, zbog svojih specifičnosti – a veliki je i nastao je kada je bilo malo dobrih alata za rad s velikim podacima – ima svoju infrastrukturu i alate za rad s podacima. , što znači da ćete ih morati savladati. Ozon Masters ima drugačiju poruku - ako ste uspješno savladali program, a Ozon ili neka od 99% drugih kompanija vas pozove na posao, bit će vam mnogo lakše početi koristiti posao; skup vještina stečenih u sklopu Ozon Masters-a biće dovoljno da samo počnete sa radom.

— Kurs traje dvije godine. Zašto trebate potrošiti toliko vremena na ovo?

- Dobro pitanje. Traje dosta vremena, jer je po sadržaju i nivou nastavnika ovo integralni magistarski program koji zahtijeva dosta vremena za savladavanje, uključujući i domaće zadatke.

Iz moje perspektive kursa, uobičajeno je očekivati ​​da student provede 2-3 sata sedmično na zadacima. Prvo, zadaci se izvode na klasteru za obuku, a svaki zajednički klaster podrazumijeva da ga više ljudi koristi istovremeno. To jest, morat ćete pričekati da se zadatak počne izvršavati; neki resursi mogu biti odabrani i prebačeni u red s višim prioritetom. S druge strane, svaki rad sa velikim podacima oduzima dosta vremena.

Ako imate još pitanja o programu, radu s velikim podacima ili inženjerskim vještinama, Ozon Masters ima online dan otvorenih vrata u subotu, 25. aprila u 12:00. Sastajemo se sa nastavnicima i učenicima u Zum i dalje YouTube.

izvor: www.habr.com

Dodajte komentar