Pavel Klemenkov, NVIDIA: Datu-zientzialari batek egin dezakeenaren eta egin beharko lukeenaren arteko aldea murrizten saiatzen ari gara.

Datuen zientzian eta negozio adimenean masterreko ikasleen bigarren sarrera hasi da Ozon Masters - eta aplikazio bat utzi eta lineako proba egitea errazteko, programako irakasleei galdetu diegu zer espero duten ikasketak eta lan egiteak. datuekin.

Pavel Klemenkov, NVIDIA: Datu-zientzialari batek egin dezakeenaren eta egin beharko lukeenaren arteko aldea murrizten saiatzen ari gara. NVIDIA datu-zientzialari nagusia eta irakaslea Big Data eta Datuen Ingeniaritza ikastaroak Pavel Klemenkovek matematikariek kodea idatzi eta ikasi behar duten Ozon Masters-en bi urtez hitz egin zuen.

β€” Datu zientzien algoritmoak erabiltzen dituzten enpresa asko daude?

- Egia esan, asko. Datu benetan handiak dituzten enpresa handi asko edo eraginkortasunez lan egiten hasi dira edo denbora luzez lanean ari dira. Argi dago merkatuaren erdiak Excel kalkulu-orri batean sartu daitezkeen edo zerbitzari handi batean kalkula daitezkeen datuak erabiltzen dituela, baina ezin da esan datuekin lan egin dezaketen negozio gutxi batzuk daudenik.

β€” Kontaiguzu pixka bat datu-zientzia erabiltzen den proiektuei buruz.

β€” Esaterako, Rambler-en lanean ari ginen bitartean, RTB (Real Time Bidding) printzipioetan lan egiten zuen publizitate sistema bat egiten ari ginen - publizitatearen erosketa optimizatuko zuten eredu asko eraiki behar genituen edo, adibidez, probabilitatea iragar zezaketen. klik batena, bihurketa eta abar. Aldi berean, publizitate-enkante batek datu asko sortzen ditu: publizitate-erosle potentzialentzako gune-eskaeren erregistroak, publizitate-inpresioen erregistroak, kliken erregistroak - eguneko hamarnaka terabyteko datu da.

Gainera, zeregin horietarako fenomeno interesgarri bat ikusi dugu: zenbat eta datu gehiago eman eredua entrenatzeko, orduan eta kalitate handiagoa. Normalean, datu kopuru jakin baten ondoren, iragarpenaren kalitateak hobetzeari uzten dio, eta zehaztasuna are gehiago hobetzeko, funtsean bestelako eredu bat erabili behar duzu, datuak, ezaugarriak eta abar prestatzeko beste ikuspegi bat. Hemen datu gehiago igo ditugu eta kalitatea handitu da.

Analistek, lehenik eta behin, datu multzo handiekin lan egin behar izan zuten kasu tipikoa da, gutxienez esperimentu bat egiteko, eta ezinezkoa zen MacBook eroso batean sartzen den lagin txiki batekin aurrera ateratzea. Aldi berean, eredu banatuak behar genituen, bestela ezin baitziren trebatu. Ordenagailu bidezko ikusmena ekoizpenean sartzearekin batera, horrelako adibideak gero eta ohikoagoak dira, irudiak datu kopuru handia baitira, eta modelo handi bat trebatzeko, milioika argazki behar dira.

Galdera berehala sortzen da: nola gorde informazio hori guztia, nola prozesatu eraginkortasunez, nola erabili banatutako ikaskuntza algoritmoak - fokua matematika hutsetik ingeniaritzara pasatzen ari da. Produkzioan kodea idazten ez baduzu ere, esperimentu bat egiteko ingeniaritza tresnekin lan egin behar duzu.

β€” Nola aldatu da azken urteotan datu zientzietako lanpostu hutsen planteamendua?

β€” Big data hype izateari utzi eta errealitate bihurtu da. Disko gogorrak nahiko merkeak dira, hau da, datu guztiak biltzea posible da, etorkizunean hipotesiak probatzeko nahikoa izan dadin. Ondorioz, big data-ekin lan egiteko tresnen ezagutza oso ezaguna izaten ari da, eta, ondorioz, datu-ingeniarientzako lanpostu huts gehiago agertzen dira.

Nire ustez, datu-zientzialari baten lanaren emaitza ez da esperimentu bat, produkziora iritsi den produktu bat baizik. Eta ikuspuntu horretatik bakarrik, big dataren inguruko hype-a agertu baino lehen, prozesua sinpleagoa zen: ingeniariak ikaskuntza automatikoan aritzen ziren arazo zehatzak konpontzeko, eta ez zegoen arazorik algoritmoak ekoizpenera eramateko.

β€” Zer behar da eskatutako espezialista izaten jarraitzeko?

β€” Orain jende asko etorri da datu-zientzietara, matematika ikasi duena, ikaskuntza automatikoaren teoria, eta datuen analisiko lehiaketetan parte hartu duena, non prest egindako azpiegitura bat eskaintzen den: datuak garbitzen dira, metrikak definitzen dira eta ez dago. konponbidea errepikakorra eta azkarra izateko baldintzak.

Ondorioz, mutilak gaizki prestatuta etortzen dira lanera negozioen errealitaterako, eta hutsune bat sortzen da hasiberrien eta garatzaile esperientziadunen artean.

Prestatutako moduluetatik zeure eredua muntatzea ahalbidetzen duten tresnen garapenarekin -eta Microsoft, Googlek eta beste askok dagoeneko horrelako irtenbideak dituzte- eta ikaskuntza automatikoaren automatizazioari esker, hutsune hori are nabarmenagoa izango da. Etorkizunean, lanbidea algoritmo berriak sortzen dituzten ikertzaile serioak eta ereduak ezarri eta prozesuak automatizatuko dituzten ingeniaritza trebetasun garatuak dituzten langileak izango dira. Datuen ingeniaritzako Ozon Masters ikastaroa ingeniaritza trebetasunak eta datu handietan banatutako ikaskuntza automatikoko algoritmoak erabiltzeko gaitasuna garatzeko diseinatuta dago. Datu-zientzialari batek egin dezakeenaren eta praktikan egin beharko lukeenaren arteko aldea murrizten saiatzen ari gara.

β€” Zergatik joan behar du diplomadun matematikari batek negozioak ikastera?

β€” Errusiako datu-zientzien komunitateak ulertu du trebetasuna eta esperientzia oso azkar bihurtzen direla dirua, beraz, espezialista batek esperientzia praktikoa duen bezain laster, bere kostua oso azkar hazten hasten da, pertsona trebeenak oso garestiak dira - eta hau egia da garapen-merkatuaren egungo momentuan.

Datu-zientzialari baten lanaren zati handi bat datuetan sartzea da, zer dagoen ulertzea, negozio-prozesuez arduratzen diren pertsonekin kontsultatzea eta datu horiek sortzea, eta gero ereduak eraikitzeko erabiltzea da. Big data-ekin lan egiten hasteko, oso garrantzitsua da ingeniaritza trebetasunak izatea; horrek asko errazten du ertz zorrotzak saihestea, eta horietako asko daude datu-zientzietan.

Istorio tipiko bat: datu handietan exekutatzen den Hive esparrua erabiliz exekutatzen den kontsulta bat idatzi duzu SQLn. Eskaera hamar minututan prozesatzen da, kasurik txarrenean, ordu batean edo bitan, eta askotan, datu horien deskarga jasotzen dituzunean, konturatzen zara faktore edo informazio osagarriren bat kontuan hartzea ahaztu duzula. Eskaera berriro bidali eta minutu eta ordu hauek itxaron behar dituzu. Eraginkortasun-jeinua bazara, beste zeregin bat hartuko duzu, baina, praktikak erakusten duenez, eraginkortasun-jeinu gutxi ditugu, eta jendea zain dago. Horregatik, ikastaroetan lan-eraginkortasunari denbora asko emango diogu hasiera batean bi orduz ez, hainbat minutuz funtzionatzen duten kontsultak idazteko. Trebetasun horrek produktibitatea biderkatzen du, eta horrekin batera espezialista baten balioa.

– Zertan bereizten dira Ozon Masters beste ikastaroetatik?

β€” Ozon Masters Ozoneko langileek ematen dute, eta zereginak enpresetan konpontzen diren benetako negozio kasuetan oinarritzen dira. Izan ere, ingeniaritza trebetasun faltaz gain, datuen zientzia unibertsitatean ikasi zuen batek beste arazo bat du: enpresa baten zeregina negozio hizkuntzan formulatzen da, eta bere helburua nahiko sinplea da: diru gehiago irabaztea. Eta matematikari batek ondo daki nola optimizatu metrika matematikoak, baina zaila da negozioaren metrika batekin erlazionatuko duen adierazle bat aurkitzea. Eta negozio-arazo bat konpontzen ari zarela ulertu behar duzu, eta negozioarekin batera, matematikoki optimizatu daitezkeen neurketak formulatu. Trebetasun hori kasu errealen bidez lortzen da, eta Ozonek ematen ditu.
Eta kasuak alde batera uzten baditugu ere, benetako enpresetan negozio-arazoak konpontzen dituzten profesional askok irakasten dute eskola. Ondorioz, irakaskuntzaren ikuspegia bera praktikara bideratuago dago oraindik. Nire ikastaroan behintzat, erremintak nola erabili, zein planteamendu dauden eta abarretara bideratzen saiatuko naiz. Ikasleekin batera, zeregin bakoitzak bere tresna duela ulertuko dugu, eta tresna bakoitzak bere aplikazio eremua duela.

- Datuen analisirako prestakuntza-programa ospetsuena, noski, ShAD da - zein da zehazki desberdintasunik?

β€” Argi dago ShAD eta Ozon Masters-ek, hezkuntza-funtzioaz gain, langileen prestakuntzaren tokiko arazoa konpontzen dutela. SHADeko goi-mailako tituludunak Yandex-en kontratatzen dira batez ere, baina kontua da Yandex-ek, bere berezitasunengatik - eta handia da eta datu handiak lantzeko tresna on gutxi zeudenean sortu zen - bere azpiegitura eta datuekin lan egiteko tresnak dituela. , hau da, menderatu beharko dituzu. Ozon Masters-ek beste mezu bat du: programa arrakastaz menperatzen baduzu eta Ozonek edo beste enpresen % 99ren batek lanera gonbidatzen bazaitu, askoz errazagoa izango da negozioari mesede egiten hastea; Ozon Masters-en barruan lortutako trebetasun multzoa. nahikoa izango da lanean hasteko.

β€” Ikastaroak bi urteko iraupena du. Zergatik eman behar duzu hainbeste denbora honetan?

- Galdera ona. Denbora asko behar da, izan ere, edukiei eta irakasleen mailari dagokionez, master integral bat da eta denbora asko eskatzen du, etxeko lanak barne.

Nire ikastaroaren ikuspuntutik, ohikoa da ikasle batek astean 2-3 ordu igarotzea zereginetan. Lehenik eta behin, atazak prestakuntza-kluster batean egiten dira, eta partekatutako edozein kluster esan nahi du hainbat pertsonek aldi berean erabiltzen dutela. Hau da, zeregina exekutatzen hasi arte itxaron beharko duzu; baliteke baliabide batzuk hautatu eta lehentasun handiagoko ilara batera transferitzea. Bestalde, big datarekin egindako edozein lan denbora asko behar da.

Programari buruzko galdera gehiago baduzu, big datarekin edo ingeniaritza trebetasunekin lan eginez, Ozon Masters-ek ate irekien jardunaldia izango du apirilaren 25ean, larunbata, 12:00etan. Irakasle eta ikasleekin biltzen gara Zoom eta abar YouTube.

Iturria: www.habr.com

Gehitu iruzkin berria