Pavel Klemenkov, NVIDIA: Püüame vähendada lõhet selle vahel, mida andmeteadlane saab teha ja mida ta peaks suutma teha

Andmeteaduse ja äriteabe magistriprogrammi Ozon Masters üliõpilaste teine ​​vastuvõtt on alanud – ning et oleks lihtsam otsustada, kas jätad avalduse ja sooritad veebitesti, uurisime programmi õppejõududelt, mida oodata õppimisest ja töötamisest. andmetega.

Pavel Klemenkov, NVIDIA: Püüame vähendada lõhet selle vahel, mida andmeteadlane saab teha ja mida ta peaks suutma teha NVIDIA peaandmeteadlane ja õpetaja suurandmete ja andmetehnoloogia kursused Pavel Klemenkov rääkis, miks matemaatikud peavad koodi kirjutama ja kaks aastat Ozon Mastersis õppima.

— Kas on palju ettevõtteid, kes kasutavad andmeteaduse algoritme?

- Tegelikult päris palju. Päris paljud suured ettevõtted, kellel on tõesti suured andmed, kas hakkavad nendega tõhusalt töötama või on nendega juba pikka aega töötanud. Selge on see, et pool turust kasutab andmeid, mis mahuvad Exceli tabelisse või mida saab arvutada suures serveris, kuid ei saa öelda, et andmetega töötavaid ettevõtteid on vähe.

— Rääkige veidi projektidest, kus kasutatakse andmeteadust.

— Näiteks tegime Rambleris töötades reklaamisüsteemi, mis töötas RTB (Real Time Bidding) põhimõtetel – oli vaja ehitada palju mudeleid, mis optimeeriksid reklaami ostmist või suudaksid näiteks ennustada tõenäosust. kliki, konversiooni ja nii edasi. Samal ajal genereerib reklaamioksjon palju andmeid: potentsiaalsete reklaamiostjate saidipäringute logid, reklaamide näitamiste logid, klikkide logid - see on kümneid terabaite andmeid päevas.

Lisaks täheldasime nende ülesannete puhul huvitavat nähtust: mida rohkem andmeid mudeli treenimiseks annate, seda kõrgem on selle kvaliteet. Tavaliselt pärast teatud andmehulka prognoosi kvaliteet enam ei parane ning täpsuse edasiseks parandamiseks tuleb kasutada põhimõtteliselt teistsugust mudelit, teistsugust lähenemist andmete, funktsioonide jms ettevalmistamisel. Siia laadisime üles rohkem andmeid ja kvaliteet tõusis.

See on tüüpiline juhtum, kus analüütikud pidid vähemalt eksperimendi läbiviimiseks esmalt töötama suurte andmehulkadega ja kus hubasesse MacBooki mahtuva väikese valimiga ei saanud hakkama. Samas vajasime hajutatud mudeleid, sest muidu ei saanud neid koolitada. Arvutinägemise kasutuselevõtuga tootmisse on sellised näited üha tavalisemad, kuna pildid on suur hulk andmeid ja suure mudeli treenimiseks on vaja miljoneid pilte.

Kohe tekib küsimus: kuidas kogu seda infot talletada, kuidas efektiivselt töödelda, kuidas kasutada hajutatud õppealgoritme – fookus on nihkumas puhtalt matemaatikalt inseneriteadusele. Isegi kui te tootmises koodi ei kirjuta, peate katse läbiviimiseks suutma töötada inseneritööriistadega.

— Kuidas on viimastel aastatel muutunud lähenemine andmeteaduse vabadele ametikohtadele?

— Suurandmed on lakanud olemast reklaami ja muutunud reaalsuseks. Kõvakettad on üsna odavad, mis tähendab, et on võimalik koguda kõik andmed, et tulevikus oleks piisavalt palju hüpoteeside kontrollimiseks. Tänu sellele on teadmised suurandmetega töötamise tööriistadest muutumas väga populaarseks ning sellest tulenevalt tekib järjest rohkem vabu andmeinseneride töökohti.

Andmeteadlase töö tulemus pole minu arusaamise järgi eksperiment, vaid tootmisse jõudnud toode. Ja just sellest vaatenurgast, enne suurandmete ümber käiva hüppe tulekut oli protsess lihtsam: insenerid tegelesid konkreetsete probleemide lahendamiseks masinõppega ning algoritmide tootmisse toomisega probleeme ei tekkinud.

— Mida on vaja, et jääda nõutud spetsialistiks?

— Nüüd on andmeteaduse juurde tulnud palju inimesi, kes on õppinud matemaatikat, masinõppe teooriat ja osalenud andmeanalüüsi võistlustel, kus on ette nähtud valmis infrastruktuur: andmed puhastatakse, mõõdikud defineeritakse, ja ei ole. nõuded, et lahendus oleks reprodutseeritav ja kiire.

Selle tulemusena tulevad poisid tööle ärireaalsuseks halvasti ette valmistatuna ning algajate ja kogenud arendajate vahele tekib lõhe.

Tööriistade väljatöötamisega, mis võimaldavad valmismoodulitest oma mudeli kokku panna – ja Microsoftil, Google’il ja paljudel teistel on juba sellised lahendused olemas – ning masinõppe automatiseerimisega muutub see lünk veelgi silmatorkavamaks. Tulevikus on erialal nõudlus tõsiste teadlaste järele, kes mõtlevad välja uusi algoritme, ning arenenud insenerioskustega töötajaid, kes juurutavad mudeleid ja automatiseerivad protsesse. Andmetehnika magistrikursus Ozon on loodud selleks, et arendada insenerioskusi ja oskust kasutada suurandmete puhul hajutatud masinõppe algoritme. Püüame vähendada lõhet selle vahel, mida andmeteadlane saab teha ja mida ta peaks suutma praktikas teha.

— Miks peaks diplomiga matemaatik äri õppima minema?

— Venemaa andmeteaduse kogukond on mõistnud, et oskused ja kogemused muudetakse väga kiiresti rahaks, nii et niipea, kui spetsialistil on praktiline kogemus, hakkavad tema kulud väga kiiresti kasvama, kõige osavamad inimesed on väga kallid - ja see on tõsi praegusel arendusturu hetkel.

Suur osa andmeteadlase tööst on andmetesse süvenemine, seal peituva mõistmine, äriprotsesside eest vastutavate inimestega konsulteerimine ja nende andmete genereerimine – ja alles seejärel mudelite koostamiseks. Suurandmetega töötamise alustamiseks on ülimalt oluline omada insenerioskusi – nii on palju lihtsam vältida teravaid nurki, mida andmeteaduses on palju.

Tüüpiline lugu: kirjutasite SQL-is päringu, mis käivitatakse suurandmetel töötava Hive raamistiku abil. Taotlust töödeldakse kümne minutiga, halvimal juhul tunni või paariga ning sageli saate nende andmete allalaadimisel aru, et unustasite mõne teguri või lisateabe arvesse võtta. Peate päringu uuesti saatma ja ootama need minutid ja tunnid. Kui olete tõhususe geenius, võtate endale mõne muu ülesande, kuid nagu praktika näitab, on meil vähe tõhususe geeniusi ja inimesed lihtsalt ootavad. Seetõttu pühendame kursustel palju aega töö efektiivsusele, et algselt kirjutada päringuid, mis töötavad mitte kaks tundi, vaid mitu minutit. See oskus mitmekordistab tootlikkust ja koos sellega ka spetsialisti väärtust.

– Mille poolest Ozon Masters teistest kursustest erineb?

— Ozon Mastersi õpetavad Ozoni töötajad ning ülesanded põhinevad reaalsetel ärijuhtumitel, mida ettevõtetes lahendatakse. Tegelikult on ülikoolis andmeteadust õppinud inimesel lisaks insenerioskuste puudumisele veel üks probleem: ettevõtte ülesanne on sõnastatud ärikeeles ja selle eesmärk on üsna lihtne: teenida rohkem raha. Ja matemaatik teab hästi, kuidas matemaatilisi mõõdikuid optimeerida – kuid ärimõõdikuga korreleeruva näitaja leidmine on keeruline. Ja peate mõistma, et lahendate äriprobleemi, ja koos ettevõttega formuleerima mõõdikud, mida saab matemaatiliselt optimeerida. See oskus omandatakse reaalsete juhtumite kaudu ja need annab Ozon.
Ja isegi kui juhtumeid ignoreerida, õpetavad koolis paljud praktikud, kes lahendavad äriprobleeme päris ettevõtetes. Sellest tulenevalt on lähenemine õpetamisele ise siiski rohkem praktikale orienteeritud. Vähemalt oma kursusel püüan keskenduda sellele, kuidas tööriistu kasutada, millised lähenemised on olemas jne. Koos õpilastega mõistame, et igal ülesandel on oma tööriist ja igal tööriistal on oma rakendusala.

— Kõige kuulsam andmeanalüüsi koolitusprogramm on muidugi ShaAD — mis vahe sellel täpselt on?

— On selge, et ShaD ja Ozon Masters lahendavad lisaks haridusfunktsioonile ka kohalikku personalikoolituse probleemi. Peamiselt värvatakse Yandexi parimaid SHAD-i lõpetajaid, kuid konks on selles, et Yandexil on oma eripära tõttu – ja see on suur ja loodi siis, kui suurandmetega töötamiseks oli vähe häid tööriistu – oma infrastruktuur ja tööriistad andmetega töötamiseks. , mis tähendab, et peate need valdama. Ozon Mastersil on teistsugune sõnum – kui olete programmi edukalt omandanud ja Ozon või mõni 99% teistest ettevõtetest kutsub teid tööle, on ettevõttele palju lihtsam kasu saada; Ozon Mastersi raames omandatud oskuste kogum piisab lihtsalt tööle asumiseks.

— Kursus kestab kaks aastat. Miks peate sellele nii palju aega kulutama?

- Hea küsimus. See võtab kaua aega, sest nii sisult kui ka õppejõudude taseme poolest on tegemist tervikliku magistriõppekavaga, mille valdamine, sealhulgas kodutöö, nõuab palju aega.

Minu kursuse vaatenurgast eeldan, et üliõpilane kulutab ülesannetele 2–3 tundi nädalas. Esiteks täidetakse ülesandeid koolitusklastris ja mis tahes jagatud klaster eeldab, et mitu inimest kasutavad seda samaaegselt. See tähendab, et peate ootama, kuni ülesanne hakkab täitma; mõned ressursid võidakse valida ja üle kanda kõrgema prioriteediga järjekorda. Teisest küljest võtab igasugune suurandmetega töötamine palju aega.

Kui teil on programmi, suurandmete või insenerioskustega töötamise kohta veel küsimusi, siis on Ozon Mastersil laupäeval, 25. aprillil kell 12:00 avatud uste päev. Kohtume õpetajate ja õpilastega Zoom ja Youtube.

Allikas: www.habr.com

Lisa kommentaar