Pavel Klemenkov, NVIDIA: Yritämme pienentää kuilua sen välillä, mitä datatieteilijä voi tehdä ja mitä hänen pitäisi pystyä

Datatieteen ja liiketoimintatiedon maisteriohjelman Ozon Masters -opiskelijoiden toinen haku on alkanut – ja jotta hakemuksen jättäminen ja verkkotestin tekeminen olisi helpompaa, kysyimme ohjelman opettajilta mitä odottaa opiskelulta ja työskentelystä. datan kanssa.

Pavel Klemenkov, NVIDIA: Yritämme pienentää kuilua sen välillä, mitä datatieteilijä voi tehdä ja mitä hänen pitäisi pystyä Päätietotutkija NVIDIA ja opettaja kursseja Big Datasta ja Data Engineeringistä Pavel Klemenkov puhui siitä, miksi matemaatikoiden täytyy kirjoittaa koodia ja opiskella Ozon Mastersissa kaksi vuotta.

— Onko monia yrityksiä, jotka käyttävät datatieteen algoritmeja?

- Itse asiassa aika paljon. Melko monet suuret yritykset, joilla on todella isoa dataa, joko alkavat työskennellä sen kanssa tehokkaasti tai ovat työskennelleet sen kanssa pitkään. On selvää, että puolet markkinoista käyttää Excel-taulukkoon mahtuvaa tai suurelle palvelimelle laskettavissa olevaa dataa, mutta ei voida sanoa, että dataa käyttäviä yrityksiä on vain muutama.

— Kerro vähän projekteista, joissa datatieteitä käytetään.

— Esimerkiksi Ramblerilla työskennellessämme teimme mainosjärjestelmää, joka toimi RTB:n (Real Time Bidding) periaatteilla – piti rakentaa monia malleja, jotka optimoisivat mainosten oston tai pystyivät esimerkiksi ennustamaan todennäköisyyttä. klikkauksesta, tuloksesta ja niin edelleen. Samaan aikaan mainoshuutokauppa tuottaa paljon tietoa: lokit sivuston pyynnöistä mahdollisille mainonnan ostajille, lokit mainonnan näyttökerroista, napsautuslokit - tämä on kymmeniä teratavuja tietoa päivässä.

Lisäksi näissä tehtävissä havaitsimme mielenkiintoisen ilmiön: mitä enemmän tietoja annat mallin kouluttamiseen, sitä korkeampi on sen laatu. Yleensä tietyn datamäärän jälkeen ennusteen laatu lakkaa paranemasta, ja tarkkuuden parantamiseksi on käytettävä täysin erilaista mallia, erilaista lähestymistapaa tietojen, ominaisuuksien ja niin edelleen valmisteluun. Latasimme tänne enemmän dataa ja laatu parani.

Tämä on tyypillinen tapaus, jossa analyytikot joutuivat ensinnäkin työskentelemään suurten tietojoukkojen kanssa suorittaakseen ainakin kokeen, ja jossa oli mahdotonta tulla toimeen pienellä näytteellä, joka mahtuu mukavaan MacBookiin. Samalla tarvitsimme hajautettuja malleja, koska muuten niitä ei voitu kouluttaa. Tietokonenäön tullessa tuotantoon tällaiset esimerkit ovat yleistymässä, koska kuvat ovat suuri määrä dataa ja suuren mallin kouluttamiseen tarvitaan miljoonia kuvia.

Välittömästi herää kysymys: kuinka tallentaa kaikki tämä tieto, kuinka käsitellä sitä tehokkaasti, kuinka käyttää hajautettuja oppimisalgoritmeja - painopiste on siirtymässä puhtaasta matematiikasta suunnitteluun. Vaikka et kirjoita koodia tuotannossa, sinun on kyettävä työskentelemään suunnittelutyökalujen kanssa suorittaaksesi kokeen.

— Miten lähestymistapa datatieteen avoimiin työpaikkoihin on muuttunut viime vuosina?

— Big data on lakannut olemasta hype ja siitä on tullut todellisuutta. Kiintolevyt ovat melko halpoja, mikä tarkoittaa, että kaikki tiedot on mahdollista kerätä niin, että tulevaisuudessa niitä riittää hypoteesien testaamiseen. Tämän seurauksena ison datan työskentelyn työkalujen tuntemus on tulossa erittäin suosituksi, ja sen seurauksena tietoteknikon työpaikkoja ilmaantuu yhä enemmän.

Käsittääkseni datatieteilijän työn tulos ei ole kokeilu, vaan tuotantoon päässyt tuote. Ja juuri tästä näkökulmasta prosessi oli yksinkertaisempi ennen big datan ympärillä olevan hypen syntyä: insinöörit osallistuivat koneoppimiseen tiettyjen ongelmien ratkaisemiseksi, eikä algoritmien tuotannossa ollut ongelmia.

– Mitä vaaditaan halutuksi asiantuntijaksi?

— Nyt datatieteeseen on tullut monia matematiikkaa, koneoppimisen teoriaa opiskelevia ja data-analyysikilpailuihin osallistuneita, joissa on valmiina infrastruktuuri: tiedot puhdistetaan, mittarit määritellään, eikä niitä ole. vaatimukset, että ratkaisu on toistettava ja nopea.

Tämän seurauksena kaverit tulevat töihin huonosti valmistautuneena liiketoiminnan realiteetteihin, ja aloittelijoiden ja kokeneiden kehittäjien välille muodostuu kuilu.

Kun kehitetään työkaluja, joiden avulla voit koota oma mallisi valmiista moduuleista - ja Microsoftilla, Googlella ja monilla muilla on jo tällaisia ​​ratkaisuja - ja koneoppimisen automatisointi, tämä aukko tulee entistä selvemmäksi. Tulevaisuudessa ammattiin on kysyntää vakaville tutkijoille, jotka keksivät uusia algoritmeja, sekä kehittyneitä insinööritaitoja omaavia työntekijöitä, jotka toteuttavat malleja ja automatisoivat prosesseja. Tietotekniikan Ozon Masters -kurssi on suunniteltu kehittämään insinööritaitoja ja kykyä käyttää hajautettuja koneoppimisalgoritmeja big datassa. Pyrimme pienentämään kuilua sen välillä, mitä datatieteilijä voi tehdä ja mitä hänen pitäisi pystyä tekemään käytännössä.

— Miksi tutkinnon suorittaneen matemaatikon pitäisi mennä kauppaa opiskelemaan?

— Venäläinen datatiedeyhteisö on ymmärtänyt, että taidot ja kokemus muunnetaan hyvin nopeasti rahaksi, joten heti kun asiantuntijalla on käytännön kokemusta, hänen kustannukset alkavat kasvaa hyvin nopeasti, taitavimmat ihmiset ovat erittäin kalliita - ja tämä on totta nykyisellä kehitysmarkkinoiden hetkellä.

Suuri osa datatieteilijän työstä on perehtyä dataan, ymmärtää, mitä siinä piilee, neuvotella liiketoimintaprosesseista vastaavien ihmisten kanssa ja tuottaa tätä dataa – ja vasta sitten käyttää sitä mallien rakentamiseen. Big datan kanssa työskentelyn aloittamiseksi on erittäin tärkeää omata insinööritaidot - tämä helpottaa huomattavasti terävien kulmien välttämistä, joita datatieteessä on monia.

Tyypillinen tarina: kirjoitit SQL:llä kyselyn, joka suoritetaan käyttämällä suurdataa käyttävää Hive-kehystä. Pyyntö käsitellään kymmenessä minuutissa, pahimmassa tapauksessa tunnissa tai kahdessa, ja usein, kun saat latauksia näistä tiedoista, huomaat, että olet unohtanut ottaa huomioon jonkin tekijän tai lisätiedot. Sinun on lähetettävä pyyntö uudelleen ja odotettava nämä minuutit ja tunnit. Jos olet tehokkuusnero, otat toisen tehtävän, mutta kuten käytäntö osoittaa, tehokkuusneroja meillä on vähän, ja ihmiset vain odottavat. Siksi kursseilla käytämme paljon aikaa työn tehokkuuteen, jotta voimme aluksi kirjoittaa kyselyitä, jotka eivät toimi kahta tuntia, vaan useita minuutteja. Tämä taito moninkertaistaa tuottavuuden ja sen myötä asiantuntijan arvon.

– Miten Ozon Masters eroaa muista kursseista?

— Ozon Mastersia opettavat otsonilaiset, ja tehtävät perustuvat oikeisiin yritystapauksiin, joita ratkaistaan ​​yrityksissä. Itse asiassa yliopistossa datatiedettä opiskelevalla henkilöllä on insinööritaidon puutteen lisäksi toinenkin ongelma: yrityksen tehtävä on muotoiltu bisneksen kielellä, ja sen tavoite on melko yksinkertainen: ansaita enemmän rahaa. Ja matemaatikko tietää hyvin, kuinka matemaattisia mittareita voidaan optimoida – mutta liiketoimintamittarin kanssa korreloivan indikaattorin löytäminen on vaikeaa. Ja sinun on ymmärrettävä, että olet ratkaisemassa liiketoimintaongelmaa, ja laadittava yhdessä yrityksen kanssa mittareita, jotka voidaan matemaattisesti optimoida. Tämä taito hankitaan todellisten tapausten kautta, ja Ozon antaa ne.
Ja vaikka jätämmekin tapaukset huomiotta, koulussa opettavat monet ammatinharjoittajat, jotka ratkaisevat liiketoimintaongelmia oikeissa yrityksissä. Tästä johtuen opetuksen lähestymistapa itsessään on yhä enemmän käytäntölähtöistä. Ainakin kurssillani yritän siirtää painopistettä siihen, miten työkaluja käytetään, millaisia ​​lähestymistapoja on olemassa ja niin edelleen. Ymmärrämme yhdessä opiskelijoiden kanssa, että jokaisella tehtävällä on oma työkalunsa ja jokaisella työkalulla on oma käyttöalue.

— Tunnetuin data-analyysikoulutusohjelma on tietysti ShaD — mitä eroa sillä tarkalleen ottaen on?

— On selvää, että ShaD ja Ozon Masters ratkaisevat koulutustoiminnan lisäksi paikallisen henkilöstökoulutuksen ongelman. Parhaat SHAD-tutkinnon suorittaneet rekrytoidaan ensisijaisesti Yandexiin, mutta saalis on, että Yandexillä on sen erityispiirteidensä vuoksi - ja se on suuri ja luotu silloin, kun hyviä työkaluja big datan kanssa työskentelyyn oli vähän - oma infrastruktuuri ja työkalut tietojen käsittelyyn. , mikä tarkoittaa , sinun on hallittava ne. Ozon Mastersilla on erilainen viesti - jos olet hallinnut ohjelman onnistuneesti ja Ozon tai jokin 99 % muista yrityksistä kutsuu sinut töihin, on paljon helpompi alkaa hyödyttää liiketoimintaa; osaaminen on hankittu osana Ozon Mastersia riittää työn aloittamiseen.

– Kurssi kestää kaksi vuotta. Miksi sinun täytyy käyttää niin paljon aikaa tähän?

- Hyvä kysymys. Se vie kauan, koska sisällöltään ja opettajatasolta tämä on kiinteä maisteriohjelma, jonka hallitseminen vaatii paljon aikaa, mukaan lukien kotitehtävät.

Kurssin näkökulmasta katson, että opiskelijan oletetaan viettävän 2-3 tuntia viikossa tehtävien hoitamiseen. Ensinnäkin tehtävät suoritetaan koulutusklusterissa, ja mikä tahansa jaettu klusteri tarkoittaa, että useat ihmiset käyttävät sitä samanaikaisesti. Toisin sanoen sinun on odotettava tehtävän suorittamisen alkamista; jotkut resurssit voidaan valita ja siirtää korkeamman prioriteetin jonoon. Toisaalta kaikki suuren datan kanssa työskentely vie paljon aikaa.

Jos sinulla on lisää kysyttävää ohjelmasta, big datan parissa työskentelemisestä tai insinööritaidoista, Ozon Masters järjestää avoimen ovien päivän verkossa lauantaina 25. huhtikuuta klo 12. Tapaamme opettajia ja opiskelijoita zoomaus ja edelleen YouTube.

Lähde: will.com

Lisää kommentti