Pavel Klemenkov, NVIDIA: Tunajaribu kupunguza pengo kati ya kile mwanasayansi wa data anaweza kufanya na kile anachopaswa kufanya.

Ulaji wa pili wa wanafunzi wa programu ya bwana katika sayansi ya data na akili ya biashara ya Ozon Masters imeanza - na ili iwe rahisi kuamua kuacha maombi na kuchukua mtihani wa mtandaoni, tuliuliza walimu wa programu kuhusu nini cha kutarajia kutoka kwa kusoma na kufanya kazi. na data.

Pavel Klemenkov, NVIDIA: Tunajaribu kupunguza pengo kati ya kile mwanasayansi wa data anaweza kufanya na kile anachopaswa kufanya. Mwanasayansi Mkuu wa Takwimu NVIDIA na mwalimu kozi za Big Data na Data Engineering Pavel Klemenkov alizungumzia kwa nini wanahisabati wanahitaji kuandika kanuni na kusoma katika Ozon Masters kwa miaka miwili.

- Je, kuna kampuni nyingi zinazotumia algoriti za sayansi ya data?

- Kweli kabisa. Kampuni nyingi kubwa ambazo zina data kubwa sana zinaanza kufanya kazi nayo kwa ufanisi au zimekuwa zikifanya kazi nayo kwa muda mrefu. Ni wazi kwamba nusu ya soko hutumia data ambayo inaweza kuingia kwenye lahajedwali ya Excel au inaweza kuhesabiwa kwenye seva kubwa, lakini haiwezi kusema kuwa kuna biashara chache tu zinazoweza kufanya kazi na data.

- Tuambie machache kuhusu miradi ambayo sayansi ya data inatumiwa.

- Kwa mfano, tulipokuwa tukifanya kazi katika Rambler, tulikuwa tunatengeneza mfumo wa utangazaji ambao ulifanya kazi kwa kanuni za RTB (Zabuni ya Wakati Halisi) - tulihitaji kuunda miundo mingi ambayo ingeboresha ununuzi wa utangazaji au, kwa mfano, inaweza kutabiri uwezekano. ya kubofya, uongofu, na kadhalika. Wakati huo huo, mnada wa utangazaji hutoa data nyingi: kumbukumbu za maombi ya tovuti kwa wanunuzi wanaowezekana wa utangazaji, kumbukumbu za hisia za utangazaji, kumbukumbu za kubofya - hii ni makumi ya terabytes ya data kwa siku.

Zaidi ya hayo, kwa kazi hizi tuliona jambo la kuvutia: data zaidi unayotoa kufundisha mfano, ubora wake wa juu. Kawaida, baada ya kiasi fulani cha data, ubora wa utabiri huacha kuboresha, na ili kuboresha zaidi usahihi, unahitaji kutumia mfano tofauti wa kimsingi, mbinu tofauti ya kuandaa data, vipengele, na kadhalika. Hapa tulipakia data zaidi na ubora ukaongezeka.

Hiki ni kisa cha kawaida ambapo wachambuzi walilazimika, kwanza, kufanya kazi na seti kubwa za data ili angalau kufanya jaribio, na ambapo haikuwezekana kupata sampuli ndogo inayolingana na MacBook ya kupendeza. Wakati huo huo, tulihitaji mifano iliyosambazwa, kwa sababu vinginevyo hawakuweza kufundishwa. Kwa kuanzishwa kwa maono ya kompyuta katika uzalishaji, mifano hiyo inazidi kuwa ya kawaida, kwa kuwa picha ni kiasi kikubwa cha data, na kufundisha mfano mkubwa, mamilioni ya picha zinahitajika.

Swali linatokea mara moja: jinsi ya kuhifadhi habari hii yote, jinsi ya kuishughulikia kwa ufanisi, jinsi ya kutumia algorithms ya kujifunza iliyosambazwa - lengo ni kuhama kutoka hisabati safi hadi uhandisi. Hata kama hutaandika msimbo katika toleo la umma, unahitaji kuwa na uwezo wa kufanya kazi na zana za uhandisi ili kufanya jaribio.

- Je, mbinu ya nafasi za sayansi ya data imebadilika vipi katika miaka ya hivi karibuni?

- Data kubwa imekoma kuwa hype na imekuwa ukweli. Anatoa ngumu ni nafuu kabisa, ambayo ina maana inawezekana kukusanya data zote ili katika siku zijazo kutakuwa na kutosha kupima hypotheses yoyote. Kama matokeo, ujuzi wa zana za kufanya kazi na data kubwa unakuwa maarufu sana, na, kwa sababu hiyo, nafasi zaidi na zaidi za wahandisi wa data zinaonekana.

Kwa ufahamu wangu, matokeo ya kazi ya mwanasayansi wa data sio majaribio, lakini bidhaa ambayo imefikia uzalishaji. Na tu kutoka kwa mtazamo huu, kabla ya ujio wa hype karibu na data kubwa, mchakato ulikuwa rahisi zaidi: wahandisi walihusika katika kujifunza mashine ili kutatua matatizo maalum, na hakukuwa na matatizo na kuleta algorithms kwa uzalishaji.

- Inachukua nini kubaki mtaalamu anayetafutwa?

- Sasa watu wengi wamekuja kwa sayansi ya data ambao wamesoma hisabati, nadharia ya kujifunza mashine, na kushiriki katika mashindano ya uchambuzi wa data, ambapo miundombinu iliyotengenezwa tayari hutolewa: data husafishwa, vipimo vimefafanuliwa, na hakuna. mahitaji ya suluhisho kuwa reproducible na haraka.

Kama matokeo, wavulana huja kufanya kazi wakiwa wamejiandaa vibaya kwa hali halisi ya biashara, na pengo linaundwa kati ya wapya na watengenezaji wenye uzoefu.

Pamoja na ukuzaji wa zana zinazokuruhusu kukusanya modeli yako mwenyewe kutoka kwa moduli zilizotengenezwa tayari - na Microsoft, Google na wengine wengi tayari wana suluhisho kama hizo - na ujifunzaji wa kiotomatiki wa mashine, pengo hili litajulikana zaidi. Katika siku zijazo, taaluma itakuwa katika mahitaji ya watafiti wakubwa ambao wanakuja na algoriti mpya, na wafanyikazi walio na ustadi wa uhandisi uliokuzwa ambao watatumia mifano na michakato ya otomatiki. Kozi ya Ozon Masters katika uhandisi wa data imeundwa ili kukuza ujuzi wa uhandisi na uwezo wa kutumia algoriti za kujifunza kwa mashine kwenye data kubwa. Tunajaribu kupunguza pengo kati ya kile mwanasayansi wa data anaweza kufanya na kile anachopaswa kufanya katika mazoezi.

- Kwa nini mtaalam wa hesabu aliye na diploma aende kusoma biashara?

- Jumuiya ya sayansi ya data ya Kirusi imeelewa kuwa ustadi na uzoefu hubadilishwa haraka kuwa pesa, kwa hivyo, mara tu mtaalamu ana uzoefu wa vitendo, gharama yake huanza kukua haraka sana, watu wenye ujuzi zaidi ni ghali sana - na hii. ni kweli wakati wa sasa wa soko la maendeleo.

Sehemu kubwa ya kazi ya mwanasayansi wa data ni kuingia kwenye data, kuelewa kilichopo, kushauriana na watu wanaohusika na michakato ya biashara na kuzalisha data hii - na kisha kuitumia kujenga mifano. Kuanza kufanya kazi na data kubwa, ni muhimu sana kuwa na ustadi wa uhandisi - hii inafanya iwe rahisi kuzuia pembe kali, ambazo kuna nyingi katika sayansi ya data.

Hadithi ya kawaida: uliandika swali katika SQL ambalo linatekelezwa kwa kutumia mfumo wa Hive unaoendesha data kubwa. Ombi linashughulikiwa kwa dakika kumi, katika hali mbaya zaidi - saa moja au mbili, na mara nyingi, unapopokea upakuaji wa data hii, unatambua kwamba umesahau kuzingatia baadhi ya sababu au maelezo ya ziada. Lazima utume ombi tena na usubiri dakika na saa hizi. Ikiwa wewe ni gwiji wa ufanisi, utachukua kazi nyingine, lakini, kama mazoezi yanavyoonyesha, tuna fikra chache za ufanisi, na watu wanangoja tu. Kwa hiyo, katika kozi tutatoa muda mwingi kwa ufanisi wa kazi ili awali kuandika maswali ambayo hayafanyi kazi kwa saa mbili, lakini kwa dakika kadhaa. Ustadi huu huongeza tija, na kwa hiyo thamani ya mtaalamu.

- Je, Ozon Masters hutofautianaje na kozi zingine?

- Ozon Masters hufundishwa na wafanyikazi wa Ozon, na kazi hizo zinatokana na kesi halisi za biashara ambazo zinatatuliwa katika kampuni. Kwa kweli, pamoja na ukosefu wa ujuzi wa uhandisi, mtu ambaye alisoma sayansi ya data katika chuo kikuu ana shida nyingine: kazi ya biashara imeundwa kwa lugha ya biashara, na lengo lake ni rahisi sana: kupata pesa zaidi. Na mtaalamu wa hisabati anajua vyema jinsi ya kuboresha metriki za hisabati - lakini kupata kiashirio kitakachohusiana na kipimo cha biashara ni vigumu. Na unahitaji kuelewa kuwa unatatua tatizo la biashara, na pamoja na biashara, tengeneza metriki ambazo zinaweza kuboreshwa kihisabati. Ustadi huu unapatikana kupitia kesi halisi, na hutolewa na Ozon.
Na hata tukipuuza kesi hizo, shule inafundishwa na watendaji wengi ambao hutatua shida za biashara katika kampuni halisi. Matokeo yake, mbinu ya kufundisha yenyewe bado ina mwelekeo wa mazoezi zaidi. Angalau katika kozi yangu, nitajaribu kubadili mwelekeo kwa jinsi ya kutumia zana, ni mbinu gani zilizopo, na kadhalika. Pamoja na wanafunzi, tutaelewa kuwa kila kazi ina zana yake mwenyewe, na kila zana ina eneo lake la utumiaji.

- Mpango maarufu wa mafunzo ya uchambuzi wa data, bila shaka, ni ShaD - ni tofauti gani hasa kutoka kwake?

- Ni wazi kwamba Shad na Ozon Masters, pamoja na kazi ya elimu, kutatua tatizo la ndani la mafunzo ya wafanyakazi. Wahitimu wa juu wa SHAD huajiriwa kwa Yandex, lakini kinachovutia ni kwamba Yandex, kwa sababu ya maelezo yake - na ni kubwa na iliundwa wakati kulikuwa na zana chache nzuri za kufanya kazi na data kubwa - ina miundombinu yake na zana za kufanya kazi na data. , ambayo ina maana , itabidi uzijue. Ozon Masters ina ujumbe tofauti - ikiwa umefaulu mpango huo na Ozon au moja ya 99% ya kampuni zingine inakualika kufanya kazi, itakuwa rahisi zaidi kuanza kufaidika na biashara; ujuzi uliopatikana kama sehemu ya Ozon Masters. itatosha tu kuanza kufanya kazi.

- Kozi huchukua miaka miwili. Kwa nini unahitaji kutumia muda mwingi juu ya hili?

- Swali nzuri. Inachukua muda mrefu, kwa sababu kwa suala la maudhui na kiwango cha walimu, hii ni programu muhimu ya bwana ambayo inahitaji muda mwingi wa bwana, ikiwa ni pamoja na kazi ya nyumbani.

Kwa mtazamo wangu wa kozi, kutarajia mwanafunzi kutumia saa 2-3 kwa wiki kwa kazi ni jambo la kawaida. Kwanza, kazi hufanywa kwenye nguzo ya mafunzo, na nguzo yoyote iliyoshirikiwa inamaanisha kuwa watu kadhaa huitumia kwa wakati mmoja. Hiyo ni, itabidi usubiri hadi kazi ianze kutekeleza; baadhi ya rasilimali zinaweza kuchaguliwa na kuhamishiwa kwenye foleni ya kipaumbele cha juu. Kwa upande mwingine, kazi yoyote iliyo na data kubwa inachukua muda mwingi.

Iwapo una maswali zaidi kuhusu mpango huu, unaofanya kazi na data kubwa au ujuzi wa uhandisi, Ozon Masters itakuwa na siku ya wazi mtandaoni Jumamosi, Aprili 25 saa 12:00. Tunakutana na walimu na wanafunzi ndani zoom na YouTube.

Chanzo: mapenzi.com

Kuongeza maoni