Pāvels Klemenkovs, NVIDIA: Mēs cenÅ”amies samazināt plaisu starp to, ko datu zinātnieks var darÄ«t, un to, ko viņam vajadzētu darÄ«t

Ir sākusies otrā datu zinātnes un biznesa inteliÄ£ences maÄ£istra programmas Ozon Masters studentu uzņemÅ”ana - un, lai bÅ«tu vieglāk pieņemt lēmumu par pieteikuma atstāŔanu un tieÅ”saistes ieskaites kārtoÅ”anu, jautājām programmas pasniedzējiem par to, ko sagaidÄ«t no studijām un darba. ar datiem.

Pāvels Klemenkovs, NVIDIA: Mēs cenÅ”amies samazināt plaisu starp to, ko datu zinātnieks var darÄ«t, un to, ko viņam vajadzētu darÄ«t NVIDIA galvenais datu zinātnieks un skolotājs kursi par lielajiem datiem un datu inženieriju Pāvels Klemenkovs stāstÄ«ja par to, kāpēc matemātiÄ·iem ir jāraksta kods un divus gadus jāmācās Ozon Masters.

ā€” Vai ir daudz uzņēmumu, kas izmanto datu zinātnes algoritmus?

ā€“ PatiesÄ«bā diezgan daudz. Diezgan daudz lielu uzņēmumu, kuriem ir patieŔām lieli dati, vai nu sāk efektÄ«vi strādāt ar tiem, vai arÄ« strādā ar tiem jau ilgu laiku. Skaidrs, ka puse tirgus izmanto datus, kas var ietilpt Excel tabulā vai ko var aprēķināt uz liela servera, taču nevar teikt, ka ir tikai daži uzņēmumi, kas spēj strādāt ar datiem.

ā€” Pastāstiet nedaudz par projektiem, kuros izmanto datu zinātni.

ā€” Piemēram, strādājot uzņēmumā Rambler, veidojām reklāmas sistēmu, kas darbojās pēc RTB (Real Time Bidding) principiem ā€“ vajadzēja izveidot daudzus modeļus, kas optimizētu reklāmas iegādi vai, piemēram, varētu paredzēt varbÅ«tÄ«bu. par klikŔķi, reklāmguvumu un tā tālāk. Tajā paŔā laikā reklāmas izsole Ä£enerē daudz datu: vietņu pieprasÄ«jumu žurnāli potenciālajiem reklāmas pircējiem, reklāmas seansu žurnāli, klikŔķu žurnāli - tas ir desmitiem terabaitu datu dienā.

Turklāt Å”iem uzdevumiem mēs novērojām interesantu parādÄ«bu: jo vairāk datu jÅ«s sniedzat, lai apmācÄ«tu modeli, jo augstāka tā kvalitāte. Parasti pēc noteikta datu apjoma prognozes kvalitāte pārstāj uzlaboties, un, lai vēl vairāk uzlabotu precizitāti, ir jāizmanto principiāli atŔķirÄ«gs modelis, cita pieeja datu sagatavoÅ”anai, funkcijas utt. Å eit mēs augÅ”upielādējām vairāk datu, un kvalitāte uzlabojās.

Å is ir tipisks gadÄ«jums, kad analÄ«tiÄ·iem, pirmkārt, bija jāstrādā ar lielām datu kopām, lai vismaz veiktu eksperimentu, un kur nebija iespējams iztikt ar nelielu paraugu, kas iederas mājÄ«gā MacBook. Tajā paŔā laikā mums bija nepiecieÅ”ami izplatÄ«ti modeļi, jo citādi viņus nevarēja apmācÄ«t. LÄ«dz ar datorredzes ievieÅ”anu ražoÅ”anā Ŕādi piemēri kļūst arvien izplatÄ«tāki, jo attēli ir liels datu apjoms, un, lai apmācÄ«tu lielu modeli, ir nepiecieÅ”ami miljoniem attēlu.

Uzreiz rodas jautājums: kā glabāt visu Å”o informāciju, kā to efektÄ«vi apstrādāt, kā izmantot sadalÄ«tos mācÄ«bu algoritmus ā€“ fokuss no tÄ«rās matemātikas pāriet uz inženieriju. Pat ja jÅ«s nerakstāt kodu ražoÅ”anā, jums ir jāspēj strādāt ar inženiertehniskajiem rÄ«kiem, lai veiktu eksperimentu.

ā€” Kā pēdējos gados ir mainÄ«jusies pieeja datu zinātnes vakancēm?

ā€” Lielie dati vairs nav ažiotāža un kļuvuÅ”i par realitāti. Cietie diski ir diezgan lēti, kas nozÄ«mē, ka ir iespējams savākt visus datus, lai nākotnē pietiktu jebkuras hipotēzes pārbaudei. LÄ«dz ar to zināŔanas par rÄ«kiem darbam ar lielajiem datiem kļūst ļoti populāras, un lÄ«dz ar to arvien vairāk parādās datu inženieru vakances.

Manā izpratnē datu zinātnieka darba rezultāts nav eksperiments, bet gan produkts, kas nonācis ražoÅ”anā. Un tieÅ”i no Ŕī viedokļa, pirms parādÄ«jās ažiotāža par lielajiem datiem, process bija vienkārŔāks: inženieri bija iesaistÄ«ti maŔīnmācÄ«bā, lai atrisinātu konkrētas problēmas, un nebija problēmu ar algoritmu ievieÅ”anu ražoÅ”anā.

ā€” Kas nepiecieÅ”ams, lai paliktu par pieprasÄ«tu speciālistu?

ā€” Tagad uz datu zinātni ir nonākuÅ”i daudzi cilvēki, kuri studējuÅ”i matemātiku, maŔīnmācÄ«Å”anās teoriju un piedalÄ«juÅ”ies datu analÄ«zes konkursos, kur ir nodroÅ”ināta gatava infrastruktÅ«ra: dati tiek iztÄ«rÄ«ti, metrika definēta, un nav. prasÄ«bas, lai risinājums bÅ«tu reproducējams un ātrs.

Tā rezultātā puiÅ”i nāk uz darbu slikti sagatavoti biznesa realitātei, un veidojas plaisa starp iesācējiem un pieredzējuÅ”iem izstrādātājiem.

Izstrādājot rÄ«kus, kas ļauj no gataviem moduļiem salikt savu modeli ā€“ un Microsoft, Google un daudziem citiem jau ir Ŕādi risinājumi ā€“ un maŔīnmācÄ«Å”anās automatizāciju, Ŕī plaisa kļūs vēl izteiktāka. Nākotnē profesija bÅ«s pieprasÄ«ta pēc nopietniem pētniekiem, kas nāk klajā ar jauniem algoritmiem, un darbiniekiem ar attÄ«stÄ«tām inženierzinātnēm, kas ieviesÄ«s modeļus un automatizēs procesus. Ozon Masters kurss datu inženierijā ir paredzēts, lai attÄ«stÄ«tu inženierzinātnes un spēju izmantot sadalÄ«tos maŔīnmācÄ«Å”anās algoritmus lielajiem datiem. Mēs cenÅ”amies samazināt plaisu starp to, ko datu zinātnieks var darÄ«t, un to, kas viņam bÅ«tu jāspēj praksē.

ā€” Kāpēc matemātiÄ·im ar diplomu jāiet studēt uzņēmējdarbÄ«bu?

ā€” Krievijas datu zinātnes sabiedrÄ«ba ir sapratusi, ka prasme un pieredze ļoti ātri tiek pārvērstas naudā, tāpēc, tiklÄ«dz speciālistam ir praktiskā pieredze, viņa izmaksas sāk augt ļoti ātri, prasmÄ«gākie cilvēki ir ļoti dārgi - un tas ir taisnÄ«ba paÅ”reizējā attÄ«stÄ«bas tirgus brÄ«dÄ«.

Datu zinātnieka liela daļa no darba ir iedziļināties datos, saprast, kas tajos slēpjas, konsultēties ar cilvēkiem, kas ir atbildÄ«gi par biznesa procesiem un Ä£enerēt Å”os datus ā€“ un tikai pēc tam izmantot tos modeļu veidoÅ”anā. Lai sāktu strādāt ar lielajiem datiem, ārkārtÄ«gi svarÄ«gas ir inženierzinātņu prasmes ā€“ tādējādi ir daudz vieglāk izvairÄ«ties no asiem stÅ«riem, kuru datu zinātnē ir daudz.

Tipisks stāsts: jÅ«s uzrakstÄ«jāt vaicājumu SQL, kas tiek izpildÄ«ts, izmantojot Hive sistēmu, kas darbojas ar lielajiem datiem. PieprasÄ«jums tiek apstrādāts desmit minÅ«tēs, sliktākajā gadÄ«jumā ā€“ stundas vai divu laikā, un nereti, saņemot Å”o datu lejupielādes, saproti, ka esi aizmirsis ņemt vērā kādu faktoru vai papildu informāciju. Jums ir atkārtoti jānosÅ«ta pieprasÄ«jums un jāgaida Ŕīs minÅ«tes un stundas. Ja esi efektivitātes ģēnijs, tu Ä·ersies pie cita uzdevuma, bet, kā liecina prakse, efektivitātes ģēniju mums ir maz, un cilvēki tikai gaida. Tāpēc kursos daudz laika veltÄ«sim darba efektivitātei, lai sākotnēji rakstÄ«tu vaicājumus, kas darbojas nevis divas stundas, bet vairākas minÅ«tes. Å Ä« prasme vairo produktivitāti un lÄ«dz ar to arÄ« speciālista vērtÄ«bu.

ā€“ Ar ko Ozon Masters atŔķiras no citiem kursiem?

ā€” Ozon Masters pasniedz Ozon darbinieki, un uzdevumu pamatā ir reāli biznesa gadÄ«jumi, kas tiek risināti uzņēmumos. PatiesÄ«bā bez inženiertehnisko prasmju trÅ«kuma cilvēkam, kurÅ” universitātē studējis datu zinātni, ir vēl viena problēma: biznesa uzdevums ir formulēts biznesa valodā, un tā mērÄ·is ir pavisam vienkārÅ”s: nopelnÄ«t vairāk. Un matemātiÄ·is labi zina, kā optimizēt matemātiskos rādÄ«tājus, taču ir grÅ«ti atrast rādÄ«tāju, kas korelē ar biznesa metriku. Un jums ir jāsaprot, ka jÅ«s risinat biznesa problēmu, un kopā ar uzņēmumu jāformulē rādÄ«tāji, kurus var matemātiski optimizēt. Å Ä« prasme tiek iegÅ«ta reālos gadÄ«jumos, un tos dod Ozons.
Un, pat ja mēs ignorējam gadÄ«jumus, skolā māca daudzi praktiÄ·i, kas risina biznesa problēmas reālos uzņēmumos. Rezultātā pati pieeja mācÄ«Å”anai joprojām ir vairāk orientēta uz praksi. Vismaz savā kursā es centÄ«Å”os novirzÄ«t uzmanÄ«bu uz to, kā izmantot rÄ«kus, kādas pieejas pastāv utt. Kopā ar skolēniem sapratÄ«sim, ka katram uzdevumam ir savs rÄ«ks, un katram instrumentam ir sava pielietojuma joma.

ā€” Slavenākā datu analÄ«zes apmācÄ«bas programma, protams, ir ShaD ā€” ar ko tad Ä«sti atŔķiras?

ā€” Skaidrs, ka ShaD un Ozon Masters papildus izglÄ«tojoÅ”ajai funkcijai risina lokālo personāla apmācÄ«bas problēmu. Labākie SHAD absolventi galvenokārt tiek pieņemti darbā Yandex, taču galvenais ir tas, ka Yandex savas specifikas dēļ - un tas ir liels un tika izveidots, kad bija maz labu rÄ«ku darbam ar lielajiem datiem - ir sava infrastruktÅ«ra un rÄ«ki darbam ar datiem. , kas nozÄ«mē , jums tie bÅ«s jāapgÅ«st. Ozon Masters vēstÄ«jums ir cits - ja esi veiksmÄ«gi apguvis programmu un Ozons vai kāds no 99% citiem uzņēmumiem uzaicina tevi strādāt, bÅ«s daudz vieglāk sākt gÅ«t labumu biznesā; prasmju kopums, kas iegÅ«ts Ozon Masters ietvaros. bÅ«s pietiekami, lai tikai sāktu strādāt.

ā€” Kursi ilgst divus gadus. Kāpēc jums ir jāvelta tik daudz laika Å”im darbam?

- Labs jautājums. Tas prasa ilgu laiku, jo satura un skolotāju lÄ«meņa ziņā Ŕī ir neatņemama maÄ£istra programma, kuras apguvei ir nepiecieÅ”ams daudz laika, tai skaitā mājasdarbu.

No mana kursa perspektÄ«vas parasti tiek sagaidÄ«ts, ka students veltÄ«s uzdevumu veikÅ”anai 2ā€“3 stundas nedēļā. Pirmkārt, uzdevumi tiek veikti apmācÄ«bu klasterÄ«, un jebkurÅ” koplietots klasteris nozÄ«mē, ka vairāki cilvēki to izmanto vienlaikus. Tas nozÄ«mē, ka jums bÅ«s jāgaida, lÄ«dz uzdevums sāks izpildÄ«t; daži resursi var tikt atlasÄ«ti un pārsÅ«tÄ«ti uz augstākas prioritātes rindu. No otras puses, jebkurÅ” darbs ar lielajiem datiem aizņem daudz laika.

Ja jums ir vēl kādi jautājumi par programmu, darbu ar lielajiem datiem vai inženierzinātņu prasmēm, Ozon Masters sestdien, 25. aprÄ«lÄ«, pulksten 12:00 rÄ«ko tieÅ”saistes atvērto durvju dienu. Tiekamies ar skolotājiem un skolēniem Zoom un YouTube.

Avots: www.habr.com

Pievieno komentāru