Pavel Klemenkov, NVIDIA: Gisulayan namon nga mapakunhod ang gintang tali sa mahimo sa usa ka data scientist ug kung unsa ang kinahanglan niyang mahimo.

Ang ikaduha nga pag-inom sa mga estudyante sa master's program sa data science ug business intelligence Ozon Masters nagsugod na - ug aron mas sayon ​​​​ang pagdesisyon sa pagbiya sa usa ka aplikasyon ug pagkuha sa online nga pagsulay, among gipangutana ang mga magtutudlo sa programa mahitungod sa unsay madahom gikan sa pagtuon ug pagtrabaho. uban sa datos.

Pavel Klemenkov, NVIDIA: Gisulayan namon nga mapakunhod ang gintang tali sa mahimo sa usa ka data scientist ug kung unsa ang kinahanglan niyang mahimo. Chief Data Scientist NVIDIA ug magtutudlo mga kurso sa Big Data ug Data Engineering Gihisgutan ni Pavel Klemenkov kung nganong kinahanglan nga magsulat ang mga mathematician og code ug magtuon sa Ozon Masters sulod sa duha ka tuig.

- Adunay daghang mga kompanya nga naggamit sa mga algorithm sa siyensya sa datos?

- Actually daghan kaayo. Daghang mga dagkong kompanya nga adunay dako nga datos ang nagsugod sa pagtrabaho uban niini nga epektibo o nagtrabaho uban niini sa dugay nga panahon. Klaro nga ang katunga sa merkado naggamit sa datos nga mahimong mohaum sa usa ka spreadsheet sa Excel o mahimong kalkulado sa usa ka dako nga server, apan dili kini ikaingon nga adunay pipila lamang nga mga negosyo nga makatrabaho sa datos.

— Sultihi kami og gamay bahin sa mga proyekto diin gigamit ang siyensya sa datos.

— Pananglitan, samtang nagtrabaho sa Rambler, naghimo kami usa ka sistema sa advertising nga nagtrabaho sa mga prinsipyo sa RTB (Real Time Bidding) - kinahanglan namon nga magtukod daghang mga modelo nga ma-optimize ang pagpalit sa advertising o, pananglitan, makatagna sa posibilidad. sa usa ka pag-klik, pagkakabig, ug uban pa. Sa parehas nga oras, ang usa ka subasta sa advertising nagpatunghag daghang mga datos: mga log sa mga hangyo sa site sa mga potensyal nga pumapalit sa advertising, mga troso sa mga impresyon sa advertising, mga log sa mga pag-klik - kini napulo ka terabytes nga datos matag adlaw.

Dugang pa, alang niini nga mga buluhaton naobserbahan namon ang usa ka makapaikag nga panghitabo: ang daghang datos nga imong gihatag aron mabansay ang modelo, labi ka taas ang kalidad niini. Kasagaran, pagkahuman sa usa ka piho nga kantidad sa datos, ang kalidad sa forecast mihunong sa pag-uswag, ug aron mapauswag ang katukma, kinahanglan nimo nga mogamit usa ka lahi nga sukaranan nga modelo, lahi nga pamaagi sa pag-andam sa datos, mga bahin, ug uban pa. Dinhi nag-upload kami og dugang nga datos ug ang kalidad misaka.

Kini usa ka kasagaran nga kaso diin ang mga analista kinahanglan, una, magtrabaho uban ang daghang mga set sa datos aron labing menos magpahigayon usa ka eksperimento, ug kung diin imposible nga makuha ang usa ka gamay nga sample nga mohaum sa usa ka komportable nga MacBook. Sa parehas nga oras, kinahanglan namon ang gipang-apod-apod nga mga modelo, tungod kay kung dili, dili sila mabansay. Uban sa pagpaila sa computer vision ngadto sa produksyon, ang maong mga pananglitan nahimong mas komon, tungod kay ang mga hulagway usa ka dako nga gidaghanon sa datos, ug aron sa pagbansay sa usa ka dako nga modelo, minilyon nga mga hulagway ang gikinahanglan.

Ang pangutana mitungha dayon: kung giunsa pagtipig ang tanan nga kini nga kasayuran, kung giunsa kini maproseso nga epektibo, kung giunsa ang paggamit sa giapod-apod nga mga algorithm sa pagkat-on - ang pokus nagbalhin gikan sa lunsay nga matematika hangtod sa engineering. Bisan kung dili ka magsulat sa code sa produksiyon, kinahanglan nimo nga magtrabaho kauban ang mga gamit sa engineering aron magpahigayon usa ka eksperimento.

— Giunsa pagbag-o ang pamaagi sa mga bakanteng data science sa bag-ohay nga mga tuig?

- Ang dagkong datos wala na mahimong hype ug nahimo na nga kamatuoran. Ang mga hard drive medyo barato, nga nagpasabut nga posible nga makolekta ang tanan nga datos aron sa umaabot adunay igo nga pagsulay sa bisan unsang mga pangagpas. Ingon nga resulta, ang kahibalo sa mga himan alang sa pagtrabaho uban sa dagkong datos nahimong popular kaayo, ug, isip resulta, nagkadaghang mga bakante alang sa mga inhenyero sa datos ang nagpakita.

Sa akong pagsabot, ang resulta sa trabaho sa usa ka data scientist dili usa ka eksperimento, apan usa ka produkto nga nakaabot sa produksiyon. Ug gikan lamang niini nga punto sa panglantaw, sa wala pa ang pag-abut sa hype sa palibot sa dagkong datos, ang proseso mas simple: ang mga inhenyero nakigbahin sa pagkat-on sa makina aron masulbad ang piho nga mga problema, ug walay mga problema sa pagdala sa mga algorithm ngadto sa produksyon.

— Unsa ang gikinahanglan aron magpabilin nga usa ka gipangita nga espesyalista?

— Karon daghang mga tawo ang mianhi sa siyensya sa datos nga nagtuon sa matematika, ang teorya sa pagkat-on sa makina, ug miapil sa mga kompetisyon sa pag-analisa sa datos, diin ang usa ka andam nga imprastraktura gihatag: ang datos gilimpyohan, ang mga sukatan gihubit, ug wala’y mga kinahanglanon alang sa solusyon nga mahimong reproducible ug paspas.

Ingon usa ka sangputanan, ang mga lalaki moabut sa pagtrabaho nga dili andam alang sa mga katinuud sa negosyo, ug usa ka gintang ang naporma tali sa mga bag-o ug eksperyensiyado nga mga developer.

Uban sa pag-uswag sa mga himan nga nagtugot kanimo sa pag-assemble sa imong kaugalingon nga modelo gikan sa andam na nga mga module - ug ang Microsoft, Google ug daghan pa adunay ingon nga mga solusyon - ug ang automation sa pagkat-on sa makina, kini nga gintang mahimong labi pa nga gipahayag. Sa umaabot, ang propesyon manginahanglan alang sa mga seryoso nga tigdukiduki nga adunay bag-ong mga algorithm, ug mga empleyado nga adunay naugmad nga kahanas sa engineering nga magpatuman sa mga modelo ug mag-automate sa mga proseso. Ang kurso sa Ozon Masters sa data engineering gilaraw aron mapalambo ang mga kahanas sa inhenyeriya ug ang abilidad sa paggamit sa giapod-apod nga mga algorithm sa pagkat-on sa makina sa dagkong datos. Gisulayan namon nga mapakunhod ang gintang tali sa mahimo sa usa ka data scientist ug kung unsa ang kinahanglan niyang mahimo sa praktis.

— Ngano nga ang usa ka matematiko nga adunay diploma moadto sa pagtuon sa negosyo?

— Ang Russian nga data science nga komunidad nakasabut nga ang kahanas ug kasinatian dali kaayo nga nakabig sa salapi, busa, sa diha nga ang usa ka espesyalista adunay praktikal nga kasinatian, ang iyang gasto nagsugod sa pagtubo sa madali, ang labing hanas nga mga tawo mahal kaayo - ug kini tinuod sa kasamtangan nga panahon sa kalamboan sa merkado.

Usa ka dako nga bahin sa trabaho sa usa ka data scientist mao ang pag-adto sa datos, pagsabut kung unsa ang naa, pagkonsulta sa mga tawo nga responsable sa mga proseso sa negosyo ug pagmugna niini nga datos - ug unya gamiton kini sa paghimo og mga modelo. Sa pagsugod sa pagtrabaho uban sa dako nga data, kini mao ang hilabihan ka importante nga adunay engineering kahanas - kini mas sayon ​​sa paglikay sa hait nga mga kanto, diin adunay daghan sa data science.

Usa ka kasagaran nga istorya: nagsulat ka usa ka pangutana sa SQL nga gipatuman gamit ang balangkas sa Hive nga nagdagan sa dagkong datos. Ang hangyo giproseso sa napulo ka minuto, sa pinakagrabe nga kaso - sa usa o duha ka oras, ug kasagaran, sa dihang makadawat ka og mga pag-download niini nga datos, imong naamgohan nga nakalimot ka sa pagkonsiderar sa pipila ka butang o dugang nga impormasyon. Kinahanglan nimong ipadala pag-usab ang hangyo ug maghulat niining mga minuto ug oras. Kung ikaw usa ka henyo sa kahusayan, magbuhat ka ug lain nga buluhaton, apan, ingon sa gipakita sa praktis, kami adunay pipila nga mga henyo sa kahusayan, ug ang mga tawo naghulat ra. Busa, sa mga kurso kita mogugol ug daghang panahon sa pagtrabaho nga episyente aron sa sinugdan isulat ang mga pangutana nga motrabaho dili sa duha ka oras, kondili sa pipila ka minuto. Kini nga kahanas nagpadaghan sa pagka-produktibo, ug uban niini ang bili sa usa ka espesyalista.

- Sa unsang paagi ang Ozon Masters lahi sa ubang mga kurso?

— Ang Ozon Masters gitudloan sa mga empleyado sa Ozon, ug ang mga buluhaton gibase sa tinuod nga mga kaso sa negosyo nga nasulbad sa mga kompanya. Sa tinuud, dugang sa kakulang sa kahanas sa inhenyeriya, ang usa ka tawo nga nagtuon sa siyensya sa datos sa unibersidad adunay lain nga problema: ang buluhaton sa usa ka negosyo giporma sa sinultian sa negosyo, ug ang katuyoan niini yano ra: aron makakuha daghang salapi. Ug nahibal-an pag-ayo sa usa ka matematiko kung giunsa ang pag-optimize sa mga sukatan sa matematika - apan ang pagpangita sa usa ka timailhan nga adunay kalabotan sa usa ka sukatan sa negosyo lisud. Ug kinahanglan nimong masabtan nga imong gisulbad ang usa ka problema sa negosyo, ug kauban ang negosyo, paghimo og mga sukatan nga mahimong ma-optimize sa matematika. Kini nga kahanas nakuha pinaagi sa tinuod nga mga kaso, ug kini gihatag sa Ozon.
Ug bisan kung dili naton tagdon ang mga kaso, ang eskuylahan gitudloan sa daghang mga practitioner nga nagsulbad sa mga problema sa negosyo sa mga tinuud nga kompanya. Ingon usa ka sangputanan, ang pamaagi sa pagtudlo mismo labi pa nga nakapunting sa praktis. Labing menos sa akong kurso, sulayan nako nga ibalhin ang pokus sa kung giunsa ang paggamit sa mga himan, kung unsang mga pamaagi ang naglungtad, ug uban pa. Uban sa mga estudyante, atong masabtan nga ang matag buluhaton adunay kaugalingon nga himan, ug ang matag himan adunay iyang lugar nga magamit.

— Ang labing bantog nga programa sa pagbansay sa pagtuki sa datos, siyempre, mao ang ShAD — unsa gyud ang kalainan niini?

— Klaro nga ang ShAD ug Ozon Masters, dugang sa gimbuhaton sa edukasyon, nagsulbad sa lokal nga problema sa pagbansay sa mga kawani. Ang nanguna nga mga gradwado sa SHAD nag-una nga gi-recruit sa Yandex, apan ang nakuha mao nga ang Yandex, tungod sa mga detalye niini - ug kini dako ug gimugna sa diha nga adunay pipila ka maayo nga mga himan alang sa pagtrabaho uban sa dagkong data - adunay kaugalingong imprastraktura ug mga himan alang sa pagtrabaho uban sa datos , nga nagpasabut, kinahanglan nimo nga hawod sila. Ang Ozon Masters adunay lahi nga mensahe - kung malampuson nimo nga na-master ang programa ug ang Ozon o usa sa 99% sa ubang mga kompanya nagdapit kanimo sa pagtrabaho, labi ka dali nga magsugod nga makabenepisyo sa negosyo; ang set sa kahanas nga nakuha isip bahin sa Ozon Masters igo na nga magsugod sa pagtrabaho.

— Ang kurso molungtad ug duha ka tuig. Ngano nga kinahanglan nimo nga mogahin ug daghang oras niini?

- Maayong pangutana. Nagkinahanglan kini og taas nga panahon, tungod kay sa mga termino sa sulud ug lebel sa mga magtutudlo, kini usa ka integral nga programa sa master nga nanginahanglan daghang oras aron ma-master, lakip ang homework.

Gikan sa akong panan-aw sa kurso, ang pagpaabut sa usa ka estudyante nga mogugol og 2-3 ka oras sa usa ka semana sa mga buluhaton kasagaran. Una, ang mga buluhaton gihimo sa usa ka cluster sa pagbansay, ug ang bisan unsang gipaambit nga cluster nagpasabot nga daghang mga tawo ang naggamit niini nga dungan. Kana mao, kinahanglan ka maghulat alang sa buluhaton nga magsugod sa pagpatuman; pipila ka mga kapanguhaan mahimo’g mapili ug ibalhin sa usa ka labi ka taas nga priyoridad nga pila. Sa laing bahin, ang bisan unsang trabaho nga adunay dagkong datos nagkinahanglag daghang oras.

Kung aduna ka'y ​​dugang nga mga pangutana mahitungod sa programa, nagtrabaho uban ang dagkong datos o kahanas sa engineering, ang Ozon Masters adunay online nga bukas nga adlaw sa Sabado, Abril 25 sa 12:00. Nakigkita kami sa mga magtutudlo ug mga estudyante sa Zoom ug padayon YouTube.

Source: www.habr.com

Idugang sa usa ka comment