Ir sÄkusies otrÄ datu zinÄtnes un biznesa inteliÄ£ences maÄ£istra programmas Ozon Masters studentu uzÅemÅ”ana - un, lai bÅ«tu vieglÄk pieÅemt lÄmumu par pieteikuma atstÄÅ”anu un tieÅ”saistes ieskaites kÄrtoÅ”anu, jautÄjÄm programmas pasniedzÄjiem par to, ko sagaidÄ«t no studijÄm un darba. ar datiem.
NVIDIA galvenais datu zinÄtnieks un skolotÄjs
ā Vai ir daudz uzÅÄmumu, kas izmanto datu zinÄtnes algoritmus?
ā PatiesÄ«bÄ diezgan daudz. Diezgan daudz lielu uzÅÄmumu, kuriem ir patieÅ”Äm lieli dati, vai nu sÄk efektÄ«vi strÄdÄt ar tiem, vai arÄ« strÄdÄ ar tiem jau ilgu laiku. Skaidrs, ka puse tirgus izmanto datus, kas var ietilpt Excel tabulÄ vai ko var aprÄÄ·inÄt uz liela servera, taÄu nevar teikt, ka ir tikai daži uzÅÄmumi, kas spÄj strÄdÄt ar datiem.
ā PastÄstiet nedaudz par projektiem, kuros izmanto datu zinÄtni.
ā PiemÄram, strÄdÄjot uzÅÄmumÄ Rambler, veidojÄm reklÄmas sistÄmu, kas darbojÄs pÄc RTB (Real Time Bidding) principiem ā vajadzÄja izveidot daudzus modeļus, kas optimizÄtu reklÄmas iegÄdi vai, piemÄram, varÄtu paredzÄt varbÅ«tÄ«bu. par klikŔķi, reklÄmguvumu un tÄ tÄlÄk. TajÄ paÅ”Ä laikÄ reklÄmas izsole Ä£enerÄ daudz datu: vietÅu pieprasÄ«jumu žurnÄli potenciÄlajiem reklÄmas pircÄjiem, reklÄmas seansu žurnÄli, klikŔķu žurnÄli - tas ir desmitiem terabaitu datu dienÄ.
TurklÄt Å”iem uzdevumiem mÄs novÄrojÄm interesantu parÄdÄ«bu: jo vairÄk datu jÅ«s sniedzat, lai apmÄcÄ«tu modeli, jo augstÄka tÄ kvalitÄte. Parasti pÄc noteikta datu apjoma prognozes kvalitÄte pÄrstÄj uzlaboties, un, lai vÄl vairÄk uzlabotu precizitÄti, ir jÄizmanto principiÄli atŔķirÄ«gs modelis, cita pieeja datu sagatavoÅ”anai, funkcijas utt. Å eit mÄs augÅ”upielÄdÄjÄm vairÄk datu, un kvalitÄte uzlabojÄs.
Å is ir tipisks gadÄ«jums, kad analÄ«tiÄ·iem, pirmkÄrt, bija jÄstrÄdÄ ar lielÄm datu kopÄm, lai vismaz veiktu eksperimentu, un kur nebija iespÄjams iztikt ar nelielu paraugu, kas iederas mÄjÄ«gÄ MacBook. TajÄ paÅ”Ä laikÄ mums bija nepiecieÅ”ami izplatÄ«ti modeļi, jo citÄdi viÅus nevarÄja apmÄcÄ«t. LÄ«dz ar datorredzes ievieÅ”anu ražoÅ”anÄ Å”Ädi piemÄri kļūst arvien izplatÄ«tÄki, jo attÄli ir liels datu apjoms, un, lai apmÄcÄ«tu lielu modeli, ir nepiecieÅ”ami miljoniem attÄlu.
Uzreiz rodas jautÄjums: kÄ glabÄt visu Å”o informÄciju, kÄ to efektÄ«vi apstrÄdÄt, kÄ izmantot sadalÄ«tos mÄcÄ«bu algoritmus ā fokuss no tÄ«rÄs matemÄtikas pÄriet uz inženieriju. Pat ja jÅ«s nerakstÄt kodu ražoÅ”anÄ, jums ir jÄspÄj strÄdÄt ar inženiertehniskajiem rÄ«kiem, lai veiktu eksperimentu.
ā KÄ pÄdÄjos gados ir mainÄ«jusies pieeja datu zinÄtnes vakancÄm?
ā Lielie dati vairs nav ažiotÄža un kļuvuÅ”i par realitÄti. Cietie diski ir diezgan lÄti, kas nozÄ«mÄ, ka ir iespÄjams savÄkt visus datus, lai nÄkotnÄ pietiktu jebkuras hipotÄzes pÄrbaudei. LÄ«dz ar to zinÄÅ”anas par rÄ«kiem darbam ar lielajiem datiem kļūst ļoti populÄras, un lÄ«dz ar to arvien vairÄk parÄdÄs datu inženieru vakances.
ManÄ izpratnÄ datu zinÄtnieka darba rezultÄts nav eksperiments, bet gan produkts, kas nonÄcis ražoÅ”anÄ. Un tieÅ”i no Ŕī viedokļa, pirms parÄdÄ«jÄs ažiotÄža par lielajiem datiem, process bija vienkÄrÅ”Äks: inženieri bija iesaistÄ«ti maŔīnmÄcÄ«bÄ, lai atrisinÄtu konkrÄtas problÄmas, un nebija problÄmu ar algoritmu ievieÅ”anu ražoÅ”anÄ.
ā Kas nepiecieÅ”ams, lai paliktu par pieprasÄ«tu speciÄlistu?
ā Tagad uz datu zinÄtni ir nonÄkuÅ”i daudzi cilvÄki, kuri studÄjuÅ”i matemÄtiku, maŔīnmÄcÄ«Å”anÄs teoriju un piedalÄ«juÅ”ies datu analÄ«zes konkursos, kur ir nodroÅ”inÄta gatava infrastruktÅ«ra: dati tiek iztÄ«rÄ«ti, metrika definÄta, un nav. prasÄ«bas, lai risinÄjums bÅ«tu reproducÄjams un Ätrs.
TÄ rezultÄtÄ puiÅ”i nÄk uz darbu slikti sagatavoti biznesa realitÄtei, un veidojas plaisa starp iesÄcÄjiem un pieredzÄjuÅ”iem izstrÄdÄtÄjiem.
IzstrÄdÄjot rÄ«kus, kas ļauj no gataviem moduļiem salikt savu modeli ā un Microsoft, Google un daudziem citiem jau ir Å”Ädi risinÄjumi ā un maŔīnmÄcÄ«Å”anÄs automatizÄciju, Ŕī plaisa kļūs vÄl izteiktÄka. NÄkotnÄ profesija bÅ«s pieprasÄ«ta pÄc nopietniem pÄtniekiem, kas nÄk klajÄ ar jauniem algoritmiem, un darbiniekiem ar attÄ«stÄ«tÄm inženierzinÄtnÄm, kas ieviesÄ«s modeļus un automatizÄs procesus. Ozon Masters kurss datu inženierijÄ ir paredzÄts, lai attÄ«stÄ«tu inženierzinÄtnes un spÄju izmantot sadalÄ«tos maŔīnmÄcÄ«Å”anÄs algoritmus lielajiem datiem. MÄs cenÅ”amies samazinÄt plaisu starp to, ko datu zinÄtnieks var darÄ«t, un to, kas viÅam bÅ«tu jÄspÄj praksÄ.
ā KÄpÄc matemÄtiÄ·im ar diplomu jÄiet studÄt uzÅÄmÄjdarbÄ«bu?
ā Krievijas datu zinÄtnes sabiedrÄ«ba ir sapratusi, ka prasme un pieredze ļoti Ätri tiek pÄrvÄrstas naudÄ, tÄpÄc, tiklÄ«dz speciÄlistam ir praktiskÄ pieredze, viÅa izmaksas sÄk augt ļoti Ätri, prasmÄ«gÄkie cilvÄki ir ļoti dÄrgi - un tas ir taisnÄ«ba paÅ”reizÄjÄ attÄ«stÄ«bas tirgus brÄ«dÄ«.
Datu zinÄtnieka liela daļa no darba ir iedziļinÄties datos, saprast, kas tajos slÄpjas, konsultÄties ar cilvÄkiem, kas ir atbildÄ«gi par biznesa procesiem un Ä£enerÄt Å”os datus ā un tikai pÄc tam izmantot tos modeļu veidoÅ”anÄ. Lai sÄktu strÄdÄt ar lielajiem datiem, ÄrkÄrtÄ«gi svarÄ«gas ir inženierzinÄtÅu prasmes ā tÄdÄjÄdi ir daudz vieglÄk izvairÄ«ties no asiem stÅ«riem, kuru datu zinÄtnÄ ir daudz.
Tipisks stÄsts: jÅ«s uzrakstÄ«jÄt vaicÄjumu SQL, kas tiek izpildÄ«ts, izmantojot Hive sistÄmu, kas darbojas ar lielajiem datiem. PieprasÄ«jums tiek apstrÄdÄts desmit minÅ«tÄs, sliktÄkajÄ gadÄ«jumÄ ā stundas vai divu laikÄ, un nereti, saÅemot Å”o datu lejupielÄdes, saproti, ka esi aizmirsis Åemt vÄrÄ kÄdu faktoru vai papildu informÄciju. Jums ir atkÄrtoti jÄnosÅ«ta pieprasÄ«jums un jÄgaida Ŕīs minÅ«tes un stundas. Ja esi efektivitÄtes Ä£Änijs, tu Ä·ersies pie cita uzdevuma, bet, kÄ liecina prakse, efektivitÄtes Ä£Äniju mums ir maz, un cilvÄki tikai gaida. TÄpÄc kursos daudz laika veltÄ«sim darba efektivitÄtei, lai sÄkotnÄji rakstÄ«tu vaicÄjumus, kas darbojas nevis divas stundas, bet vairÄkas minÅ«tes. Å Ä« prasme vairo produktivitÄti un lÄ«dz ar to arÄ« speciÄlista vÄrtÄ«bu.
ā Ar ko Ozon Masters atŔķiras no citiem kursiem?
ā Ozon Masters pasniedz Ozon darbinieki, un uzdevumu pamatÄ ir reÄli biznesa gadÄ«jumi, kas tiek risinÄti uzÅÄmumos. PatiesÄ«bÄ bez inženiertehnisko prasmju trÅ«kuma cilvÄkam, kurÅ” universitÄtÄ studÄjis datu zinÄtni, ir vÄl viena problÄma: biznesa uzdevums ir formulÄts biznesa valodÄ, un tÄ mÄrÄ·is ir pavisam vienkÄrÅ”s: nopelnÄ«t vairÄk. Un matemÄtiÄ·is labi zina, kÄ optimizÄt matemÄtiskos rÄdÄ«tÄjus, taÄu ir grÅ«ti atrast rÄdÄ«tÄju, kas korelÄ ar biznesa metriku. Un jums ir jÄsaprot, ka jÅ«s risinat biznesa problÄmu, un kopÄ ar uzÅÄmumu jÄformulÄ rÄdÄ«tÄji, kurus var matemÄtiski optimizÄt. Å Ä« prasme tiek iegÅ«ta reÄlos gadÄ«jumos, un tos dod Ozons.
Un, pat ja mÄs ignorÄjam gadÄ«jumus, skolÄ mÄca daudzi praktiÄ·i, kas risina biznesa problÄmas reÄlos uzÅÄmumos. RezultÄtÄ pati pieeja mÄcÄ«Å”anai joprojÄm ir vairÄk orientÄta uz praksi. Vismaz savÄ kursÄ es centÄ«Å”os novirzÄ«t uzmanÄ«bu uz to, kÄ izmantot rÄ«kus, kÄdas pieejas pastÄv utt. KopÄ ar skolÄniem sapratÄ«sim, ka katram uzdevumam ir savs rÄ«ks, un katram instrumentam ir sava pielietojuma joma.
ā SlavenÄkÄ datu analÄ«zes apmÄcÄ«bas programma, protams, ir ShaD ā ar ko tad Ä«sti atŔķiras?
ā Skaidrs, ka ShaD un Ozon Masters papildus izglÄ«tojoÅ”ajai funkcijai risina lokÄlo personÄla apmÄcÄ«bas problÄmu. LabÄkie SHAD absolventi galvenokÄrt tiek pieÅemti darbÄ Yandex, taÄu galvenais ir tas, ka Yandex savas specifikas dÄļ - un tas ir liels un tika izveidots, kad bija maz labu rÄ«ku darbam ar lielajiem datiem - ir sava infrastruktÅ«ra un rÄ«ki darbam ar datiem. , kas nozÄ«mÄ , jums tie bÅ«s jÄapgÅ«st. Ozon Masters vÄstÄ«jums ir cits - ja esi veiksmÄ«gi apguvis programmu un Ozons vai kÄds no 99% citiem uzÅÄmumiem uzaicina tevi strÄdÄt, bÅ«s daudz vieglÄk sÄkt gÅ«t labumu biznesÄ; prasmju kopums, kas iegÅ«ts Ozon Masters ietvaros. bÅ«s pietiekami, lai tikai sÄktu strÄdÄt.
ā Kursi ilgst divus gadus. KÄpÄc jums ir jÄvelta tik daudz laika Å”im darbam?
- Labs jautÄjums. Tas prasa ilgu laiku, jo satura un skolotÄju lÄ«meÅa ziÅÄ Å”Ä« ir neatÅemama maÄ£istra programma, kuras apguvei ir nepiecieÅ”ams daudz laika, tai skaitÄ mÄjasdarbu.
No mana kursa perspektÄ«vas parasti tiek sagaidÄ«ts, ka students veltÄ«s uzdevumu veikÅ”anai 2ā3 stundas nedÄļÄ. PirmkÄrt, uzdevumi tiek veikti apmÄcÄ«bu klasterÄ«, un jebkurÅ” koplietots klasteris nozÄ«mÄ, ka vairÄki cilvÄki to izmanto vienlaikus. Tas nozÄ«mÄ, ka jums bÅ«s jÄgaida, lÄ«dz uzdevums sÄks izpildÄ«t; daži resursi var tikt atlasÄ«ti un pÄrsÅ«tÄ«ti uz augstÄkas prioritÄtes rindu. No otras puses, jebkurÅ” darbs ar lielajiem datiem aizÅem daudz laika.
Ja jums ir vÄl kÄdi jautÄjumi par programmu, darbu ar lielajiem datiem vai inženierzinÄtÅu prasmÄm, Ozon Masters sestdien, 25. aprÄ«lÄ«, pulksten 12:00 rÄ«ko tieÅ”saistes atvÄrto durvju dienu. Tiekamies ar skolotÄjiem un skolÄniem
Avots: www.habr.com