Pavel Klemenkov, NVIDIA: Ne po përpiqemi të zvogëlojmë hendekun midis asaj që një shkencëtar i të dhënave mund të bëjë dhe asaj që ai duhet të jetë në gjendje të bëjë

Pranimi i dytë i studentëve të programit master në shkencën e të dhënave dhe inteligjencën e biznesit Ozon Masters ka filluar - dhe për ta bërë më të lehtë vendosjen për të lënë një aplikim dhe për të marrë testin online, ne pyetëm mësuesit e programit se çfarë të presim nga studimi dhe puna me të dhëna.

Pavel Klemenkov, NVIDIA: Ne po përpiqemi të zvogëlojmë hendekun midis asaj që një shkencëtar i të dhënave mund të bëjë dhe asaj që ai duhet të jetë në gjendje të bëjë Shkencëtari kryesor i të dhënave NVIDIA dhe mësuesi kurse mbi Big Data dhe Inxhinieria e të Dhënave Pavel Klemenkov foli se pse matematikanët duhet të shkruajnë kode dhe të studiojnë në Ozon Masters për dy vjet.

— A ka shumë kompani që përdorin algoritme të shkencës së të dhënave?

- Në fakt shumë. Shumë kompani të mëdha që kanë të dhëna vërtet të mëdha ose kanë filluar të punojnë me to në mënyrë efektive ose kanë punuar me të për një kohë të gjatë. Është e qartë se gjysma e tregut përdor të dhëna që mund të futen në një spreadsheet Excel ose mund të llogariten në një server të madh, por nuk mund të thuhet se ka vetëm disa biznese që mund të punojnë me të dhëna.

— Na tregoni pak për projektet ku përdoret shkenca e të dhënave.

— Për shembull, ndërsa punonim në Rambler, ne po bënim një sistem reklamimi që funksiononte në parimet e RTB (Oferta në kohë reale) - na duhej të ndërtonim shumë modele që do të optimizonin blerjen e reklamave ose, për shembull, mund të parashikonin probabilitetin e një klikimi, konvertimi, e kështu me radhë. Në të njëjtën kohë, një ankand reklamash gjeneron shumë të dhëna: regjistrat e kërkesave të faqes për blerësit e mundshëm të reklamave, regjistrat e përshtypjeve të reklamave, regjistrat e klikimeve - këto janë dhjetëra terabajt të dhëna në ditë.

Për më tepër, për këto detyra kemi vërejtur një fenomen interesant: sa më shumë të dhëna të jepni për të trajnuar modelin, aq më e lartë është cilësia e tij. Zakonisht, pas një sasie të caktuar të dhënash, cilësia e parashikimit ndalon së përmirësuari, dhe për të përmirësuar më tej saktësinë, duhet të përdorni një model thelbësisht të ndryshëm, një qasje të ndryshme për përgatitjen e të dhënave, veçorive, etj. Këtu kemi ngarkuar më shumë të dhëna dhe cilësia është rritur.

Ky është një rast tipik ku analistët, së pari, duhej të punonin me grupe të mëdha të dhënash, në mënyrë që të paktën të kryenin një eksperiment, dhe ku ishte e pamundur të dilnin me një mostër të vogël që përshtatet në një MacBook komod. Në të njëjtën kohë, na duheshin modele të shpërndara, sepse në të kundërt nuk mund të trajnoheshin. Me futjen e vizionit kompjuterik në prodhim, shembuj të tillë po bëhen më të zakonshëm, pasi fotografitë janë një sasi e madhe të dhënash, dhe për të trajnuar një model të madh, nevojiten miliona fotografi.

Menjëherë lind pyetja: si të ruhet i gjithë ky informacion, si të përpunohet në mënyrë efektive, si të përdoren algoritmet e të mësuarit të shpërndarë - fokusi po zhvendoset nga matematika e pastër në inxhinieri. Edhe nëse nuk shkruani kod në prodhim, duhet të jeni në gjendje të punoni me mjete inxhinierike për të kryer një eksperiment.

— Si ka ndryshuar qasja ndaj vendeve të lira të shkencës së të dhënave vitet e fundit?

— Të dhënat e mëdha kanë pushuar së qeni hype dhe janë bërë realitet. Hard disqet janë mjaft të lira, që do të thotë se është e mundur të mblidhen të gjitha të dhënat në mënyrë që në të ardhmen të ketë mjaftueshëm për të testuar ndonjë hipotezë. Si rezultat, njohuritë e mjeteve për të punuar me të dhëna të mëdha po bëhen shumë të njohura dhe, si rezultat, gjithnjë e më shumë vende të lira për inxhinierë të të dhënave po shfaqen.

Në kuptimin tim, rezultati i punës së një shkencëtari të të dhënave nuk është një eksperiment, por një produkt që ka arritur prodhimin. Dhe pikërisht nga ky këndvështrim, përpara ardhjes së zhurmës rreth të dhënave të mëdha, procesi ishte më i thjeshtë: inxhinierët ishin të angazhuar në mësimin e makinerive për të zgjidhur probleme specifike dhe nuk kishte probleme me sjelljen e algoritmeve në prodhim.

— Çfarë duhet për të mbetur një specialist i kërkuar?

— Tani shumë njerëz kanë ardhur në shkencën e të dhënave që kanë studiuar matematikën, teorinë e mësimit të makinerive dhe kanë marrë pjesë në konkurset e analizës së të dhënave, ku ofrohet një infrastrukturë e gatshme: të dhënat pastrohen, metrikat janë përcaktuar dhe nuk ka kërkesat që zgjidhja të jetë e riprodhueshme dhe e shpejtë.

Si rezultat, djemtë vijnë në punë të papërgatitur keq për realitetet e biznesit dhe krijohet një hendek midis fillestarëve dhe zhvilluesve me përvojë.

Me zhvillimin e mjeteve që ju lejojnë të montoni modelin tuaj nga module të gatshme - dhe Microsoft, Google dhe shumë të tjerë tashmë kanë zgjidhje të tilla - dhe automatizimin e mësimit të makinerive, ky hendek do të bëhet edhe më i theksuar. Në të ardhmen, profesioni do të jetë në kërkesë për studiues seriozë që dalin me algoritme të reja, dhe punonjës me aftësi të zhvilluara inxhinierike që do të zbatojnë modele dhe do të automatizojnë proceset. Kursi Ozon Masters në inxhinierinë e të dhënave është krijuar për të zhvilluar aftësi inxhinierike dhe aftësinë për të përdorur algoritme të shpërndara të mësimit të makinerive në të dhëna të mëdha. Ne po përpiqemi të zvogëlojmë hendekun midis asaj që një shkencëtar i të dhënave mund të bëjë dhe asaj që ai duhet të jetë në gjendje të bëjë në praktikë.

— Pse një matematikan me diplomë duhet të shkojë të studiojë biznes?

— Komuniteti rus i shkencës së të dhënave ka kuptuar se aftësia dhe përvoja shndërrohen shumë shpejt në para, prandaj, sapo një specialist të ketë përvojë praktike, kostoja e tij fillon të rritet shumë shpejt, njerëzit më të aftë janë shumë të shtrenjtë - dhe kjo është e vërtetë në momentin aktual të zhvillimit të tregut.

Një pjesë e madhe e punës së një shkencëtari të të dhënave është të hyjë në të dhënat, të kuptojë se çfarë qëndron atje, të konsultohet me njerëzit që janë përgjegjës për proceset e biznesit dhe të gjenerojë këto të dhëna - dhe vetëm atëherë t'i përdorin ato për të ndërtuar modele. Për të filluar punën me të dhëna të mëdha, është jashtëzakonisht e rëndësishme të kesh aftësi inxhinierike - kjo e bën shumë më të lehtë shmangien e qosheve të mprehta, prej të cilave ka shumë në shkencën e të dhënave.

Një histori tipike: keni shkruar një pyetje në SQL që ekzekutohet duke përdorur kornizën Hive që funksionon në të dhëna të mëdha. Kërkesa përpunohet në dhjetë minuta, në rastin më të keq - në një ose dy orë, dhe shpesh, kur merrni shkarkime të këtyre të dhënave, kuptoni se keni harruar të merrni parasysh ndonjë faktor ose informacion shtesë. Duhet ta ridërgoni kërkesën dhe të prisni këto minuta dhe orë. Nëse jeni një gjeni i efikasitetit, do të merrni një detyrë tjetër, por, siç tregon praktika, ne kemi pak gjeni të efikasitetit dhe njerëzit thjesht presin. Prandaj, në kurse do t'i kushtojmë shumë kohë efikasitetit të punës në mënyrë që fillimisht të shkruajmë pyetje që funksionojnë jo për dy orë, por për disa minuta. Kjo aftësi shumëfishon produktivitetin dhe bashkë me të edhe vlerën e një specialisti.

– Si ndryshon Ozon Masters nga kurset e tjera?

— Ozon Masters mësohet nga punonjësit e Ozon, dhe detyrat bazohen në raste reale biznesi që zgjidhen në kompani. Në fakt, përveç mungesës së aftësive inxhinierike, një person që ka studiuar shkencën e të dhënave në universitet ka një problem tjetër: detyra e një biznesi është formuluar në gjuhën e biznesit dhe qëllimi i tij është fare i thjeshtë: të fitojë më shumë para. Dhe një matematikan e di mirë se si të optimizojë matjet matematikore - por gjetja e një treguesi që do të lidhet me një metrikë biznesi është e vështirë. Dhe ju duhet të kuptoni se po zgjidhni një problem biznesi dhe së bashku me biznesin, të formuloni metrikë që mund të optimizohen matematikisht. Kjo aftësi fitohet përmes rasteve reale dhe ato jepen nga Ozon.
Dhe edhe nëse i anashkalojmë rastet, shkolla mësohet nga shumë praktikantë që zgjidhin problemet e biznesit në kompani reale. Si rezultat, vetë qasja ndaj mësimdhënies është akoma më e orientuar drejt praktikës. Të paktën në kursin tim, do të përpiqem ta zhvendos fokusin tek mënyra se si të përdoren mjetet, çfarë qasjesh ekzistojnë, etj. Së bashku me studentët, do të kuptojmë se çdo detyrë ka mjetin e vet dhe çdo mjet ka fushën e tij të zbatueshmërisë.

— Programi më i famshëm i trajnimit për analizën e të dhënave, natyrisht, është ShAD - cili është saktësisht ndryshimi prej tij?

— Është e qartë se ShAD dhe Ozon Masters, krahas funksionit arsimor, zgjidhin edhe problemin lokal të trajnimit të personelit. Të diplomuarit më të mirë SHAD rekrutohen kryesisht në Yandex, por kapja është se Yandex, për shkak të specifikave të tij - dhe është i madh dhe u krijua kur kishte pak mjete të mira për të punuar me të dhëna të mëdha - ka infrastrukturën dhe mjetet e veta për të punuar me të dhëna , që do të thotë, ju do të duhet t'i zotëroni ato. Ozon Masters ka një mesazh tjetër - nëse e keni zotëruar me sukses programin dhe Ozon ose një nga 99% e kompanive të tjera ju fton të punoni, do të jetë shumë më e lehtë të filloni të përfitoni nga biznesi; grupi i aftësive të fituara si pjesë e Ozon Masters do të jetë e mjaftueshme për të filluar punën.

— Kursi zgjat dy vjet. Pse duhet të shpenzoni kaq shumë kohë për këtë?

- Pyetje e mirë. Duhet shumë kohë, sepse për nga përmbajtja dhe niveli i mësuesve, ky është një program master integral që kërkon shumë kohë për të zotëruar, përfshirë edhe detyrat e shtëpisë.

Nga këndvështrimi im i kursit, të presësh që një student të shpenzojë 2-3 orë në javë në detyra është e zakonshme. Së pari, detyrat kryhen në një grup trajnimi dhe çdo grup i përbashkët nënkupton që disa njerëz e përdorin atë njëkohësisht. Kjo do të thotë, do të duhet të prisni që detyra të fillojë të ekzekutohet; disa burime mund të zgjidhen dhe transferohen në një radhë me përparësi më të lartë. Nga ana tjetër, çdo punë me të dhëna të mëdha kërkon shumë kohë.

Nëse keni pyetje të tjera në lidhje me programin, duke punuar me të dhëna të mëdha ose aftësi inxhinierike, Ozon Masters do të ketë një ditë të hapur në internet të shtunën, 25 prill në orën 12:00. Ne takohemi me mësues dhe studentë në Zoom dhe YouTube.

Burimi: www.habr.com

Shto një koment