Pavel Klemenkov, NVIDIA: Încercăm să reducem decalajul dintre ceea ce poate face un cercetător de date și ceea ce ar trebui să fie capabil să facă

A început a doua participare a studenților programului de master în știința datelor și business intelligence Ozon Masters - și pentru a facilita decizia de a lăsa o aplicație și de a susține testul online, i-am întrebat pe profesorii programului despre ce să ne așteptăm de la studii și muncă. cu date.

Pavel Klemenkov, NVIDIA: Încercăm să reducem decalajul dintre ceea ce poate face un cercetător de date și ceea ce ar trebui să fie capabil să facă Chief Data Scientist NVIDIA și profesor cursuri despre Big Data și Data Engineering Pavel Klemenkov a vorbit despre motivul pentru care matematicienii trebuie să scrie cod și să studieze la Ozon Masters timp de doi ani.

— Există multe companii care folosesc algoritmi de știință a datelor?

- De fapt, destul de multe. Destul de multe companii mari care au date cu adevărat mari fie încep să lucreze cu ele în mod eficient, fie lucrează cu ele de mult timp. Este clar că jumătate din piață folosește date care pot încadra într-o foaie de calcul Excel sau pot fi calculate pe un server mare, dar nu se poate spune că sunt doar câteva afaceri care pot lucra cu date.

— Povestește-ne puțin despre proiectele în care se utilizează știința datelor.

— De exemplu, în timp ce lucram la Rambler, făceam un sistem de publicitate care funcționa pe principiile RTB (Real Time Bidding) - trebuia să construim multe modele care să optimizeze achiziția de publicitate sau, de exemplu, să prezică probabilitatea a unui clic, conversie și așa mai departe. În același timp, o licitație publicitară generează o mulțime de date: jurnalele de solicitări de site către potențialii cumpărători de publicitate, jurnalele de afișări publicitare, jurnalele de clicuri - aceasta este zeci de terabytes de date pe zi.

Mai mult, pentru aceste sarcini am observat un fenomen interesant: cu cât oferiți mai multe date pentru a antrena modelul, cu atât este mai mare calitatea acestuia. De obicei, după o anumită cantitate de date, calitatea prognozei încetează să se îmbunătățească și pentru a îmbunătăți în continuare acuratețea, trebuie să utilizați un model fundamental diferit, o abordare diferită pentru pregătirea datelor, caracteristicilor și așa mai departe. Aici am încărcat mai multe date și calitatea a crescut.

Acesta este un caz tipic în care analiștii au trebuit, în primul rând, să lucreze cu seturi mari de date pentru a efectua cel puțin un experiment și în care a fost imposibil să se descurce cu un eșantion mic care se potrivește într-un MacBook confortabil. În același timp, aveam nevoie de modele distribuite, pentru că altfel nu puteau fi antrenate. Odată cu introducerea vederii computerizate în producție, astfel de exemple devin din ce în ce mai frecvente, deoarece imaginile reprezintă o cantitate mare de date, iar pentru a antrena un model mare, sunt necesare milioane de imagini.

Apare imediat întrebarea: cum să stocăm toate aceste informații, cum să le procesăm eficient, cum să folosiți algoritmi de învățare distribuită - accentul se mută de la matematică pură la inginerie. Chiar dacă nu scrieți cod în producție, trebuie să puteți lucra cu instrumente de inginerie pentru a efectua un experiment.

— Cum s-a schimbat abordarea posturilor vacante în domeniul științei datelor în ultimii ani?

— Big data a încetat să mai fie hype și a devenit o realitate. Hard disk-urile sunt destul de ieftine, ceea ce înseamnă că este posibil să colectați toate datele, astfel încât în ​​viitor să fie suficiente pentru a testa orice ipoteză. Drept urmare, cunoașterea instrumentelor de lucru cu big data devine foarte populară și, ca urmare, apar tot mai multe posturi vacante pentru ingineri de date.

După înțelegerea mea, rezultatul muncii unui cercetător de date nu este un experiment, ci un produs care a ajuns la producție. Și tocmai din acest punct de vedere, înainte de apariția hype-ului în jurul datelor mari, procesul era mai simplu: inginerii erau implicați în învățarea automată pentru a rezolva probleme specifice și nu au existat probleme cu aducerea algoritmilor în producție.

— Ce este nevoie pentru a rămâne un specialist căutat?

— Acum mulți oameni au venit la știința datelor care au studiat matematica, teoria învățării automate și au participat la competiții de analiză a datelor, unde este furnizată o infrastructură gata făcută: datele sunt curățate, metricile sunt definite și nu există cerinţele pentru ca soluţia să fie reproductibilă şi rapidă.

Drept urmare, băieții vin să lucreze prost pregătiți pentru realitățile afacerilor și se formează un decalaj între începători și dezvoltatorii experimentați.

Odată cu dezvoltarea instrumentelor care vă permit să vă asamblați propriul model din module gata făcute - iar Microsoft, Google și mulți alții au deja astfel de soluții - și automatizarea învățării automate, acest decalaj va deveni și mai pronunțat. În viitor, profesia va fi solicitată de cercetători serioși care vin cu noi algoritmi și de angajați cu abilități de inginerie dezvoltate, care vor implementa modele și vor automatiza procesele. Cursul de master Ozon în ingineria datelor este conceput pentru a dezvolta abilități de inginerie și capacitatea de a utiliza algoritmi de învățare automată distribuiți pe date mari. Încercăm să reducem decalajul dintre ceea ce poate face un cercetător de date și ceea ce ar trebui să fie capabil să facă în practică.

— De ce ar trebui să meargă un matematician cu diplomă să studieze afaceri?

— Comunitatea rusă de știință a datelor a ajuns să înțeleagă că abilitățile și experiența sunt foarte repede transformate în bani, prin urmare, de îndată ce un specialist are experiență practică, costul său începe să crească foarte repede, cei mai calificați oameni sunt foarte scumpi - și asta este adevărat în momentul actual de dezvoltare a pieței.

O mare parte a sarcinii unui cercetător de date este să intre în date, să înțeleagă ce se află acolo, să se consulte cu oamenii care sunt responsabili de procesele de afaceri și să genereze aceste date - și abia apoi să le folosească pentru a construi modele. Pentru a începe să lucrați cu big data, este extrem de important să aveți abilități de inginerie - acest lucru face mult mai ușor să evitați colțurile ascuțite, dintre care există multe în știința datelor.

O poveste tipică: ați scris o interogare în SQL care este executată folosind cadrul Hive care rulează pe date mari. Solicitarea este procesată în zece minute, în cel mai rău caz - într-o oră sau două, și de multe ori, când primești descărcări ale acestor date, îți dai seama că ai uitat să ții cont de vreun factor sau de informații suplimentare. Trebuie să retrimiteți solicitarea și să așteptați aceste minute și ore. Dacă ești un geniu al eficienței, vei prelua o altă sarcină, dar, așa cum arată practica, avem puține genii ale eficienței, iar oamenii doar așteaptă. Prin urmare, în cadrul cursurilor vom dedica mult timp eficienței muncii pentru a scrie inițial interogări care nu funcționează timp de două ore, ci de câteva minute. Această abilitate multiplică productivitatea și, odată cu ea, și valoarea unui specialist.

– Prin ce diferă Ozon Masters de alte cursuri?

— Ozon Masters este predat de angajații Ozon, iar sarcinile se bazează pe cazuri reale de afaceri care sunt rezolvate în companii. De fapt, pe lângă lipsa abilităților de inginerie, o persoană care a studiat știința datelor la universitate are o altă problemă: sarcina unei afaceri este formulată în limbajul afacerilor, iar scopul ei este destul de simplu: să câștige mai mulți bani. Și un matematician știe bine cum să optimizeze valorile matematice - dar este dificil să găsești un indicator care să se coreleze cu o metrică de afaceri. Și trebuie să înțelegeți că rezolvați o problemă de afaceri și, împreună cu afacerea, să formulați valori care pot fi optimizate matematic. Această abilitate este dobândită prin cazuri reale și sunt date de Ozon.
Și chiar dacă ignorăm cazurile, școala este predată de mulți practicieni care rezolvă probleme de afaceri în companii reale. Ca urmare, abordarea în sine a predării este încă mai orientată spre practică. Cel puțin în cursul meu, voi încerca să mă concentrez asupra modului de utilizare a instrumentelor, ce abordări există și așa mai departe. Împreună cu studenții, vom înțelege că fiecare sarcină are propriul instrument, iar fiecare instrument are aria sa de aplicabilitate.

— Cel mai faimos program de instruire în analiza datelor, desigur, este ShaAD – care este exact diferența față de acesta?

— Este clar că ShAD și Ozon Masters, pe lângă funcția educațională, rezolvă problema locală a formării personalului. Absolvenții de top SHAD sunt recrutați în primul rând la Yandex, dar problema este că Yandex, datorită specificului său - și este mare și a fost creat când existau puține instrumente bune pentru lucrul cu date mari - are propria infrastructură și instrumente pentru lucrul cu date. , ceea ce înseamnă că va trebui să le stăpânești. Ozon Masters are un alt mesaj - dacă ați stăpânit cu succes programul și Ozon sau una dintre cele 99% din alte companii vă invită la muncă, va fi mult mai ușor să începeți să beneficiați de afaceri; setul de abilități dobândite în cadrul Ozon Masters va fi suficient pentru a începe lucrul.

— Cursul durează doi ani. De ce trebuie să petreci atât de mult timp cu asta?

- Buna intrebare. Este nevoie de mult timp, deoarece în ceea ce privește conținutul și nivelul profesorilor, acesta este un program integral de master, care necesită mult timp pentru a stăpâni, inclusiv temele pentru acasă.

Din perspectiva cursului meu, este obișnuit ca un student să petreacă 2-3 ore pe săptămână pe teme. În primul rând, sarcinile sunt efectuate pe un cluster de antrenament și orice cluster partajat implică faptul că mai multe persoane îl folosesc simultan. Adică, va trebui să așteptați ca sarcina să înceapă să se execute; unele resurse pot fi selectate și transferate într-o coadă cu prioritate mai mare. Pe de altă parte, orice lucru cu date mari necesită mult timp.

Dacă mai aveți întrebări despre program, despre lucrul cu big data sau cu abilități de inginerie, Ozon Masters are o zi a porților deschise online sâmbătă, 25 aprilie, la ora 12:00. Ne întâlnim cu profesori și studenți în zoom și YouTube.

Sursa: www.habr.com

Adauga un comentariu