Pavel Klemenkov, NVIDIA: Stiamo cercando di ridurre il divario tra ciò che un data scientist può fare e ciò che dovrebbe essere in grado di fare

È iniziata la seconda assunzione degli studenti del master in data science e business intelligence Ozon Masters - e per rendere più semplice la decisione di lasciare la domanda e sostenere il test online, abbiamo chiesto ai docenti del programma cosa aspettarsi dallo studio e dal lavoro con i dati.

Pavel Klemenkov, NVIDIA: Stiamo cercando di ridurre il divario tra ciò che un data scientist può fare e ciò che dovrebbe essere in grado di fare Chief Data Scientist NVIDIA e insegnante corsi su Big Data e Data Engineering Pavel Klemenkov ha parlato del motivo per cui i matematici devono scrivere codice e studiare all'Ozon Masters per due anni.

— Ci sono molte aziende che utilizzano algoritmi di data science?

- Veramente parecchio. Molte grandi aziende che dispongono di dati davvero grandi stanno iniziando a lavorarci in modo efficace o ci lavorano da molto tempo. È chiaro che la metà del mercato utilizza dati che possono essere contenuti in un foglio di calcolo Excel o calcolati su un server di grandi dimensioni, ma non si può dire che siano solo poche le aziende in grado di lavorare con i dati.

— Raccontaci qualcosa dei progetti in cui viene utilizzata la scienza dei dati.

— Ad esempio, mentre lavoravamo a Rambler, stavamo realizzando un sistema pubblicitario che funzionava secondo i principi di RTB (Real Time Bidding): dovevamo costruire molti modelli che ottimizzassero l'acquisto di pubblicità o, ad esempio, potessero prevedere la probabilità di un clic, una conversione e così via. Allo stesso tempo, un'asta pubblicitaria genera molti dati: registri delle richieste del sito a potenziali acquirenti di pubblicità, registri delle impressioni pubblicitarie, registri dei clic: si tratta di decine di terabyte di dati al giorno.

Inoltre, per queste attività abbiamo osservato un fenomeno interessante: più dati vengono forniti per addestrare il modello, maggiore è la sua qualità. Di solito, dopo una certa quantità di dati, la qualità della previsione smette di migliorare e per migliorare ulteriormente la precisione è necessario utilizzare un modello fondamentalmente diverso, un approccio diverso alla preparazione dei dati, delle funzionalità e così via. Qui abbiamo caricato più dati e la qualità è aumentata.

Questo è un tipico caso in cui gli analisti hanno dovuto, in primo luogo, lavorare con grandi set di dati per condurre almeno un esperimento, e dove era impossibile cavarsela con un piccolo campione che potesse stare in un comodo MacBook. Allo stesso tempo, avevamo bisogno di modelli distribuiti, perché altrimenti non potevano essere addestrati. Con l'introduzione della visione artificiale nella produzione, tali esempi stanno diventando più comuni, poiché le immagini contengono una grande quantità di dati e per addestrare un modello di grandi dimensioni sono necessarie milioni di immagini.

Sorge immediatamente la domanda: come archiviare tutte queste informazioni, come elaborarle in modo efficace, come utilizzare algoritmi di apprendimento distribuito: l'attenzione si sta spostando dalla matematica pura all'ingegneria. Anche se non scrivi codice in produzione, devi essere in grado di lavorare con strumenti di ingegneria per condurre un esperimento.

— Come è cambiato l’approccio ai posti vacanti nel campo della scienza dei dati negli ultimi anni?

— I Big Data hanno smesso di essere una montatura e sono diventati una realtà. I dischi rigidi sono piuttosto economici, il che significa che è possibile raccogliere tutti i dati in modo che in futuro ce ne siano abbastanza per testare qualsiasi ipotesi. Di conseguenza, la conoscenza degli strumenti per lavorare con i big data sta diventando molto popolare e, di conseguenza, appaiono sempre più posti vacanti per ingegneri dei dati.

A mio avviso, il risultato del lavoro di un data scientist non è un esperimento, ma un prodotto che ha raggiunto la produzione. E proprio da questo punto di vista, prima dell’avvento dell’hype attorno ai big data, il processo era più semplice: gli ingegneri erano impegnati nel machine learning per risolvere problemi specifici, e non c’erano problemi nel portare gli algoritmi in produzione.

— Cosa serve per rimanere uno specialista ricercato?

— Ora molte persone si sono avvicinate alla scienza dei dati che hanno studiato matematica, teoria dell'apprendimento automatico e hanno partecipato a concorsi di analisi dei dati, dove viene fornita un'infrastruttura già pronta: i dati vengono puliti, le metriche sono definite e non ci sono requisiti affinché la soluzione sia riproducibile e veloce.

Di conseguenza, i ragazzi arrivano al lavoro impreparati per le realtà del business e si forma un divario tra i principianti e gli sviluppatori esperti.

Con lo sviluppo di strumenti che consentono di assemblare il proprio modello da moduli già pronti - e Microsoft, Google e molti altri dispongono già di tali soluzioni - e l'automazione dell'apprendimento automatico, questo divario diventerà ancora più pronunciato. In futuro, la professione sarà richiesta da ricercatori seri che inventino nuovi algoritmi e da dipendenti con competenze ingegneristiche sviluppate che implementeranno modelli e automatizzeranno i processi. Il corso Ozon Master in ingegneria dei dati è progettato per sviluppare competenze ingegneristiche e la capacità di utilizzare algoritmi di machine learning distribuiti sui big data. Stiamo cercando di ridurre il divario tra ciò che un data scientist può fare e ciò che dovrebbe essere in grado di fare nella pratica.

— Perché un matematico diplomato dovrebbe andare a studiare economia?

— La comunità russa della scienza dei dati ha capito che le competenze e l'esperienza vengono convertite molto rapidamente in denaro, quindi, non appena uno specialista ha esperienza pratica, i suoi costi iniziano a crescere molto rapidamente, le persone più qualificate sono molto costose - e questo è vero nell'attuale momento di sviluppo del mercato.

Gran parte del lavoro di un data scientist consiste nell'entrare nei dati, capire cosa si nasconde lì, consultare le persone responsabili dei processi aziendali e generare questi dati e solo successivamente utilizzarli per costruire modelli. Per iniziare a lavorare con i Big Data, è estremamente importante possedere competenze ingegneristiche: ciò rende molto più semplice evitare gli angoli acuti, di cui ce ne sono molti nella scienza dei dati.

Una storia tipica: hai scritto una query in SQL che viene eseguita utilizzando il framework Hive in esecuzione su big data. La richiesta viene elaborata in dieci minuti, nel peggiore dei casi - in un'ora o due, e spesso, quando ricevi i download di questi dati, ti rendi conto di aver dimenticato di prendere in considerazione qualche fattore o informazione aggiuntiva. Devi inviare nuovamente la richiesta e attendere questi minuti e ore. Se sei un genio dell’efficienza, ti occuperai di un altro compito, ma, come dimostra la pratica, abbiamo pochi geni dell’efficienza e le persone stanno solo aspettando. Pertanto, nei corsi dedicheremo molto tempo all'efficienza lavorativa per scrivere inizialmente query che funzionino non per due ore, ma per diversi minuti. Questa abilità moltiplica la produttività e con essa il valore di uno specialista.

– In cosa differisce Ozon Masters dagli altri corsi?

— Ozon Masters è tenuto da dipendenti Ozon e i compiti si basano su casi aziendali reali risolti nelle aziende. Infatti, oltre alla mancanza di competenze ingegneristiche, una persona che ha studiato scienza dei dati all'università ha un altro problema: il compito di un'azienda è formulato nel linguaggio degli affari e il suo obiettivo è abbastanza semplice: guadagnare di più. E un matematico sa bene come ottimizzare le metriche matematiche, ma è difficile trovare un indicatore che sia correlato a una metrica aziendale. E devi capire che stai risolvendo un problema aziendale e, insieme all'azienda, formulare metriche che possono essere ottimizzate matematicamente. Questa abilità viene acquisita attraverso casi reali e viene fornita da Ozon.
E anche ignorando i casi, la scuola è insegnata da molti professionisti che risolvono problemi aziendali in aziende reali. Di conseguenza, l’approccio stesso all’insegnamento è ancora più orientato alla pratica. Almeno nel mio corso cercherò di spostare l’attenzione su come utilizzare gli strumenti, quali approcci esistono e così via. Insieme agli studenti capiremo che ogni compito ha il proprio strumento e ogni strumento ha la sua area di applicabilità.

— Il programma di formazione sull’analisi dei dati più famoso, ovviamente, è ShAD: qual è esattamente la differenza?

— È chiaro che ShAD e Ozon Masters, oltre alla funzione educativa, risolvono il problema locale della formazione del personale. I migliori diplomati SHAD vengono reclutati principalmente in Yandex, ma il problema è che Yandex, a causa delle sue specificità - ed è grande ed è stato creato quando c'erano pochi buoni strumenti per lavorare con i big data - ha la propria infrastruttura e strumenti per lavorare con i dati , il che significa che dovrai padroneggiarli. Ozon Masters trasmette un messaggio diverso: se hai padroneggiato con successo il programma e Ozon o una del 99% delle altre aziende ti invita a lavorare, sarà molto più semplice iniziare a portare benefici all'azienda; l'insieme di competenze acquisite nell'ambito di Ozon Masters sarà sufficiente iniziare a lavorare.

— Il corso dura due anni. Perché hai bisogno di dedicare così tanto tempo a questo?

- Buona domanda. Ci vuole molto tempo, perché in termini di contenuti e livello degli insegnanti, si tratta di un programma di master integrale che richiede molto tempo per essere padroneggiato, compresi i compiti.

Dal punto di vista del mio corso, è comune aspettarsi che uno studente dedichi 2-3 ore a settimana ai compiti. In primo luogo, le attività vengono eseguite su un cluster di formazione e qualsiasi cluster condiviso implica che più persone lo utilizzino contemporaneamente. Dovrai cioè attendere l'inizio dell'esecuzione dell'attività; alcune risorse potrebbero essere selezionate e trasferite in una coda con priorità più alta. D’altra parte, qualsiasi lavoro con i big data richiede molto tempo.

Se hai altre domande sul programma, sul lavoro con i big data o sulle competenze ingegneristiche, Ozon Masters terrà un open day online sabato 25 aprile alle 12:00. Incontriamo insegnanti e studenti a Zoom e YouTube.

Fonte: habr.com

Aggiungi un commento