Secondo
Ho analizzato i posti vacanti per la posizione di Data Engineer così come sono a gennaio 2020 per capire quali competenze tecnologiche sono più popolari. Poi ho confrontato i risultati con le statistiche sui posti vacanti per la posizione di data scientist e sono emerse alcune differenze interessanti.
Senza troppi preamboli, ecco le dieci tecnologie più citate negli annunci di lavoro:
Menzione delle tecnologie nei posti vacanti per la posizione di ingegnere dei dati nel 2020
Responsabilità di un ingegnere dei dati
Oggi, il lavoro svolto dagli ingegneri dei dati è di grande importanza per le organizzazioni: queste sono le persone responsabili della memorizzazione delle informazioni e della loro trasformazione in una forma tale che altri dipendenti possano lavorarci. Gli ingegneri dei dati creano pipeline per trasmettere in streaming o batch dati da più fonti. Le pipeline eseguono quindi operazioni di estrazione, trasformazione e caricamento (in altre parole, processi ETL), rendendo i dati più adatti per un ulteriore utilizzo. Successivamente, i dati vengono inviati ad analisti e data scientist per un'elaborazione più approfondita. Infine, i dati terminano il loro viaggio in dashboard, report e modelli di machine learning.
Stavo cercando informazioni che mi permettessero di trarre una conclusione su quali tecnologie sono più richieste nel lavoro di un ingegnere dei dati al momento.
Методы
Ho raccolto informazioni da tre siti di ricerca di lavoro −
Per ogni parola chiave ho calcolato separatamente la percentuale di visite sul numero totale di testi su ciascun sito, quindi ho calcolato la media per le tre fonti.
Giudizio
Di seguito sono riportati i trenta termini di ingegneria dei dati tecnici con i punteggi più alti in tutti e tre i siti di lavoro.
Ed ecco gli stessi numeri, ma presentati sotto forma di tabella:
Andiamo in ordine.
Panoramica dei risultati
Sia SQL che Python compaiono in più di due terzi delle offerte di lavoro esaminate. Sono queste due tecnologie che hanno senso studiare per prime.
Spark è menzionato in circa la metà dei posti vacanti.
AWS appare in circa il 45% delle offerte di lavoro. È una piattaforma di cloud computing prodotta da Amazon; ha la quota di mercato maggiore tra tutte le piattaforme cloud.
Seguono Java e Hadoop: poco più del 40% per il fratello.
È come viaggiare in una macchina del tempo
Poi vediamo Hive, Scala, Kafka e NoSQL: ciascuna di queste tecnologie è menzionata in un quarto dei posti vacanti presentati. Apache Hive è un software di data warehouse che "semplifica la lettura, la scrittura e la gestione di set di dati di grandi dimensioni che risiedono in archivi distribuiti utilizzando SQL".
Confronto con i termini dei posti vacanti per data scientist
Ecco i trenta termini tecnologici più comuni tra i datori di lavoro del settore della scienza dei dati. Ho ottenuto questo elenco nello stesso modo descritto sopra per l'ingegneria dei dati.
Menzioni di tecnologia nei posti vacanti per la posizione di data scientist nel 2020
Se parliamo del numero totale, rispetto alle assunzioni precedentemente considerate, i posti vacanti sono aumentati del 28% (12 contro 013). Vediamo quali tecnologie sono meno comuni nei posti vacanti per data scientist che per data engineer.
Più popolare nell'ingegneria dei dati
Il grafico seguente mostra le parole chiave con una differenza media superiore al 10% o inferiore al -10%.
Le maggiori differenze nella frequenza delle parole chiave tra data engineer e data scientist
AWS mostra l'aumento più significativo: nell'ingegneria dei dati appare il 25% più regolarmente che nella scienza dei dati (rispettivamente circa il 45% e il 20% del numero totale di posti vacanti). La differenza è evidente!
Ecco gli stessi dati in una presentazione leggermente diversa: nel grafico, i risultati per la stessa parola chiave nei posti vacanti per la posizione di ingegnere dei dati e scienziato dei dati si trovano fianco a fianco.
Le maggiori differenze nella frequenza delle parole chiave tra data engineer e data scientist
Il successivo salto più grande che ho notato è stato in Spark: un ingegnere dei dati spesso deve lavorare con i big data.
Meno popolare nell'ingegneria dei dati
Ora vediamo quali tecnologie sono meno popolari nei posti vacanti di data engineer.
Il calo più marcato rispetto al settore della scienza dei dati si è verificato nel
Richiesto sia in ingegneria dei dati che in scienza dei dati
Va notato che otto delle prime dieci posizioni in entrambi i set sono le stesse. SQL, Python, Spark, AWS, Java, Hadoop, Hive e Scala sono entrati nella top ten sia per il settore dell'ingegneria dei dati che per quello della scienza dei dati. Nel grafico sottostante puoi vedere le quindici tecnologie più popolari tra i datori di lavoro di data scientist e accanto a queste c'è il tasso di posti vacanti per data scientist.
Raccomandazioni
Se vuoi entrare nell'ingegneria dei dati, ti consiglierei di padroneggiare le seguenti tecnologie: le elenco in ordine di priorità approssimativa.
Impara l'SQL. Io propendo per PostgreSQL perché è open source, molto popolare nella comunità ed è in una fase di crescita. Puoi imparare come utilizzare il linguaggio dal libro My Memorable SQL: la sua versione pilota è disponibile
Padroneggia Python, anche se non al livello più hardcore. My Memorable Python è progettato specificamente per i principianti. Può essere acquistato su
Una volta acquisita familiarità con Python, passa a Pandas, una libreria Python utilizzata per la pulizia e l'elaborazione dei dati. Se intendi lavorare in un'azienda che richiede la capacità di scrivere in Python (e questa è la maggior parte di esse), puoi star certo che la conoscenza dei panda verrà presupposta per impostazione predefinita. Attualmente sto finendo una guida introduttiva su come lavorare con i panda: puoi
Maestro AWS. Se vuoi diventare un ingegnere dei dati, non puoi fare a meno di una piattaforma cloud a portata di mano e AWS è la più popolare tra queste. I corsi mi hanno aiutato molto
Se hai già completato l'intero elenco e desideri crescere ulteriormente agli occhi dei datori di lavoro come ingegnere dei dati, suggerisco di aggiungere Apache Spark per lavorare con i big data. Sebbene la mia ricerca sui posti vacanti per scienziati dei dati abbia mostrato un calo di interesse, tra gli ingegneri dei dati appare ancora in quasi un posto vacante su due.
Infine
Spero che tu abbia trovato utile questa panoramica delle tecnologie più richieste dagli ingegneri dei dati. Se ti stai chiedendo come stanno andando i lavori di analista, leggi
Fonte: habr.com