Segons
Vaig analitzar les vacants per a la posició d'enginyer de dades tal com són al gener de 2020 per entendre quines habilitats tecnològiques són les més populars. Després vaig comparar els resultats amb les estadístiques de vacants per a la posició de científic de dades, i van sorgir algunes diferències interessants.
Sense gaire preàmbul, aquí teniu les deu tecnologies principals que s'esmenten amb més freqüència a les ofertes de feina:
Menció de tecnologies a les vacants per a la plaça d'enginyer de dades l'any 2020
Responsabilitats d'un enginyer de dades
Avui en dia, la feina que fan els enginyers de dades és de gran importància per a les organitzacions: aquestes són les persones que s'encarreguen d'emmagatzemar la informació i portar-la de manera que altres empleats puguin treballar-hi. Els enginyers de dades creen canalitzacions per transmetre o agrupar dades de diverses fonts. Aleshores, les pipelines realitzen operacions d'extracció, transformació i càrrega (és a dir, processos ETL), fent que les dades siguin més adequades per a un ús posterior. Després d'això, les dades s'envien a analistes i científics de dades per a un processament més profund. Finalment, les dades acaben el seu viatge en taulers, informes i models d'aprenentatge automàtic.
Buscava informació que em permetés treure una conclusió sobre quines tecnologies són més demandades en la feina d'un enginyer de dades en aquest moment.
Mètodes
Vaig recopilar informació de tres llocs de recerca de feina −
Per a cada paraula clau, vaig calcular el percentatge de visites del nombre total de textos de cada lloc per separat i després vaig calcular la mitjana de les tres fonts.
Troballes
A continuació es mostren els trenta termes d'enginyeria de dades tècniques amb les puntuacions més altes als tres llocs de treball.
I aquí hi ha els mateixos números, però presentats en forma de taula:
Anem en ordre.
Revisió dels resultats
Tant SQL com Python apareixen a més de dos terços de les ofertes de feina revisades. Aquestes dues tecnologies són les que tenen sentit estudiar primer.
Spark s'esmenta a la meitat de les vacants.
AWS apareix en aproximadament el 45% de les ofertes de feina. És una plataforma de cloud computing fabricada per Amazon; té la quota de mercat més gran entre totes les plataformes en núvol.
Després vénen Java i Hadoop, una mica més del 40% per al seu germà.
És com anar en una màquina del temps
A continuació, veiem Hive, Scala, Kafka i NoSQL: cadascuna d'aquestes tecnologies s'esmenta en una quarta part de les vacants presentades. Apache Hive és un programari de magatzem de dades que "fa fàcil llegir, escriure i gestionar grans conjunts de dades que resideixen en botigues distribuïdes mitjançant SQL".
Comparació amb termes de vacants de científic de dades
Aquí hi ha trenta termes tecnològics més comuns entre els empresaris de ciències de dades. Vaig obtenir aquesta llista de la mateixa manera que es descriu anteriorment per a l'enginyeria de dades.
Mencions de tecnologia en vacants per a la plaça de científic de dades l'any 2020
Si parlem de la xifra total, respecte a la contractació considerada anteriorment, hi havia un 28% més de vacants (12 enfront de 013). Vegem quines tecnologies són menys comunes a les vacants de científics de dades que d'enginyers de dades.
Més popular en enginyeria de dades
El gràfic següent mostra paraules clau amb una diferència mitjana superior al 10% o inferior al -10%.
Les diferències més grans en la freqüència de paraules clau entre l'enginyer de dades i el científic de dades
AWS mostra l'augment més significatiu: en enginyeria de dades apareix un 25% més regularment que en ciència de dades (aproximadament el 45% i el 20% del total de vacants, respectivament). La diferència es nota!
Aquí hi ha les mateixes dades en una presentació lleugerament diferent: al gràfic, els resultats de la mateixa paraula clau a les vacants per a la posició d'enginyer de dades i científic de dades es troben junts.
Les diferències més grans en la freqüència de paraules clau entre l'enginyer de dades i el científic de dades
El següent salt més gran que vaig observar va ser a Spark: un enginyer de dades sovint ha de treballar amb grans dades.
Menys popular en enginyeria de dades
Ara vegem quines tecnologies són menys populars a les vacants d'enginyer de dades.
La caiguda més forta en comparació amb el sector de la ciència de dades es va produir a
Demanat tant en enginyeria de dades com en ciència de dades
Cal destacar que vuit de les deu primeres posicions en ambdós conjunts són iguals. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala es van situar entre les deu primeres indústries tant de l'enginyeria de dades com de la ciència de dades. Al gràfic següent podeu veure les quinze tecnologies més populars entre els empresaris d'enginyers de dades, i al costat hi ha la seva taxa de vacants per a científics de dades.
Recomanacions
Si voleu introduir-vos en l'enginyeria de dades, us aconsello que dominis les tecnologies següents: les enumero per ordre de prioritat aproximat.
Aprèn SQL. M'inclino cap a PostgreSQL perquè és de codi obert, molt popular a la comunitat i està en fase de creixement. Podeu aprendre a utilitzar l'idioma al llibre My Memorable SQL: la seva versió pilot està disponible
Mestre Python, encara que no sigui al nivell més hardcore. My Memorable Python està dissenyat específicament per a principiants. Es pot comprar a
Quan estigueu familiaritzat amb Python, passeu a pandas, una biblioteca de Python que s'utilitza per netejar i processar dades. Si tens l'objectiu de treballar en una empresa que requereix la capacitat d'escriure en Python (i aquesta és la majoria), pots estar segur que el coneixement dels pandes s'assumeix per defecte. Actualment estic acabant una guia introductòria per treballar amb pandes, podeu fer-ho
Mestre AWS. Si voleu convertir-vos en enginyer de dades, no podeu prescindir d'una plataforma al núvol a l'emmagatzematge, i AWS és el més popular d'ells. Els cursos m'han ajudat molt
Si ja heu completat tota aquesta llista i voleu créixer encara més als ulls dels empresaris com a enginyer de dades, us suggereixo afegir Apache Spark per treballar amb big data. Tot i que la meva investigació sobre les vacants de científics de dades va mostrar una disminució de l'interès, entre els enginyers de dades encara apareix en gairebé cada segona vacant.
Per fi
Espero que us sigui útil aquesta visió general de les tecnologies més demandades per als enginyers de dades. Si us pregunteu com van els treballs d'analista, llegiu
Font: www.habr.com