Les habilitats més demandades en la professió d'enginyer de dades

Segons estadístiques 2019, l'enginyer de dades és actualment una professió la demanda de la qual creix més ràpidament que cap altra. Un enginyer de dades té un paper fonamental en una organització: crea i manté canalitzacions i bases de dades que s'utilitzen per processar, transformar i emmagatzemar dades. Quines competències necessiten en primer lloc els representants d'aquesta professió? La llista és diferent del que es requereix als científics de dades? Aprendràs tot això amb el meu article.

Vaig analitzar les vacants per a la posició d'enginyer de dades tal com són al gener de 2020 per entendre quines habilitats tecnològiques són les més populars. Després vaig comparar els resultats amb les estadístiques de vacants per a la posició de científic de dades, i van sorgir algunes diferències interessants.

Sense gaire preàmbul, aquí teniu les deu tecnologies principals que s'esmenten amb més freqüència a les ofertes de feina:

Les habilitats més demandades en la professió d'enginyer de dades

Menció de tecnologies a les vacants per a la plaça d'enginyer de dades l'any 2020

Esbrinem-ho.

Responsabilitats d'un enginyer de dades

Avui en dia, la feina que fan els enginyers de dades és de gran importància per a les organitzacions: aquestes són les persones que s'encarreguen d'emmagatzemar la informació i portar-la de manera que altres empleats puguin treballar-hi. Els enginyers de dades creen canalitzacions per transmetre o agrupar dades de diverses fonts. Aleshores, les pipelines realitzen operacions d'extracció, transformació i càrrega (és a dir, processos ETL), fent que les dades siguin més adequades per a un ús posterior. Després d'això, les dades s'envien a analistes i científics de dades per a un processament més profund. Finalment, les dades acaben el seu viatge en taulers, informes i models d'aprenentatge automàtic.

Buscava informació que em permetés treure una conclusió sobre quines tecnologies són més demandades en la feina d'un enginyer de dades en aquest moment.

Mètodes

Vaig recopilar informació de tres llocs de recerca de feina − SimplyHired, En efecte и Monstre i va analitzar quines paraules clau van trobar en conjunció amb "enginyer de dades" als textos de vacants adreçats als residents dels EUA. Per a aquesta tasca he utilitzat dues biblioteques de Python − sol·licituds и Sopa preciosa. Entre les paraules clau, vaig incloure tant les que s'incloïen a la llista anterior per a l'anàlisi de les vacants per a la plaça de científic de dades, com les que vaig seleccionar manualment mentre llegia ofertes de feina per a enginyers de dades. LinkedIn no es va incloure a la llista de fonts, ja que em van prohibir allà després del meu últim intent de recopilar dades.

Per a cada paraula clau, vaig calcular el percentatge de visites del nombre total de textos de cada lloc per separat i després vaig calcular la mitjana de les tres fonts.

Troballes

A continuació es mostren els trenta termes d'enginyeria de dades tècniques amb les puntuacions més altes als tres llocs de treball.

Les habilitats més demandades en la professió d'enginyer de dades

I aquí hi ha els mateixos números, però presentats en forma de taula:

Les habilitats més demandades en la professió d'enginyer de dades

Anem en ordre.

Revisió dels resultats

Tant SQL com Python apareixen a més de dos terços de les ofertes de feina revisades. Aquestes dues tecnologies són les que tenen sentit estudiar primer. Pitó és un llenguatge de programació molt popular utilitzat per treballar amb dades, crear llocs web i escriure scripts. SQL significa Structured Query Language; implica un estàndard implementat per un grup d'idiomes i s'utilitza per recuperar dades de bases de dades relacionals. Va aparèixer fa molt de temps i ha demostrat ser molt resistent.

Spark s'esmenta a la meitat de les vacants. Apache Spark és un "motor d'anàlisi de grans dades unificat amb mòduls integrats per a streaming, SQL, aprenentatge automàtic i processament de gràfics". És especialment popular entre aquells que treballen amb grans bases de dades.

AWS apareix en aproximadament el 45% de les ofertes de feina. És una plataforma de cloud computing fabricada per Amazon; té la quota de mercat més gran entre totes les plataformes en núvol.
Després vénen Java i Hadoop, una mica més del 40% per al seu germà. Java és una llengua àmpliament parlada i provada a la batalla que Enquesta a desenvolupadors de Stack Overflow del 2019 va ser guardonat amb el desè lloc entre els llenguatges que provoquen horror entre els programadors. En canvi, Python era el segon llenguatge més estimat. El llenguatge Java està dirigit per Oracle i tot el que necessiteu saber sobre ell es pot entendre des d'aquesta captura de pantalla de la pàgina oficial a partir de gener de 2020.

Les habilitats més demandades en la professió d'enginyer de dades

És com anar en una màquina del temps
Apache Hadoop utilitza el model de programació MapReduce amb clústers de servidors per a grans dades. Ara aquest model s'està abandonant cada cop més.

A continuació, veiem Hive, Scala, Kafka i NoSQL: cadascuna d'aquestes tecnologies s'esmenta en una quarta part de les vacants presentades. Apache Hive és un programari de magatzem de dades que "fa fàcil llegir, escriure i gestionar grans conjunts de dades que resideixen en botigues distribuïdes mitjançant SQL". Scala – un llenguatge de programació que s'utilitza activament quan es treballa amb big data. En concret, Spark es va crear a Scala. En l'esmentat rànquing de llengües temudes, Scala ocupa l'onzè lloc. Apatxe Kafka – una plataforma distribuïda per processar missatges en streaming. Molt popular com a mitjà de transmissió de dades.

Bases de dades NoSQL es contrasten amb SQL. Es diferencien perquè són no relacionals, no estructurats i escalables horitzontalment. NoSQL ha guanyat certa popularitat, però la bogeria per l'enfocament, fins i tot fins al punt de les profecies que substituirà SQL com a paradigma d'emmagatzematge dominant, sembla que s'ha acabat.

Comparació amb termes de vacants de científic de dades

Aquí hi ha trenta termes tecnològics més comuns entre els empresaris de ciències de dades. Vaig obtenir aquesta llista de la mateixa manera que es descriu anteriorment per a l'enginyeria de dades.

Les habilitats més demandades en la professió d'enginyer de dades

Mencions de tecnologia en vacants per a la plaça de científic de dades l'any 2020

Si parlem de la xifra total, respecte a la contractació considerada anteriorment, hi havia un 28% més de vacants (12 enfront de 013). Vegem quines tecnologies són menys comunes a les vacants de científics de dades que d'enginyers de dades.

Més popular en enginyeria de dades

El gràfic següent mostra paraules clau amb una diferència mitjana superior al 10% o inferior al -10%.

Les habilitats més demandades en la professió d'enginyer de dades

Les diferències més grans en la freqüència de paraules clau entre l'enginyer de dades i el científic de dades

AWS mostra l'augment més significatiu: en enginyeria de dades apareix un 25% més regularment que en ciència de dades (aproximadament el 45% i el 20% del total de vacants, respectivament). La diferència es nota!

Aquí hi ha les mateixes dades en una presentació lleugerament diferent: al gràfic, els resultats de la mateixa paraula clau a les vacants per a la posició d'enginyer de dades i científic de dades es troben junts.

Les habilitats més demandades en la professió d'enginyer de dades

Les diferències més grans en la freqüència de paraules clau entre l'enginyer de dades i el científic de dades

El següent salt més gran que vaig observar va ser a Spark: un enginyer de dades sovint ha de treballar amb grans dades. Kafka també va augmentar un 20%, és a dir, gairebé quatre vegades en comparació amb el resultat de les vacants de científic de dades. La transferència de dades és una de les responsabilitats clau d'un enginyer de dades. Finalment, el nombre de mencions va ser un 15% superior en l'àmbit de l'enginyeria de dades per a Java, NoSQL, Redshift, SQL i Hadoop.

Menys popular en enginyeria de dades

Ara vegem quines tecnologies són menys populars a les vacants d'enginyer de dades.
La caiguda més forta en comparació amb el sector de la ciència de dades es va produir a R: allà va aparèixer en aproximadament el 56% de les vacants, aquí, només en el 17%. Impressionant. R és un llenguatge de programació afavorit per científics i estadístics, i és el vuitè llenguatge més temut del món.

SAS També es troba a les vacants per a la posició d'enginyer de dades molt menys sovint: la diferència és del 14%. SAS és un llenguatge propietari dissenyat per treballar amb estadístiques i dades. Punt interessant: a jutjar pels resultats la meva investigació sobre ofertes de treball per a científics de dades, ha perdut molt de terreny recentment, més que qualsevol altra tecnologia.

Demanat tant en enginyeria de dades com en ciència de dades

Cal destacar que vuit de les deu primeres posicions en ambdós conjunts són iguals. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala es van situar entre les deu primeres indústries tant de l'enginyeria de dades com de la ciència de dades. Al gràfic següent podeu veure les quinze tecnologies més populars entre els empresaris d'enginyers de dades, i al costat hi ha la seva taxa de vacants per a científics de dades.

Les habilitats més demandades en la professió d'enginyer de dades

Recomanacions

Si voleu introduir-vos en l'enginyeria de dades, us aconsello que dominis les tecnologies següents: les enumero per ordre de prioritat aproximat.

Aprèn SQL. M'inclino cap a PostgreSQL perquè és de codi obert, molt popular a la comunitat i està en fase de creixement. Podeu aprendre a utilitzar l'idioma al llibre My Memorable SQL: la seva versió pilot està disponible aquí.

Mestre Python, encara que no sigui al nivell més hardcore. My Memorable Python està dissenyat específicament per a principiants. Es pot comprar a Amazon, còpia electrònica o física, la vostra elecció, o descarregueu-la en format pdf o epub en aquest lloc.

Quan estigueu familiaritzat amb Python, passeu a pandas, una biblioteca de Python que s'utilitza per netejar i processar dades. Si tens l'objectiu de treballar en una empresa que requereix la capacitat d'escriure en Python (i aquesta és la majoria), pots estar segur que el coneixement dels pandes s'assumeix per defecte. Actualment estic acabant una guia introductòria per treballar amb pandes, podeu fer-ho subscriureper no perdre el moment de l'alliberament.

Mestre AWS. Si voleu convertir-vos en enginyer de dades, no podeu prescindir d'una plataforma al núvol a l'emmagatzematge, i AWS és el més popular d'ells. Els cursos m'han ajudat molt Acadèmia Linuxquan estava estudiant enginyeria de dades a Google Cloud, crec que també tindran bons materials a AWS.

Si ja heu completat tota aquesta llista i voleu créixer encara més als ulls dels empresaris com a enginyer de dades, us suggereixo afegir Apache Spark per treballar amb big data. Tot i que la meva investigació sobre les vacants de científics de dades va mostrar una disminució de l'interès, entre els enginyers de dades encara apareix en gairebé cada segona vacant.

Per fi

Espero que us sigui útil aquesta visió general de les tecnologies més demandades per als enginyers de dades. Si us pregunteu com van els treballs d'analista, llegiu el meu altre article. Feliç enginyeria!

Font: www.habr.com

Afegeix comentari