Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Volgens statistieke 2019, is data-ingenieur tans 'n beroep waarvan die aanvraag vinniger as enige ander groei. 'n Data-ingenieur speel 'n kritieke rol in 'n organisasie - die skep en instandhouding van pyplyne en databasisse wat gebruik word om data te verwerk, te transformeer en te stoor. Watter vaardighede het verteenwoordigers van hierdie beroep eerstens nodig? Is die lys anders as wat van datawetenskaplikes vereis word? U sal hieroor alles uit my artikel leer.

Ek het in Januarie 2020 vakatures vir die pos van data-ingenieur ontleed om te verstaan ​​watter tegnologievaardighede die gewildste is. Toe het ek die resultate vergelyk met statistieke oor vakatures vir die datawetenskaplike-pos – en 'n paar interessante verskille het na vore gekom.

Sonder veel aanhef, hier is die top tien tegnologieë wat die meeste in posplasings genoem word:

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Melding van tegnologieë in vakatures vir die pos van data-ingenieur in 2020

Laat ons dit uitvind.

Verantwoordelikhede van 'n data-ingenieur

Vandag is die werk wat data-ingenieurs doen van groot belang vir organisasies – dit is die mense wat verantwoordelik is om inligting te stoor en in so 'n vorm te bring dat ander werknemers daarmee kan werk. Data-ingenieurs bou pyplyne om data uit verskeie bronne te stroom of te versamel. Pyplyne voer dan ekstraksie-, transformasie- en laaibewerkings uit (met ander woorde ETL-prosesse), wat die data meer geskik maak vir verdere gebruik. Hierna word die data aan ontleders en datawetenskaplikes voorgelê vir dieper verwerking. Uiteindelik eindig die data sy reis in dashboards, verslae en masjienleermodelle.

Ek was op soek na inligting wat my in staat sou stel om 'n gevolgtrekking te maak oor watter tegnologieë tans die meeste in die werk van 'n data-ingenieur is.

metodes

Ek het inligting van drie werksoekwebwerwe ingesamel − SimplyHired, Inderdaad и Monster en het gekyk na watter sleutelwoorde in samewerking met "data-ingenieur" in die tekste van vakatures wat op Amerikaanse inwoners gemik is, afgekom het. Vir hierdie taak het ek twee Python-biblioteke gebruik − Versoeke и Pragtige sop. Onder die sleutelwoorde het ek beide dié ingesluit wat in die vorige lys ingesluit is vir die ontleding van vakatures vir die pos van datawetenskaplike, en dié wat ek met die hand gekies het terwyl ek werkaanbiedings vir data-ingenieurs gelees het. LinkedIn is nie by die lys van bronne ingesluit nie, aangesien ek daar verban is na my laaste poging om data in te samel.

Vir elke sleutelwoord het ek die persentasie treffers uit die totale aantal tekste op elke webwerf afsonderlik bereken, en dan die gemiddelde vir die drie bronne bereken.

Bevindinge

Hieronder is die dertig terme vir tegniese data-ingenieurswese met die hoogste tellings oor al drie werkswerwe.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

En hier is dieselfde getalle, maar in tabelvorm aangebied:

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Kom ons gaan in volgorde.

Hersiening van resultate

Beide SQL en Python verskyn in meer as twee derdes van die werksgeleenthede wat nagegaan is. Dit is hierdie twee tegnologieë wat sin maak om eerste te studeer. Python is 'n baie gewilde programmeertaal wat gebruik word om met data te werk, webwerwe te skep en skrifte te skryf. SQL staan ​​vir Structured Query Language; dit behels 'n standaard wat deur 'n groep tale geïmplementeer word en word gebruik om data uit relasionele databasisse te haal. Dit het lank gelede verskyn en het bewys dat dit hoogs bestand is.

Spark word in ongeveer die helfte van die vakatures genoem. Apache Spark is 'n "verenigde grootdata-analise-enjin met ingeboude modules vir streaming, SQL, masjienleer en grafiekverwerking." Dit is veral gewild onder diegene wat met groot databasisse werk.

AWS verskyn in ongeveer 45% van posplasings. Dit is 'n wolkrekenaarplatform wat deur Amazon vervaardig word; dit het die grootste markaandeel onder alle wolkplatforms.
Volgende kom Java en Hadoop - 'n bietjie meer as 40% vir hul broer. Java is 'n wyd gesproke, gevegsbeproefde taal wat 2019 Stack Overflow Developer Survey is bekroon met die tiende plek onder die tale wat afgryse onder programmeerders veroorsaak. Daarteenoor was Python die tweede mees geliefde taal. Die Java-taal word deur Oracle bestuur, en alles wat u daaroor moet weet, kan verstaan ​​word vanaf hierdie skermkiekie van die amptelike bladsy vanaf Januarie 2020.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Dit is soos om in 'n tydmasjien te ry
Apache Hadoop gebruik die MapReduce-programmeringsmodel met bedienerklusters vir groot data. Nou word hierdie model toenemend laat vaar.

Dan sien ons Hive, Scala, Kafka en NoSQL – elkeen van hierdie tegnologieë word genoem in 'n kwart van die vakatures wat ingedien is. Apache Hive is 'n datapakhuissagteware wat "dit maklik maak om groot datastelle wat in verspreide winkels woon, met behulp van SQL te lees, skryf en bestuur." Skaal – 'n programmeertaal wat aktief gebruik word wanneer daar met groot data gewerk word. Spark is veral in Scala geskep. In die reeds genoemde rangorde van gevreesde tale beklee Scala die elfde plek. Apache Kafka – 'n verspreide platform vir die verwerking van stroomboodskappe. Baie gewild as 'n manier om data te stroom.

NoSQL databasisse kontrasteer hulself met SQL. Hulle verskil deurdat hulle nie-relasioneel, ongestruktureerd en horisontaal skaalbaar is. NoSQL het 'n mate van gewildheid verwerf, maar die gier vir die benadering, selfs tot die punt van profesieë dat dit SQL as die dominante bergingsparadigma sal vervang, blyk verby te wees.

Vergelyking met terme in vakatures vir datawetenskaplikes

Hier is dertig tegnologieterme wat die algemeenste onder datawetenskap-werkgewers voorkom. Ek het hierdie lys op dieselfde manier verkry as wat hierbo beskryf is vir data-ingenieurswese.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Meldings van tegnologie in vakatures vir die pos van datawetenskaplike in 2020

As ons praat oor die totale getal, in vergelyking met die voorheen oorweegde werwing, was daar 28% meer vakatures (12 013 teenoor 9396 XNUMX). Kom ons kyk watter tegnologieë is minder algemeen in vakatures vir datawetenskaplikes as vir data-ingenieurs.

Meer gewild in data-ingenieurswese

Die grafiek hieronder wys sleutelwoorde met 'n gemiddelde verskil van meer as 10% of minder as -10%.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Die grootste verskille in navraagfrekwensie tussen data-ingenieur en datawetenskaplike

AWS toon die beduidendste toename: in data-ingenieurswese verskyn dit 25% meer gereeld as in datawetenskap (onderskeidelik ongeveer 45% en 20% van die totale aantal vakatures). Die verskil is merkbaar!

Hier is dieselfde data in 'n effens ander aanbieding - in die grafiek is die resultate vir dieselfde sleutelwoord in die vakatures vir die pos van data-ingenieur en data-wetenskaplike langs mekaar geleë.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Die grootste verskille in navraagfrekwensie tussen data-ingenieur en datawetenskaplike

Die volgende grootste sprong wat ek opgemerk het, was in Spark - 'n data-ingenieur moet dikwels met groot data werk. Kafka het ook met 20% toegeneem, dit wil sê byna vier keer in vergelyking met die resultaat vir vakatures vir datawetenskaplikes. Data-oordrag is een van die sleutelverantwoordelikhede van 'n data-ingenieur. Laastens was die aantal vermeldings 15% hoër in die veld van data-ingenieurswese vir Java, NoSQL, Redshift, SQL en Hadoop.

Minder gewild in data-ingenieurswese

Kom ons kyk nou watter tegnologie minder gewild is in vakatures vir data-ingenieurs.
Die skerpste afname in vergelyking met die datawetenskapsektor het in R: daar het hy in ongeveer 56% van vakatures verskyn, hier - slegs in 17%. Indrukwekkend. R is 'n programmeertaal wat deur wetenskaplikes en statistici bevoordeel word, en is die agtste mees gevreesde taal ter wêreld.

SAS word ook aansienlik minder in vakatures vir die pos van data-ingenieur gevind - die verskil is 14%. SAS is 'n eie taal wat ontwerp is om met statistieke en data te werk. Interessante punt: te oordeel aan die resultate my navorsing oor werksgeleenthede vir datawetenskaplikes, dit het onlangs baie veld verloor - meer as enige ander tegnologie.

In aanvraag in beide data-ingenieurswese en datawetenskap

Daar moet kennis geneem word dat agt van die eerste tien posisies in beide stelle dieselfde is. SQL, Python, Spark, AWS, Java, Hadoop, Hive en Scala het dit in die top tien vir beide die data-ingenieurswese en datawetenskap industrieë gemaak. In die grafiek hieronder kan jy die vyftien gewildste tegnologieë onder data-ingenieur-werkgewers sien, en langs hulle is hul vakaturekoers vir datawetenskaplikes.

Die mees in aanvraag vaardighede in die data-ingenieursprofessie

Aanbevelings

As jy by data-ingenieurswese wil ingaan, sal ek jou aanraai om die volgende tegnologieë te bemeester - ek lys hulle in volgorde van benaderde prioriteit.

Leer SQL. Ek neig na PostgreSQL omdat dit oopbron is, baie gewild in die gemeenskap en in 'n groeifase is. Jy kan leer hoe om die taal te gebruik uit die boek My Memorable SQL – die loodsweergawe daarvan is beskikbaar hier.

Meester Python, selfs al is dit nie op die mees harde vlak nie. My Memorable Python is spesifiek ontwerp vir beginners. Dit kan gekoop word by Amazon, elektroniese of fisiese kopie, jou keuse, of laai af in pdf- of epub-formaat op daardie webwerf.

Sodra jy vertroud is met Python, gaan aan na pandas, 'n Python-biblioteek wat gebruik word vir die skoonmaak en verwerking van data. As jy mik om in 'n maatskappy te werk wat die vermoë vereis om in Python te skryf (en dit is die meerderheid daarvan), kan jy seker wees dat kennis van pandas by verstek aanvaar word. Ek is tans besig om 'n inleidende gids vir die werk met pandas klaar te maak - jy kan skryfom nie die oomblik van vrylating te mis nie.

Meester AWS. As jy 'n data-ingenieur wil word, kan jy nie sonder 'n wolkplatform in die voorraad nie, en AWS is die gewildste van hulle. Die kursusse het my baie gehelp Linux Akademietoe ek gestudeer het data-ingenieurswese op Google Cloud, Ek dink dat hulle ook goeie materiaal op AWS sal hê.

As jy reeds hierdie hele lys voltooi het en verder wil groei in die oë van werkgewers as 'n data-ingenieur, stel ek voor dat jy Apache Spark byvoeg om met groot data te werk. Alhoewel my navorsing oor vakatures vir datawetenskaplikes 'n afname in belangstelling getoon het, verskyn dit by data-ingenieurs steeds in byna elke tweede vakature.

Op die laaste

Ek hoop jy het hierdie oorsig van die mees-aanvraag-tegnologieë vir data-ingenieurs nuttig gevind. As jy wonder hoe ontleder-poste vaar, lees my ander artikel. Gelukkige ingenieurswese!

Bron: will.com

Voeg 'n opmerking