De meest gevraagde vaardigheden in het beroep van data-ingenieur

Volgens statistieken 2019is data-ingenieur momenteel een beroep waarvan de vraag sneller groeit dan enig ander. Een data-ingenieur speelt een cruciale rol in een organisatie: het creëren en onderhouden van pijplijnen en databases die worden gebruikt om gegevens te verwerken, transformeren en op te slaan. Welke vaardigheden hebben vertegenwoordigers van dit beroep allereerst nodig? Is de lijst anders dan wat van datawetenschappers wordt verlangd? Dit alles leer je uit mijn artikel.

Ik heb de vacatures voor de functie van data engineer in januari 2020 geanalyseerd om te begrijpen welke technologische vaardigheden het populairst zijn. Vervolgens vergeleek ik de resultaten met statistieken over vacatures voor de functie van datawetenschapper - en er kwamen enkele interessante verschillen naar voren.

Zonder veel inleiding is hier de top tien van technologieën die het vaakst worden genoemd in vacatures:

De meest gevraagde vaardigheden in het beroep van data-ingenieur

Vermelding van technologieën in vacatures voor de functie van data engineer in 2020

Laten we het uitzoeken.

Verantwoordelijkheden van een data-ingenieur

Tegenwoordig is het werk dat data engineers doen van groot belang voor organisaties; dit zijn de mensen die verantwoordelijk zijn voor het opslaan van informatie en het in een zodanige vorm brengen dat andere medewerkers ermee kunnen werken. Data-ingenieurs bouwen pijplijnen om gegevens uit meerdere bronnen te streamen of in batches te verwerken. Pijpleidingen voeren vervolgens extractie-, transformatie- en laadbewerkingen uit (met andere woorden, ETL-processen), waardoor de gegevens geschikter worden voor verder gebruik. Hierna worden de gegevens voor verdere verwerking voorgelegd aan analisten en datawetenschappers. Ten slotte beëindigen de gegevens hun reis in dashboards, rapporten en machine learning-modellen.

Ik was op zoek naar informatie waarmee ik een conclusie kon trekken over welke technologieën momenteel het meest gevraagd zijn in het werk van een data-ingenieur.

methoden

Ik heb informatie verzameld van drie vacaturesites Gewoon ingehuurd, Inderdaad и Monster en gekeken welke zoekwoorden in combinatie met ‘data engineer’ tegenkwamen in de teksten van vacatures gericht op inwoners van de VS. Voor deze taak heb ik twee Python-bibliotheken gebruikt − Aanvragen и Mooie soep. Onder de trefwoorden heb ik zowel de trefwoorden opgenomen die in de vorige lijst waren opgenomen voor het analyseren van vacatures voor de functie van datawetenschapper, als de trefwoorden die ik handmatig heb geselecteerd tijdens het lezen van vacatures voor data-ingenieurs. LinkedIn stond niet in de bronnenlijst, omdat ik daar werd verbannen na mijn laatste poging om gegevens te verzamelen.

Voor elk zoekwoord heb ik het percentage hits berekend uit het totaal aantal teksten op elke site afzonderlijk, en vervolgens het gemiddelde voor de drie bronnen berekend.

Bevindingen

Hieronder staan ​​de dertig technische data-engineeringtermen met de hoogste scores op alle drie de vacaturesites.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

En hier zijn dezelfde cijfers, maar gepresenteerd in tabelvorm:

De meest gevraagde vaardigheden in het beroep van data-ingenieur

Laten we op volgorde gaan.

Beoordeling van resultaten

Zowel SQL als Python komen voor in ruim tweederde van de beoordeelde vacatures. Het zijn deze twee technologieën die zinvol zijn om eerst te bestuderen. Python is een zeer populaire programmeertaal die wordt gebruikt voor het werken met gegevens, het maken van websites en het schrijven van scripts. SQL staat voor Structured Query Language; het betreft een standaard die door een groep talen wordt geïmplementeerd en wordt gebruikt om gegevens uit relationele databases op te halen. Het verscheen lang geleden en heeft bewezen zeer resistent te zijn.

Spark wordt in ongeveer de helft van de vacatures genoemd. Apache Spark is een “uniforme big data-analyse-engine met ingebouwde modules voor streaming, SQL, machine learning en grafiekverwerking.” Het is vooral populair onder degenen die met grote databases werken.

AWS komt voor in ongeveer 45% van de vacatures. Het is een cloud computing-platform vervaardigd door Amazon; het heeft het grootste marktaandeel van alle cloudplatforms.
Vervolgens komen Java en Hadoop - iets meer dan 40% voor hun broer. Java is een veel gesproken, beproefde taal 2019 Stack Overflow-ontwikkelaarsenquête kreeg de tiende plaats onder de talen die horror veroorzaken onder programmeurs. Python was daarentegen de op een na meest geliefde taal. De Java-taal wordt beheerd door Oracle en alles wat u erover moet weten, kunt u begrijpen op deze schermafbeelding van de officiële pagina van januari 2020.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

Het is alsof je in een tijdmachine rijdt
Apache Hadoop maakt gebruik van het MapReduce-programmeermodel met serverclusters voor big data. Nu wordt dit model steeds meer verlaten.

Dan zien we Hive, Scala, Kafka en NoSQL – elk van deze technologieën wordt genoemd in een kwart van de ingediende vacatures. Apache Hive is datawarehouse-software die “het gemakkelijk maakt om grote datasets in gedistribueerde winkels te lezen, schrijven en beheren met behulp van SQL.” Scala – een programmeertaal die actief wordt gebruikt bij het werken met big data. Spark is met name gemaakt in Scala. In de reeds genoemde ranglijst van gevreesde talen staat Scala op de elfde plaats. Apache Kafka – een gedistribueerd platform voor het verwerken van streamingberichten. Zeer populair als middel om gegevens te streamen.

NoSQL-databases contrasteren zichzelf met SQL. Ze verschillen doordat ze niet-relationeel, ongestructureerd en horizontaal schaalbaar zijn. NoSQL heeft enige populariteit gewonnen, maar de rage voor de aanpak, zelfs tot het punt van profetieën dat het SQL als het dominante opslagparadigma zal vervangen, lijkt voorbij te zijn.

Vergelijking met termen in vacatures voor datawetenschappers

Hier zijn dertig technologietermen die het meest voorkomen bij datawetenschapwerkgevers. Deze lijst heb ik op dezelfde manier verkregen als hierboven beschreven voor data engineering.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

Vermeldingen van technologie in vacatures voor de functie van datawetenschapper in 2020

Als we het hebben over het totaal aantal, vergeleken met de eerder overwogen werving, waren er 28% meer vacatures (12 versus 013). Laten we eens kijken welke technologieën minder vaak voorkomen in vacatures voor datawetenschappers dan voor data-ingenieurs.

Populairder in data-engineering

In de onderstaande grafiek worden zoekwoorden weergegeven met een gemiddeld verschil van meer dan 10% of minder dan -10%.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

De grootste verschillen in zoekwoordfrequentie tussen data engineer en datawetenschapper

AWS laat de grootste stijging zien: bij data engineering komt het 25% vaker voor dan bij data science (respectievelijk circa 45% en 20% van het totaal aantal vacatures). Het verschil is merkbaar!

Hier zijn dezelfde gegevens in een iets andere presentatie - in de grafiek staan ​​de resultaten voor hetzelfde zoekwoord in de vacatures voor de functie van data-ingenieur en data-wetenschapper naast elkaar.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

De grootste verschillen in zoekwoordfrequentie tussen data engineer en datawetenschapper

De volgende grootste sprong die ik opmerkte was in Spark: een data-ingenieur moet vaak met big data werken. Kafka ook met 20% gestegen, dat wil zeggen bijna vier keer vergeleken met het resultaat voor vacatures voor datawetenschappers. Gegevensoverdracht is een van de belangrijkste verantwoordelijkheden van een data-ingenieur. Tenslotte lag het aantal vermeldingen 15% hoger op het gebied van data engineering voor Java, NoSQL, Redshift, SQL en Hadoop.

Minder populair in data-engineering

Laten we nu eens kijken welke technologieën minder populair zijn in vacatures voor data-ingenieurs.
De scherpste daling vergeleken met de data science-sector vond plaats in R: daar verscheen hij in ongeveer 56% van de vacatures, hier - slechts in 17%. Indrukwekkend. R is een programmeertaal die de voorkeur geniet van wetenschappers en statistici, en is de achtste meest gevreesde taal ter wereld.

SAS Ook in vacatures voor de functie van data engineer komt het beduidend minder vaak voor: het verschil bedraagt ​​14%. SAS is een eigen taal die is ontworpen voor het werken met statistieken en gegevens. Interessant punt: afgaande op de resultaten mijn onderzoek naar vacatures voor datawetenschappersheeft het de laatste tijd veel terrein verloren – meer dan welke andere technologie dan ook.

Veelgevraagd in zowel data engineering als data science

Opgemerkt moet worden dat acht van de eerste tien posities in beide sets hetzelfde zijn. SQL, Python, Spark, AWS, Java, Hadoop, Hive en Scala haalden de top tien voor zowel de data-engineering- als de data-wetenschapsindustrie. In de onderstaande grafiek zie je de vijftien meest populaire technologieën onder werkgevers op het gebied van data-ingenieurs, met daarnaast het vacaturepercentage voor data-wetenschappers.

De meest gevraagde vaardigheden in het beroep van data-ingenieur

Aanbevelingen

Als u zich met data-engineering wilt bezighouden, raad ik u aan de volgende technologieën onder de knie te krijgen. Ik vermeld ze in volgorde van geschatte prioriteit.

Leer SQL. Ik neig naar PostgreSQL omdat het open source is, erg populair in de gemeenschap, en zich in een groeifase bevindt. U kunt leren hoe u de taal kunt gebruiken in het boek My Memorable SQL - de pilotversie is beschikbaar hier.

Beheers Python, ook al is het niet op het meest hardcore niveau. My Memorable Python is speciaal ontworpen voor beginners. Het kan worden gekocht bij Amazone, elektronische of fysieke kopie, naar keuze, of download in pdf- of epub-formaat op deze site.

Als je eenmaal bekend bent met Python, ga dan verder met Panda's, een Python-bibliotheek die wordt gebruikt voor het opschonen en verwerken van gegevens. Als je van plan bent om in een bedrijf te werken dat de mogelijkheid vereist om in Python te schrijven (en dit is het merendeel van hen), kun je er zeker van zijn dat kennis van panda's standaard wordt aangenomen. Ik ben momenteel bezig met het afronden van een inleidende gids over het werken met panda's. Dat kan Abonnerenom het moment van uitgave niet te missen.

Meester AWS. Als je data engineer wilt worden, kun je niet zonder een cloudplatform in de voorraad, en AWS is daarvan de populairste. De cursussen hebben mij veel geholpen Linux Academietoen ik studeerde data-engineering op Google CloudIk denk dat ze ook goede materialen over AWS zullen hebben.

Als je deze hele lijst al hebt ingevuld en in de ogen van werkgevers verder wilt groeien als data engineer, stel ik voor om Apache Spark toe te voegen voor het werken met big data. Hoewel mijn onderzoek naar vacatures voor datawetenschappers een afnemende belangstelling liet zien, komt dit onder data-ingenieurs nog steeds voor in bijna elke tweede vacature.

tenslotte

Ik hoop dat je dit overzicht van de meest gevraagde technologieën voor data-ingenieurs nuttig vond. Als je je afvraagt ​​hoe het met de banen van analisten gaat, lees dan dit artikel mijn andere artikel. Veel techniekplezier!

Bron: www.habr.com

Voeg een reactie