Volgens
Ik heb de vacatures voor de functie van data engineer in januari 2020 geanalyseerd om te begrijpen welke technologische vaardigheden het populairst zijn. Vervolgens vergeleek ik de resultaten met statistieken over vacatures voor de functie van datawetenschapper - en er kwamen enkele interessante verschillen naar voren.
Zonder veel inleiding is hier de top tien van technologieën die het vaakst worden genoemd in vacatures:
Vermelding van technologieën in vacatures voor de functie van data engineer in 2020
Verantwoordelijkheden van een data-ingenieur
Tegenwoordig is het werk dat data engineers doen van groot belang voor organisaties; dit zijn de mensen die verantwoordelijk zijn voor het opslaan van informatie en het in een zodanige vorm brengen dat andere medewerkers ermee kunnen werken. Data-ingenieurs bouwen pijplijnen om gegevens uit meerdere bronnen te streamen of in batches te verwerken. Pijpleidingen voeren vervolgens extractie-, transformatie- en laadbewerkingen uit (met andere woorden, ETL-processen), waardoor de gegevens geschikter worden voor verder gebruik. Hierna worden de gegevens voor verdere verwerking voorgelegd aan analisten en datawetenschappers. Ten slotte beëindigen de gegevens hun reis in dashboards, rapporten en machine learning-modellen.
Ik was op zoek naar informatie waarmee ik een conclusie kon trekken over welke technologieën momenteel het meest gevraagd zijn in het werk van een data-ingenieur.
methoden
Ik heb informatie verzameld van drie vacaturesites
Voor elk zoekwoord heb ik het percentage hits berekend uit het totaal aantal teksten op elke site afzonderlijk, en vervolgens het gemiddelde voor de drie bronnen berekend.
Bevindingen
Hieronder staan de dertig technische data-engineeringtermen met de hoogste scores op alle drie de vacaturesites.
En hier zijn dezelfde cijfers, maar gepresenteerd in tabelvorm:
Laten we op volgorde gaan.
Beoordeling van resultaten
Zowel SQL als Python komen voor in ruim tweederde van de beoordeelde vacatures. Het zijn deze twee technologieën die zinvol zijn om eerst te bestuderen.
Spark wordt in ongeveer de helft van de vacatures genoemd.
AWS komt voor in ongeveer 45% van de vacatures. Het is een cloud computing-platform vervaardigd door Amazon; het heeft het grootste marktaandeel van alle cloudplatforms.
Vervolgens komen Java en Hadoop - iets meer dan 40% voor hun broer.
Het is alsof je in een tijdmachine rijdt
Dan zien we Hive, Scala, Kafka en NoSQL – elk van deze technologieën wordt genoemd in een kwart van de ingediende vacatures. Apache Hive is datawarehouse-software die “het gemakkelijk maakt om grote datasets in gedistribueerde winkels te lezen, schrijven en beheren met behulp van SQL.”
Vergelijking met termen in vacatures voor datawetenschappers
Hier zijn dertig technologietermen die het meest voorkomen bij datawetenschapwerkgevers. Deze lijst heb ik op dezelfde manier verkregen als hierboven beschreven voor data engineering.
Vermeldingen van technologie in vacatures voor de functie van datawetenschapper in 2020
Als we het hebben over het totaal aantal, vergeleken met de eerder overwogen werving, waren er 28% meer vacatures (12 versus 013). Laten we eens kijken welke technologieën minder vaak voorkomen in vacatures voor datawetenschappers dan voor data-ingenieurs.
Populairder in data-engineering
In de onderstaande grafiek worden zoekwoorden weergegeven met een gemiddeld verschil van meer dan 10% of minder dan -10%.
De grootste verschillen in zoekwoordfrequentie tussen data engineer en datawetenschapper
AWS laat de grootste stijging zien: bij data engineering komt het 25% vaker voor dan bij data science (respectievelijk circa 45% en 20% van het totaal aantal vacatures). Het verschil is merkbaar!
Hier zijn dezelfde gegevens in een iets andere presentatie - in de grafiek staan de resultaten voor hetzelfde zoekwoord in de vacatures voor de functie van data-ingenieur en data-wetenschapper naast elkaar.
De grootste verschillen in zoekwoordfrequentie tussen data engineer en datawetenschapper
De volgende grootste sprong die ik opmerkte was in Spark: een data-ingenieur moet vaak met big data werken.
Minder populair in data-engineering
Laten we nu eens kijken welke technologieën minder populair zijn in vacatures voor data-ingenieurs.
De scherpste daling vergeleken met de data science-sector vond plaats in
Veelgevraagd in zowel data engineering als data science
Opgemerkt moet worden dat acht van de eerste tien posities in beide sets hetzelfde zijn. SQL, Python, Spark, AWS, Java, Hadoop, Hive en Scala haalden de top tien voor zowel de data-engineering- als de data-wetenschapsindustrie. In de onderstaande grafiek zie je de vijftien meest populaire technologieën onder werkgevers op het gebied van data-ingenieurs, met daarnaast het vacaturepercentage voor data-wetenschappers.
Aanbevelingen
Als u zich met data-engineering wilt bezighouden, raad ik u aan de volgende technologieën onder de knie te krijgen. Ik vermeld ze in volgorde van geschatte prioriteit.
Leer SQL. Ik neig naar PostgreSQL omdat het open source is, erg populair in de gemeenschap, en zich in een groeifase bevindt. U kunt leren hoe u de taal kunt gebruiken in het boek My Memorable SQL - de pilotversie is beschikbaar
Beheers Python, ook al is het niet op het meest hardcore niveau. My Memorable Python is speciaal ontworpen voor beginners. Het kan worden gekocht bij
Als je eenmaal bekend bent met Python, ga dan verder met Panda's, een Python-bibliotheek die wordt gebruikt voor het opschonen en verwerken van gegevens. Als je van plan bent om in een bedrijf te werken dat de mogelijkheid vereist om in Python te schrijven (en dit is het merendeel van hen), kun je er zeker van zijn dat kennis van panda's standaard wordt aangenomen. Ik ben momenteel bezig met het afronden van een inleidende gids over het werken met panda's. Dat kan
Meester AWS. Als je data engineer wilt worden, kun je niet zonder een cloudplatform in de voorraad, en AWS is daarvan de populairste. De cursussen hebben mij veel geholpen
Als je deze hele lijst al hebt ingevuld en in de ogen van werkgevers verder wilt groeien als data engineer, stel ik voor om Apache Spark toe te voegen voor het werken met big data. Hoewel mijn onderzoek naar vacatures voor datawetenschappers een afnemende belangstelling liet zien, komt dit onder data-ingenieurs nog steeds voor in bijna elke tweede vacature.
tenslotte
Ik hoop dat je dit overzicht van de meest gevraagde technologieën voor data-ingenieurs nuttig vond. Als je je afvraagt hoe het met de banen van analisten gaat, lees dan dit artikel
Bron: www.habr.com