Enligt
Jag analyserade lediga tjänster för tjänsten som dataingenjör som de är i januari 2020 för att förstå vilka teknikkunskaper som är mest populära. Sedan jämförde jag resultaten med statistik över lediga tjänster för datavetartjänsten – och några intressanta skillnader framkom.
Utan mycket ingress, här är de tio bästa teknikerna som nämns oftast i jobbannonser:
Omnämnande av teknologier i lediga tjänster för tjänsten som dataingenjör 2020
En dataingenjörs ansvar
Idag är det arbete som dataingenjörer gör av stor betydelse för organisationer – det är de som ansvarar för att lagra information och föra den i en sådan form att andra medarbetare kan arbeta med den. Dataingenjörer bygger pipelines för att strömma eller batcha data från flera källor. Rörledningar utför sedan extraktions-, transformations- och laddningsoperationer (med andra ord ETL-processer), vilket gör data mer lämpade för vidare användning. Därefter lämnas data till analytiker och datavetare för djupare bearbetning. Slutligen avslutar data sin resa i instrumentpaneler, rapporter och maskininlärningsmodeller.
Jag letade efter information som skulle göra det möjligt för mig att dra en slutsats om vilka teknologier som är mest efterfrågade i en dataingenjörs arbete för tillfället.
metoder
Jag samlade in information från tre jobbsöksajter −
För varje sökord beräknade jag andelen träffar från det totala antalet texter på varje sajt separat, och beräknade sedan genomsnittet för de tre källorna.
Resultat
Nedan är de trettio tekniska datatekniska termerna med de högsta poängen på alla tre arbetsplatserna.
Och här är samma siffror, men presenterade i tabellform:
Låt oss gå i ordning.
Genomgång av resultat
Både SQL och Python förekommer i mer än två tredjedelar av de jobb som granskas. Det är dessa två tekniker som är vettiga att studera först.
Spark nämns i ungefär hälften av de lediga tjänsterna.
AWS förekommer i cirka 45 % av jobbannonserna. Det är en cloud computing-plattform tillverkad av Amazon; det har den största marknadsandelen bland alla molnplattformar.
Därefter kommer Java och Hadoop – lite mer än 40 % för sin bror.
Det är som att åka i en tidsmaskin
Sedan ser vi Hive, Scala, Kafka och NoSQL – var och en av dessa teknologier nämns i en fjärdedel av de lediga tjänsterna. Apache Hive är en datalagerprogramvara som "gör det enkelt att läsa, skriva och hantera stora datamängder som finns i distribuerade butiker med hjälp av SQL."
Jämförelse med termer i lediga tjänster inom datavetare
Här är trettio tekniktermer som är vanligast bland arbetsgivare inom datavetenskap. Jag fick den här listan på samma sätt som beskrivits ovan för datateknik.
Omnämnanden av teknik i lediga tjänster för tjänsten som datavetare 2020
Om vi talar om det totala antalet, jämfört med den tidigare övervägda rekryteringen, var det 28 % fler lediga platser (12 013 mot 9396 XNUMX). Låt oss se vilka tekniker som är mindre vanliga i lediga tjänster för datavetare än för dataingenjörer.
Mer populärt inom datateknik
Diagrammet nedan visar sökord med en genomsnittlig skillnad på mer än 10 % eller mindre än -10 %.
De största skillnaderna i sökordsfrekvens mellan dataingenjör och datavetare
AWS visar den mest betydande ökningen: inom datateknik förekommer det 25 % mer regelbundet än inom datavetenskap (ungefär 45 % respektive 20 % av det totala antalet lediga tjänster). Skillnaden märks!
Här är samma data i en lite annorlunda presentation – i grafen ligger resultaten för samma sökord i de lediga tjänsterna för tjänsten dataingenjör och datavetare sida vid sida.
De största skillnaderna i sökordsfrekvens mellan dataingenjör och datavetare
Det näst största hoppet jag noterade var i Spark - en dataingenjör måste ofta arbeta med big data.
Mindre populär inom datateknik
Låt oss nu se vilka tekniker som är mindre populära i lediga dataingenjörer.
Den kraftigaste nedgången jämfört med datavetenskapssektorn skedde i
Efterfrågad inom både datateknik och datavetenskap
Det bör noteras att åtta av de tio första positionerna i båda seten är desamma. SQL, Python, Spark, AWS, Java, Hadoop, Hive och Scala tog sig till topp tio för både datateknik- och datavetenskapsindustrin. I grafen nedan kan du se de femton mest populära teknikerna bland dataingenjörsarbetsgivare, och bredvid dem är deras vakansgrad för datavetare.
Rekommendationer
Om du vill komma in i datateknik skulle jag råda dig att behärska följande tekniker - jag listar dem i ungefärlig prioritetsordning.
Lär dig SQL. Jag lutar åt PostgreSQL eftersom det är öppen källkod, mycket populärt i samhället och är i en tillväxtfas. Du kan lära dig hur du använder språket från boken My Memorable SQL - dess pilotversion finns tillgänglig
Master Python, även om det inte är på hardcore-nivå. My Memorable Python är designad speciellt för nybörjare. Den kan köpas på
När du är bekant med Python, gå vidare till pandas, ett Python-bibliotek som används för datarensning och bearbetning. Om du siktar på att arbeta i ett företag som kräver förmågan att skriva i Python (och detta är majoriteten av dem), kan du vara säker på att kunskap om pandor kommer att antas som standard. Jag håller just nu på att avsluta en introduktionsguide till att arbeta med pandor – du kan
Mästare AWS. Om du vill bli dataingenjör kan du inte klara dig utan en molnplattform i arkivet, och AWS är den mest populära av dem. Kurserna hjälpte mig mycket
Om du redan har slutfört hela listan och vill växa ytterligare i arbetsgivarnas ögon som dataingenjör, föreslår jag att du lägger till Apache Spark för att arbeta med big data. Även om min forskning om lediga tjänster för dataforskare visade ett minskat intresse, dyker det fortfarande upp bland dataingenjörer i nästan varannan ledig tjänst.
äntligen
Jag hoppas att du tyckte att den här översikten av de mest efterfrågade teknikerna för dataingenjörer var användbar. Om du undrar hur analytikerjobbet ser ut, läs
Källa: will.com