Ifølge
Jeg analyserede ledige stillinger til stillingen som dataingeniør, som de er i januar 2020 for at forstå, hvilke teknologiske færdigheder der er mest populære. Derefter sammenlignede jeg resultaterne med statistikker over ledige stillinger til datascientist-stillingen – og der kom nogle interessante forskelle frem.
Uden meget indledning er her de ti bedste teknologier, der oftest nævnes i jobopslag:
Omtale af teknologier i ledige stillinger til stillingen som dataingeniør i 2020
Ansvar for en dataingeniør
I dag er det arbejde, som dataingeniører udfører, af stor betydning for organisationer – det er de personer, der er ansvarlige for at opbevare information og bringe den i en sådan form, at andre medarbejdere kan arbejde med dem. Dataingeniører bygger pipelines til at streame eller batch data fra flere kilder. Rørledninger udfører derefter ekstraktions-, transformations- og indlæsningsoperationer (med andre ord ETL-processer), hvilket gør dataene mere egnede til videre brug. Herefter sendes dataene til analytikere og dataforskere til en dybere bearbejdning. Endelig afslutter dataene sin rejse i dashboards, rapporter og maskinlæringsmodeller.
Jeg ledte efter information, der ville give mig mulighed for at drage en konklusion om, hvilke teknologier der er mest efterspurgt i en dataingeniørs arbejde i øjeblikket.
metoder
Jeg indsamlede oplysninger fra tre jobsøgningssider −
For hvert søgeord har jeg beregnet procentdelen af hits ud fra det samlede antal tekster på hver side separat, og derefter beregnet gennemsnittet for de tre kilder.
Fund
Nedenfor er de tredive tekniske datatekniske termer med de højeste scorer på tværs af alle tre jobsites.
Og her er de samme tal, men præsenteret i tabelform:
Lad os gå i rækkefølge.
Gennemgang af resultater
Både SQL og Python optræder i mere end to tredjedele af de gennemgåede jobåbninger. Det er disse to teknologier, der giver mening at studere først.
Spark er nævnt i omkring halvdelen af de ledige stillinger.
AWS optræder i cirka 45 % af stillingsopslagene. Det er en cloud computing-platform fremstillet af Amazon; det har den største markedsandel blandt alle cloud-platforme.
Dernæst kommer Java og Hadoop - lidt mere end 40% for deres bror.
Det er som at køre i en tidsmaskine
Så ser vi Hive, Scala, Kafka og NoSQL – hver af disse teknologier er nævnt i en fjerdedel af de indsendte ledige stillinger. Apache Hive er en datavarehussoftware, der "gør det nemt at læse, skrive og administrere store datasæt, der findes i distribuerede butikker ved hjælp af SQL."
Sammenligning med vilkår i ledige stillinger for dataforskere
Her er tredive teknologibegreber, der er mest almindelige blandt datavidenskabelige arbejdsgivere. Jeg fik denne liste på samme måde som beskrevet ovenfor for datateknik.
Omtaler af teknologi i ledige stillinger til stillingen som dataforsker i 2020
Taler vi om det samlede antal, sammenlignet med den tidligere overvejede rekruttering, var der 28 % flere ledige stillinger (12 mod 013). Lad os se, hvilke teknologier der er mindre almindelige i ledige stillinger for dataforskere end for dataingeniører.
Mere populær inden for datateknik
Grafen nedenfor viser søgeord med en gennemsnitlig forskel på mere end 10 % eller mindre end -10 %.
De største forskelle i søgeordsfrekvens mellem dataingeniør og dataforsker
AWS viser den mest markante stigning: inden for datateknik optræder det 25 % mere regelmæssigt end i datavidenskab (henholdsvis ca. 45 % og 20 % af det samlede antal ledige stillinger). Forskellen er mærkbar!
Her er de samme data i en lidt anderledes præsentation - i grafen er resultaterne for det samme søgeord i de ledige stillinger til stillingen som dataingeniør og data scientist placeret side om side.
De største forskelle i søgeordsfrekvens mellem dataingeniør og dataforsker
Det næststørste spring, jeg bemærkede, var i Spark - en dataingeniør skal ofte arbejde med big data.
Mindre populær inden for datateknik
Lad os nu se, hvilke teknologier der er mindre populære i ledige stillinger inden for dataingeniører.
Det kraftigste fald i forhold til datavidenskabssektoren skete i
Efterspurgt inden for både datateknik og datavidenskab
Det skal bemærkes, at otte af de første ti positioner i begge sæt er de samme. SQL, Python, Spark, AWS, Java, Hadoop, Hive og Scala kom ind i top ti for både dataingeniør- og datavidenskabsindustrien. I grafen nedenfor kan du se de femten mest populære teknologier blandt dataingeniør-arbejdsgivere, og ved siden af dem er deres ledige stilling for dataforskere.
Anbefalinger
Hvis du ønsker at komme ind i datateknik, vil jeg råde dig til at mestre følgende teknologier - jeg lister dem op i en omtrentlig prioritet.
Lær SQL. Jeg hælder til PostgreSQL, fordi det er open source, meget populært i fællesskabet og er i en vækstfase. Du kan lære at bruge sproget fra bogen My Memorable SQL - dens pilotversion er tilgængelig
Master Python, selvom det ikke er på det mest hardcore niveau. My Memorable Python er designet specielt til begyndere. Den kan købes på
Når du er fortrolig med Python, skal du gå videre til pandas, et Python-bibliotek, der bruges til datarensning og -behandling. Hvis du sigter mod at arbejde i en virksomhed, der kræver evnen til at skrive i Python (og dette er størstedelen af dem), kan du være sikker på, at kendskab til pandaer vil blive antaget som standard. Jeg er i øjeblikket ved at afslutte en introduktionsvejledning til at arbejde med pandaer – det kan du
Mester AWS. Hvis du vil blive dataingeniør, kan du ikke undvære en cloud-platform, og AWS er den mest populære af dem. Kurserne hjalp mig meget
Hvis du allerede har fuldført hele denne liste og ønsker at vokse yderligere i arbejdsgivernes øjne som dataingeniør, foreslår jeg at tilføje Apache Spark til at arbejde med big data. Selvom min forskning om ledige stillinger i dataforskere viste et fald i interessen, optræder det blandt dataingeniører stadig i næsten hver anden ledig stilling.
Endelig
Jeg håber, at du fandt denne oversigt over de mest efterspurgte teknologier for dataingeniører nyttig. Hvis du undrer dig over, hvordan det går med analytikerjob, så læs
Kilde: www.habr.com