Glede na
Januarja 2020 sem analiziral prosta delovna mesta za delovno mesto podatkovnega inženirja, da bi razumel, katera tehnološka znanja so najbolj priljubljena. Nato sem rezultate primerjal s statistiko prostih delovnih mest za delovno mesto podatkovnega znanstvenika – in pokazalo se je nekaj zanimivih razlik.
Brez posebne preambule je tukaj prvih deset tehnologij, ki se najpogosteje omenjajo v objavah za delovna mesta:
Omemba tehnologij v prostih delovnih mestih za delovno mesto podatkovnega inženirja v letu 2020
Odgovornosti podatkovnega inženirja
Danes je za organizacije zelo pomembno delo, ki ga opravljajo podatkovni inženirji – to so ljudje, ki so odgovorni za shranjevanje informacij in njihovo spravljanje v takšno obliko, da lahko z njimi delajo tudi drugi zaposleni. Podatkovni inženirji gradijo cevovode za pretakanje ali paketiranje podatkov iz več virov. Cevovodi nato izvedejo operacije ekstrakcije, transformacije in nalaganja (z drugimi besedami, procese ETL), zaradi česar so podatki primernejši za nadaljnjo uporabo. Po tem se podatki posredujejo analitikom in podatkovnim znanstvenikom v poglobljeno obdelavo. Na koncu podatki končajo svojo pot na nadzornih ploščah, poročilih in modelih strojnega učenja.
Iskal sem informacije, na podlagi katerih bi lahko sklepal, katere tehnologije so v tem trenutku najbolj iskane pri delu podatkovnega inženirja.
Metode
Zbral sem informacije s treh spletnih mest za iskanje zaposlitve −
Za vsako ključno besedo sem izračunal odstotek zadetkov od skupnega števila besedil na vsaki strani posebej, nato pa izračunal povprečje za tri vire.
Ugotovitve
Spodaj je trideset izrazov tehničnega podatkovnega inženiringa z najvišjimi ocenami na vseh treh delovnih mestih.
In tukaj so iste številke, vendar predstavljene v obliki tabele:
Gremo po vrsti.
Pregled rezultatov
Tako SQL kot Python se pojavljata v več kot dveh tretjinah pregledanih prostih delovnih mest. Prav ti dve tehnologiji je smiselno najprej proučiti.
Iskra je omenjena v približno polovici prostih delovnih mest.
AWS se pojavi v približno 45 % objav za delovna mesta. Je platforma za računalništvo v oblaku, ki jo proizvaja Amazon; ima največji tržni delež med vsemi oblačnimi platformami.
Sledita Java in Hadoop - nekaj več kot 40% za svojega brata.
Kot bi se vozil s časovnim strojem
Nato vidimo Hive, Scala, Kafka in NoSQL – vsaka od teh tehnologij je omenjena v četrtini prijavljenih prostih delovnih mest. Apache Hive je programska oprema za skladišče podatkov, ki "omogoča enostavno branje, pisanje in upravljanje velikih naborov podatkov, ki se nahajajo v porazdeljenih trgovinah z uporabo SQL."
Primerjava s pogoji v prostih delovnih mestih podatkovnih znanstvenikov
Tu je trideset najpogostejših tehnoloških izrazov med delodajalci podatkovne znanosti. Ta seznam sem pridobil na enak način, kot je opisan zgoraj za podatkovno inženirstvo.
Omembe tehnologije v prostih delovnih mestih za delovno mesto podatkovnega znanstvenika v letu 2020
Če govorimo o skupnem številu, je bilo v primerjavi s predhodno obravnavanim zaposlovanjem za 28 % več prostih delovnih mest (12 proti 013). Poglejmo, katere tehnologije so manj pogoste na prostih delovnih mestih za podatkovne znanstvenike kot za podatkovne inženirje.
Bolj priljubljen v podatkovnem inženirstvu
Spodnji graf prikazuje ključne besede s povprečno razliko večjo od 10 % ali manjšo od -10 %.
Največje razlike v pogostosti ključnih besed med podatkovnim inženirjem in podatkovnim znanstvenikom
AWS kaže največji porast: v podatkovnem inženiringu se pojavlja 25 % pogosteje kot v podatkovni znanosti (približno 45 % oziroma 20 % skupnega števila prostih delovnih mest). Razlika je opazna!
Tukaj so isti podatki v nekoliko drugačni predstavitvi - v grafu se rezultati za isto ključno besedo na prostih delovnih mestih za delovno mesto podatkovnega inženirja in podatkovnega znanstvenika nahajajo drug poleg drugega.
Največje razlike v pogostosti ključnih besed med podatkovnim inženirjem in podatkovnim znanstvenikom
Naslednji največji skok, ki sem ga opazil, je bil v Sparku - podatkovni inženir mora pogosto delati z velikimi podatki.
Manj priljubljen v podatkovnem inženirstvu
Zdaj pa poglejmo, katere tehnologije so manj priljubljene pri prostih delovnih mestih podatkovnih inženirjev.
Največji padec v primerjavi s sektorjem podatkovne znanosti se je zgodil leta
Povpraševanje v podatkovnem inženirstvu in podatkovni znanosti
Poudariti je treba, da je osem od prvih desetih pozicij v obeh nizih enakih. SQL, Python, Spark, AWS, Java, Hadoop, Hive in Scala so se uvrstili med prvih deset tako za industrijo podatkovnega inženiringa kot podatkovne znanosti. V spodnjem grafu si lahko ogledate petnajst najbolj priljubljenih tehnologij med delodajalci podatkovnih inženirjev, poleg njih pa še njihovo stopnjo prostih delovnih mest za podatkovne znanstvenike.
Priporočila
Če se želite ukvarjati s podatkovnim inženiringom, bi vam svetoval, da obvladate naslednje tehnologije - navajam jih po približnem vrstnem redu.
Naučite se SQL. Nagibam se k PostgreSQL, ker je odprtokoden, zelo priljubljen v skupnosti in je v fazi rasti. Kako uporabljati jezik, se lahko naučite iz knjige My Memorable SQL – na voljo je njena pilotna različica
Obvladajte Python, tudi če ne na najzahtevnejši ravni. My Memorable Python je zasnovan posebej za začetnike. Kupiti ga je mogoče na
Ko se seznanite s Pythonom, pojdite na pandas, knjižnico Python, ki se uporablja za čiščenje in obdelavo podatkov. Če nameravate delati v podjetju, ki zahteva sposobnost pisanja v Pythonu (in to je večina), ste lahko prepričani, da bo poznavanje pand privzeto predpostavljeno. Trenutno končujem uvodni vodnik za delo s pandami – lahko
Mojster AWS. Če želite postati podatkovni inženir, ne morete brez oblačne platforme na zalogo in AWS je najbolj priljubljena med njimi. Tečaji so mi zelo pomagali
Če ste že izpolnili celoten seznam in želite še naprej rasti v očeh delodajalcev kot podatkovni inženir, predlagam, da dodate Apache Spark za delo z velikimi podatki. Čeprav je moja raziskava o prostih delovnih mestih podatkovnih znanstvenikov pokazala upad zanimanja, se med podatkovnimi inženirji še vedno pojavlja pri skoraj vsakem drugem prostem delovnem mestu.
na zadnji
Upam, da vam je bil ta pregled najbolj iskanih tehnologij za podatkovne inženirje koristen. Če se sprašujete, kako napredujejo službe analitikov, preberite
Vir: www.habr.com