Najbolj iskane veščine v poklicu podatkovnega inženirja

Glede na statistika 2019, podatkovni inženir je trenutno poklic, po katerem povpraševanje raste hitreje kot po katerem koli drugem. Podatkovni inženir igra ključno vlogo v organizaciji – ustvarja in vzdržuje cevovode in baze podatkov, ki se uporabljajo za obdelavo, pretvorbo in shranjevanje podatkov. Katere veščine najprej potrebujejo predstavniki tega poklica? Se seznam razlikuje od tega, kar se zahteva od podatkovnih znanstvenikov? O vsem tem boste izvedeli iz mojega članka.

Januarja 2020 sem analiziral prosta delovna mesta za delovno mesto podatkovnega inženirja, da bi razumel, katera tehnološka znanja so najbolj priljubljena. Nato sem rezultate primerjal s statistiko prostih delovnih mest za delovno mesto podatkovnega znanstvenika – in pokazalo se je nekaj zanimivih razlik.

Brez posebne preambule je tukaj prvih deset tehnologij, ki se najpogosteje omenjajo v objavah za delovna mesta:

Najbolj iskane veščine v poklicu podatkovnega inženirja

Omemba tehnologij v prostih delovnih mestih za delovno mesto podatkovnega inženirja v letu 2020

Ugotovimo to.

Odgovornosti podatkovnega inženirja

Danes je za organizacije zelo pomembno delo, ki ga opravljajo podatkovni inženirji – to so ljudje, ki so odgovorni za shranjevanje informacij in njihovo spravljanje v takšno obliko, da lahko z njimi delajo tudi drugi zaposleni. Podatkovni inženirji gradijo cevovode za pretakanje ali paketiranje podatkov iz več virov. Cevovodi nato izvedejo operacije ekstrakcije, transformacije in nalaganja (z drugimi besedami, procese ETL), zaradi česar so podatki primernejši za nadaljnjo uporabo. Po tem se podatki posredujejo analitikom in podatkovnim znanstvenikom v poglobljeno obdelavo. Na koncu podatki končajo svojo pot na nadzornih ploščah, poročilih in modelih strojnega učenja.

Iskal sem informacije, na podlagi katerih bi lahko sklepal, katere tehnologije so v tem trenutku najbolj iskane pri delu podatkovnega inženirja.

Metode

Zbral sem informacije s treh spletnih mest za iskanje zaposlitve − SimplyHired, Prav zares и Pošast in pogledali, katere ključne besede so se pojavile v povezavi z "podatkovnim inženirjem" v besedilih prostih delovnih mest, namenjenih prebivalcem ZDA. Za to nalogo sem uporabil dve knjižnici Python − zahteve и Čudovita juha. Med ključne besede sem vključil tako tiste, ki so bile vključene v prejšnji seznam za analizo prostih delovnih mest za delovno mesto data scientist, kot tiste, ki sem jih ročno izbral med prebiranjem ponudb za delo podatkovnih inženirjev. LinkedIn ni bil uvrščen na seznam virov, saj sem bil tam prepovedan po zadnjem poskusu zbiranja podatkov.

Za vsako ključno besedo sem izračunal odstotek zadetkov od skupnega števila besedil na vsaki strani posebej, nato pa izračunal povprečje za tri vire.

Ugotovitve

Spodaj je trideset izrazov tehničnega podatkovnega inženiringa z najvišjimi ocenami na vseh treh delovnih mestih.

Najbolj iskane veščine v poklicu podatkovnega inženirja

In tukaj so iste številke, vendar predstavljene v obliki tabele:

Najbolj iskane veščine v poklicu podatkovnega inženirja

Gremo po vrsti.

Pregled rezultatov

Tako SQL kot Python se pojavljata v več kot dveh tretjinah pregledanih prostih delovnih mest. Prav ti dve tehnologiji je smiselno najprej proučiti. Python je zelo priljubljen programski jezik, ki se uporablja za delo s podatki, ustvarjanje spletnih mest in pisanje skriptov. SQL je kratica za Structured Query Language; vključuje standard, ki ga izvaja skupina jezikov in se uporablja za pridobivanje podatkov iz relacijskih baz podatkov. Pojavila se je že davno in se je izkazala za zelo odporno.

Iskra je omenjena v približno polovici prostih delovnih mest. Apache Spark je "poenoten mehanizem za analizo velikih podatkov z vgrajenimi moduli za pretakanje, SQL, strojno učenje in obdelavo grafov." Še posebej priljubljen je med tistimi, ki delajo z velikimi zbirkami podatkov.

AWS se pojavi v približno 45 % objav za delovna mesta. Je platforma za računalništvo v oblaku, ki jo proizvaja Amazon; ima največji tržni delež med vsemi oblačnimi platformami.
Sledita Java in Hadoop - nekaj več kot 40% za svojega brata. Java je splošno razširjen, v bitkah preizkušen jezik, ki Anketa za razvijalce Stack Overflow 2019 je prejel deseto mesto med jeziki, ki povzročajo grozo med programerji. Nasprotno pa je bil Python drugi najbolj priljubljen jezik. Jezik Java upravlja Oracle in vse, kar morate vedeti o njem, lahko razberete iz tega posnetka zaslona uradne strani iz januarja 2020.

Najbolj iskane veščine v poklicu podatkovnega inženirja

Kot bi se vozil s časovnim strojem
Apache Hadoop uporablja programski model MapReduce s strežniškimi gručami za velike podatke. Zdaj se ta model vse bolj opušča.

Nato vidimo Hive, Scala, Kafka in NoSQL – vsaka od teh tehnologij je omenjena v četrtini prijavljenih prostih delovnih mest. Apache Hive je programska oprema za skladišče podatkov, ki "omogoča enostavno branje, pisanje in upravljanje velikih naborov podatkov, ki se nahajajo v porazdeljenih trgovinah z uporabo SQL." Lestvica – programski jezik, ki se aktivno uporablja pri delu z velikimi podatki. Zlasti Spark je nastal v Scali. Na že omenjeni lestvici grozljivih jezikov je Scala na enajstem mestu. Apache Kafka – porazdeljena platforma za obdelavo pretočnih sporočil. Zelo priljubljeno kot sredstvo za pretakanje podatkov.

Baze podatkov NoSQL nasprotujejo SQL. Razlikujejo se po tem, da so nerelacijski, nestrukturirani in horizontalno razširljivi. NoSQL je pridobil nekaj popularnosti, a zdi se, da je navdušenja nad pristopom, celo do te mere, da bo nadomestil SQL kot prevladujočo paradigmo shranjevanja, konec.

Primerjava s pogoji v prostih delovnih mestih podatkovnih znanstvenikov

Tu je trideset najpogostejših tehnoloških izrazov med delodajalci podatkovne znanosti. Ta seznam sem pridobil na enak način, kot je opisan zgoraj za podatkovno inženirstvo.

Najbolj iskane veščine v poklicu podatkovnega inženirja

Omembe tehnologije v prostih delovnih mestih za delovno mesto podatkovnega znanstvenika v letu 2020

Če govorimo o skupnem številu, je bilo v primerjavi s predhodno obravnavanim zaposlovanjem za 28 % več prostih delovnih mest (12 proti 013). Poglejmo, katere tehnologije so manj pogoste na prostih delovnih mestih za podatkovne znanstvenike kot za podatkovne inženirje.

Bolj priljubljen v podatkovnem inženirstvu

Spodnji graf prikazuje ključne besede s povprečno razliko večjo od 10 % ali manjšo od -10 %.

Najbolj iskane veščine v poklicu podatkovnega inženirja

Največje razlike v pogostosti ključnih besed med podatkovnim inženirjem in podatkovnim znanstvenikom

AWS kaže največji porast: v podatkovnem inženiringu se pojavlja 25 % pogosteje kot v podatkovni znanosti (približno 45 % oziroma 20 % skupnega števila prostih delovnih mest). Razlika je opazna!

Tukaj so isti podatki v nekoliko drugačni predstavitvi - v grafu se rezultati za isto ključno besedo na prostih delovnih mestih za delovno mesto podatkovnega inženirja in podatkovnega znanstvenika nahajajo drug poleg drugega.

Najbolj iskane veščine v poklicu podatkovnega inženirja

Največje razlike v pogostosti ključnih besed med podatkovnim inženirjem in podatkovnim znanstvenikom

Naslednji največji skok, ki sem ga opazil, je bil v Sparku - podatkovni inženir mora pogosto delati z velikimi podatki. Kafka povečal tudi za 20 %, torej skoraj štirikrat v primerjavi z rezultatom za prosta delovna mesta podatkovnega znanstvenika. Prenos podatkov je ena ključnih nalog podatkovnega inženirja. Nazadnje je bilo število omemb za 15 % višje na področju podatkovnega inženiringa za Javo, NoSQL, Redshift, SQL in Hadoop.

Manj priljubljen v podatkovnem inženirstvu

Zdaj pa poglejmo, katere tehnologije so manj priljubljene pri prostih delovnih mestih podatkovnih inženirjev.
Največji padec v primerjavi s sektorjem podatkovne znanosti se je zgodil leta R: tam se je pojavil v približno 56% prostih delovnih mest, tukaj - le v 17%. Impresivno. R je programski jezik, ki ga obožujejo znanstveniki in statistiki, in je osmi jezik, ki se ga najbolj bojijo na svetu.

SAS bistveno redkeje najdemo tudi na prostih delovnih mestih za delovno mesto podatkovnega inženirja - razlika je 14 %. SAS je lastniški jezik, zasnovan za delo s statistiko in podatki. Zanimivost: sodeč po rezultatih moja raziskava prostih delovnih mest za podatkovne znanstvenike, je v zadnjem času močno izgubila – bolj kot katera koli druga tehnologija.

Povpraševanje v podatkovnem inženirstvu in podatkovni znanosti

Poudariti je treba, da je osem od prvih desetih pozicij v obeh nizih enakih. SQL, Python, Spark, AWS, Java, Hadoop, Hive in Scala so se uvrstili med prvih deset tako za industrijo podatkovnega inženiringa kot podatkovne znanosti. V spodnjem grafu si lahko ogledate petnajst najbolj priljubljenih tehnologij med delodajalci podatkovnih inženirjev, poleg njih pa še njihovo stopnjo prostih delovnih mest za podatkovne znanstvenike.

Najbolj iskane veščine v poklicu podatkovnega inženirja

Priporočila

Če se želite ukvarjati s podatkovnim inženiringom, bi vam svetoval, da obvladate naslednje tehnologije - navajam jih po približnem vrstnem redu.

Naučite se SQL. Nagibam se k PostgreSQL, ker je odprtokoden, zelo priljubljen v skupnosti in je v fazi rasti. Kako uporabljati jezik, se lahko naučite iz knjige My Memorable SQL – na voljo je njena pilotna različica tukaj.

Obvladajte Python, tudi če ne na najzahtevnejši ravni. My Memorable Python je zasnovan posebej za začetnike. Kupiti ga je mogoče na Amazon, elektronska ali fizična kopija po vaši izbiri ali prenos v formatu pdf ali epub na tej strani.

Ko se seznanite s Pythonom, pojdite na pandas, knjižnico Python, ki se uporablja za čiščenje in obdelavo podatkov. Če nameravate delati v podjetju, ki zahteva sposobnost pisanja v Pythonu (in to je večina), ste lahko prepričani, da bo poznavanje pand privzeto predpostavljeno. Trenutno končujem uvodni vodnik za delo s pandami – lahko naročite seda ne bi zamudili trenutka sprostitve.

Mojster AWS. Če želite postati podatkovni inženir, ne morete brez oblačne platforme na zalogo in AWS je najbolj priljubljena med njimi. Tečaji so mi zelo pomagali Linux akademijako sem študiral podatkovni inženiring v Google Cloudu, mislim, da bodo imeli dobre materiale tudi na AWS.

Če ste že izpolnili celoten seznam in želite še naprej rasti v očeh delodajalcev kot podatkovni inženir, predlagam, da dodate Apache Spark za delo z velikimi podatki. Čeprav je moja raziskava o prostih delovnih mestih podatkovnih znanstvenikov pokazala upad zanimanja, se med podatkovnimi inženirji še vedno pojavlja pri skoraj vsakem drugem prostem delovnem mestu.

na zadnji

Upam, da vam je bil ta pregled najbolj iskanih tehnologij za podatkovne inženirje koristen. Če se sprašujete, kako napredujejo službe analitikov, preberite moj drugi članek. Srečno inženirstvo!

Vir: www.habr.com

Dodaj komentar