Prema
Analizirao sam slobodna radna mjesta za poziciju inženjera podataka kakva jesu u siječnju 2020. kako bih shvatio koje su tehnološke vještine najpopularnije. Zatim sam usporedio rezultate sa statistikom slobodnih radnih mjesta za poziciju podatkovnog znanstvenika – i pojavile su se neke zanimljive razlike.
Bez puno uvoda, evo prvih deset tehnologija koje se najčešće spominju u oglasima za posao:
Spominjanje tehnologija u natječajima za radno mjesto Data Engineer u 2020
Odgovornosti podatkovnog inženjera
Danas je posao koji obavljaju podatkovni inženjeri od velike važnosti za organizacije – to su ljudi koji su odgovorni za pohranjivanje informacija i njihovo dovođenje u takav oblik da drugi zaposlenici mogu s njima raditi. Podatkovni inženjeri izgrađuju cjevovode za prijenos ili skup podataka iz više izvora. Cjevovodi zatim izvode operacije ekstrakcije, transformacije i učitavanja (drugim riječima, ETL procese), čineći podatke prikladnijima za daljnju upotrebu. Nakon toga podaci se dostavljaju analitičarima i podatkovnim znanstvenicima na dublju obradu. Konačno, podaci završavaju svoje putovanje u nadzornim pločama, izvješćima i modelima strojnog učenja.
Tražio sam informacije koje bi mi omogućile da zaključim koje su tehnologije trenutno najtraženije u radu inženjera podataka.
metode
Prikupio sam informacije s tri stranice za traženje posla −
Za svaku sam ključnu riječ izračunao postotak posjeta od ukupnog broja tekstova na svakoj stranici posebno, a zatim izračunao prosjek za tri izvora.
Nalazi
Ispod je trideset pojmova tehničkog inženjeringa podataka s najvišim ocjenama na sva tri mjesta rada.
Evo istih brojeva, ali prikazanih u obliku tablice:
Idemo redom.
Pregled rezultata
I SQL i Python pojavljuju se u više od dvije trećine pregledanih otvorenih radnih mjesta. Upravo te dvije tehnologije ima smisla prvo proučiti.
Spark se spominje u otprilike polovici natječaja.
AWS se pojavljuje u otprilike 45% oglasa za posao. To je platforma za računalstvo u oblaku koju proizvodi Amazon; ima najveći tržišni udio među svim platformama u oblaku.
Slijede Java i Hadoop - nešto više od 40% za svog brata.
Kao da se vozite u vremenskom stroju
Zatim vidimo Hive, Scala, Kafka i NoSQL – svaka od ovih tehnologija spominje se u četvrtini prijavljenih natječaja. Apache Hive je softver za skladište podataka koji "olakšava čitanje, pisanje i upravljanje velikim skupovima podataka koji se nalaze u distribuiranim trgovinama pomoću SQL-a."
Usporedba s uvjetima u natječajima za data scientist
Evo trideset tehnoloških izraza koji su najčešći među poslodavcima u području znanosti o podacima. Dobio sam ovaj popis na isti način kao što je gore opisano za podatkovni inženjering.
Spominjanje tehnologije u natječajima za poziciju podatkovnog znanstvenika u 2020
Ako govorimo o ukupnom broju, u odnosu na prethodno razmatrano zapošljavanje bilo je 28% više slobodnih radnih mjesta (12 naspram 013). Pogledajmo koje su tehnologije rjeđe u slobodnim radnim mjestima za podatkovne znanstvenike nego za podatkovne inženjere.
Popularniji u podatkovnom inženjerstvu
Grafikon ispod prikazuje ključne riječi s prosječnom razlikom većom od 10% ili manjom od -10%.
Najveće razlike u učestalosti ključnih riječi između podatkovnog inženjera i podatkovnog znanstvenika
AWS pokazuje najznačajniji porast: u podatkovnom inženjerstvu pojavljuje se 25% redovitije nego u podatkovnoj znanosti (otprilike 45% odnosno 20% od ukupnog broja slobodnih radnih mjesta). Razlika je primjetna!
Evo istih podataka u malo drugačijem prikazu - na grafikonu su jedan pored drugog smješteni rezultati za istu ključnu riječ u natječajima za poziciju data engineer i data scientist.
Najveće razlike u učestalosti ključnih riječi između podatkovnog inženjera i podatkovnog znanstvenika
Sljedeći najveći skok koji sam primijetio bio je u Sparku - podatkovni inženjer često mora raditi s velikim podacima.
Manje popularan u podatkovnom inženjerstvu
Sada da vidimo koje su tehnologije manje popularne u natječajima za inženjere podataka.
Najveći pad u usporedbi sa sektorom znanosti o podacima dogodio se u
Potražnja u podatkovnom inženjerstvu i podatkovnoj znanosti
Treba napomenuti da je osam od prvih deset pozicija u oba seta isto. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala dospjeli su među deset najboljih i za industriju podatkovnog inženjerstva i za industriju znanosti o podacima. Na grafikonu ispod možete vidjeti petnaest najpopularnijih tehnologija među poslodavcima podatkovnih inženjera, a pored njih je njihova stopa slobodnih radnih mjesta za podatkovne znanstvenike.
Preporuke
Ako se želite baviti podatkovnim inženjerstvom, savjetovao bih vam da ovladate sljedećim tehnologijama - navodim ih po približnom redu prioriteta.
Naučite SQL. Naginjem prema PostgreSQL-u jer je otvorenog koda, vrlo popularan u zajednici i u fazi je rasta. Možete naučiti kako koristiti jezik iz knjige My Memorable SQL - dostupna je njena pilot verzija
Ovladajte Pythonom, čak i ako ne na najtežoj razini. My Memorable Python dizajniran je posebno za početnike. Može se kupiti na
Nakon što se upoznate s Pythonom, prijeđite na pandas, Python biblioteku koja se koristi za čišćenje i obradu podataka. Ako namjeravate raditi u tvrtki koja zahtijeva sposobnost pisanja na Pythonu (a to je većina njih), možete biti sigurni da će se poznavanje pandi podrazumijevati prema zadanim postavkama. Trenutno dovršavam uvodni vodič za rad s pandama - možete
Master AWS. Ako želite postati podatkovni inženjer, ne možete bez cloud platforme u zalihi, a AWS je najpopularnija od njih. Tečajevi su mi puno pomogli
Ako ste već završili ovaj cijeli popis i želite dalje napredovati u očima poslodavaca kao podatkovni inženjer, predlažem da dodate Apache Spark za rad s velikim podacima. Iako je moje istraživanje o slobodnim radnim mjestima data scientista pokazalo pad interesa, među podatkovnim inženjerima on se i dalje pojavljuje na gotovo svakom drugom natječaju.
Konačno
Nadam se da vam je ovaj pregled najtraženijih tehnologija za podatkovne inženjere bio koristan. Ako se pitate kako stoje poslovi analitičara, pročitajte
Izvor: www.habr.com