Najtraženije vještine u profesiji podatkovnog inženjera

Prema statistika 2019, podatkovni inženjer trenutno je profesija čija potražnja raste brže od bilo koje druge. Inženjer podataka igra ključnu ulogu u organizaciji - stvara i održava cjevovode i baze podataka koje se koriste za obradu, transformaciju i pohranu podataka. Koje su vještine prije svega potrebne predstavnicima ove profesije? Razlikuje li se popis od onoga što se traži od podatkovnih znanstvenika? O svemu tome naučit ćete iz mog članka.

Analizirao sam slobodna radna mjesta za poziciju inženjera podataka kakva jesu u siječnju 2020. kako bih shvatio koje su tehnološke vještine najpopularnije. Zatim sam usporedio rezultate sa statistikom slobodnih radnih mjesta za poziciju podatkovnog znanstvenika – i pojavile su se neke zanimljive razlike.

Bez puno uvoda, evo prvih deset tehnologija koje se najčešće spominju u oglasima za posao:

Najtraženije vještine u profesiji podatkovnog inženjera

Spominjanje tehnologija u natječajima za radno mjesto Data Engineer u 2020

Hajde da shvatimo.

Odgovornosti podatkovnog inženjera

Danas je posao koji obavljaju podatkovni inženjeri od velike važnosti za organizacije – to su ljudi koji su odgovorni za pohranjivanje informacija i njihovo dovođenje u takav oblik da drugi zaposlenici mogu s njima raditi. Podatkovni inženjeri izgrađuju cjevovode za prijenos ili skup podataka iz više izvora. Cjevovodi zatim izvode operacije ekstrakcije, transformacije i učitavanja (drugim riječima, ETL procese), čineći podatke prikladnijima za daljnju upotrebu. Nakon toga podaci se dostavljaju analitičarima i podatkovnim znanstvenicima na dublju obradu. Konačno, podaci završavaju svoje putovanje u nadzornim pločama, izvješćima i modelima strojnog učenja.

Tražio sam informacije koje bi mi omogućile da zaključim koje su tehnologije trenutno najtraženije u radu inženjera podataka.

metode

Prikupio sam informacije s tri stranice za traženje posla − SimplyHired, Doista и Čudovište i pogledali na koje se ključne riječi nailazi u kombinaciji s "podatkovnim inženjerom" u tekstovima natječaja namijenjenih stanovnicima SAD-a. Za ovaj zadatak koristio sam dvije Python biblioteke − zahtjevi и Prekrasna juha. Među ključne riječi uvrstio sam kako one koje su bile uključene u prethodni popis za analizu slobodnih radnih mjesta za poziciju data scientista, tako i one koje sam ručno odabrao čitajući ponude za posao data inženjera. LinkedIn nije bio uvršten na popis izvora, budući da sam tamo banovan nakon zadnjeg pokušaja prikupljanja podataka.

Za svaku sam ključnu riječ izračunao postotak posjeta od ukupnog broja tekstova na svakoj stranici posebno, a zatim izračunao prosjek za tri izvora.

Nalazi

Ispod je trideset pojmova tehničkog inženjeringa podataka s najvišim ocjenama na sva tri mjesta rada.

Najtraženije vještine u profesiji podatkovnog inženjera

Evo istih brojeva, ali prikazanih u obliku tablice:

Najtraženije vještine u profesiji podatkovnog inženjera

Idemo redom.

Pregled rezultata

I SQL i Python pojavljuju se u više od dvije trećine pregledanih otvorenih radnih mjesta. Upravo te dvije tehnologije ima smisla prvo proučiti. Piton je vrlo popularan programski jezik koji se koristi za rad s podacima, izradu web stranica i pisanje skripti. SQL kratica za Structured Query Language; uključuje standard koji implementira skupina jezika i koristi se za dohvaćanje podataka iz relacijskih baza podataka. Pojavio se davno i pokazao se kao vrlo otporan.

Spark se spominje u otprilike polovici natječaja. Apache Spark je "objedinjeni mehanizam za analizu velikih podataka s ugrađenim modulima za strujanje, SQL, strojno učenje i obradu grafikona." Posebno je popularan među onima koji rade s velikim bazama podataka.

AWS se pojavljuje u otprilike 45% oglasa za posao. To je platforma za računalstvo u oblaku koju proizvodi Amazon; ima najveći tržišni udio među svim platformama u oblaku.
Slijede Java i Hadoop - nešto više od 40% za svog brata. Java je široko rasprostranjen, u borbama testiran jezik koji Anketa za razvojne programere Stack Overflowa 2019 dobio je deseto mjesto među jezicima koji izazivaju užas kod programera. Nasuprot tome, Python je bio drugi najomiljeniji jezik. Java jezik pokreće Oracle, a sve što trebate znati o njemu možete razumjeti iz ove snimke službene stranice iz siječnja 2020.

Najtraženije vještine u profesiji podatkovnog inženjera

Kao da se vozite u vremenskom stroju
Apache Hadoop koristi programski model MapReduce s klasterima poslužitelja za velike podatke. Sada se ovaj model sve više napušta.

Zatim vidimo Hive, Scala, Kafka i NoSQL – svaka od ovih tehnologija spominje se u četvrtini prijavljenih natječaja. Apache Hive je softver za skladište podataka koji "olakšava čitanje, pisanje i upravljanje velikim skupovima podataka koji se nalaze u distribuiranim trgovinama pomoću SQL-a." Skala – programski jezik koji se aktivno koristi pri radu s velikim podacima. Konkretno, Spark je nastao u Scali. Na već spomenutoj ljestvici strašnih jezika Scala zauzima jedanaesto mjesto. Apache Kafka – distribuirana platforma za obradu streaming poruka. Vrlo popularan kao sredstvo za prijenos podataka.

NoSQL baze podataka suprotstavljaju se SQL-u. Razlikuju se po tome što su nerelacijski, nestrukturirani i horizontalno skalabilni. NoSQL je stekao određenu popularnost, ali pomama za tim pristupom, čak do te mjere da će proročanstva zamijeniti SQL kao dominantnu paradigmu pohrane, čini se da je završila.

Usporedba s uvjetima u natječajima za data scientist

Evo trideset tehnoloških izraza koji su najčešći među poslodavcima u području znanosti o podacima. Dobio sam ovaj popis na isti način kao što je gore opisano za podatkovni inženjering.

Najtraženije vještine u profesiji podatkovnog inženjera

Spominjanje tehnologije u natječajima za poziciju podatkovnog znanstvenika u 2020

Ako govorimo o ukupnom broju, u odnosu na prethodno razmatrano zapošljavanje bilo je 28% više slobodnih radnih mjesta (12 naspram 013). Pogledajmo koje su tehnologije rjeđe u slobodnim radnim mjestima za podatkovne znanstvenike nego za podatkovne inženjere.

Popularniji u podatkovnom inženjerstvu

Grafikon ispod prikazuje ključne riječi s prosječnom razlikom većom od 10% ili manjom od -10%.

Najtraženije vještine u profesiji podatkovnog inženjera

Najveće razlike u učestalosti ključnih riječi između podatkovnog inženjera i podatkovnog znanstvenika

AWS pokazuje najznačajniji porast: u podatkovnom inženjerstvu pojavljuje se 25% redovitije nego u podatkovnoj znanosti (otprilike 45% odnosno 20% od ukupnog broja slobodnih radnih mjesta). Razlika je primjetna!

Evo istih podataka u malo drugačijem prikazu - na grafikonu su jedan pored drugog smješteni rezultati za istu ključnu riječ u natječajima za poziciju data engineer i data scientist.

Najtraženije vještine u profesiji podatkovnog inženjera

Najveće razlike u učestalosti ključnih riječi između podatkovnog inženjera i podatkovnog znanstvenika

Sljedeći najveći skok koji sam primijetio bio je u Sparku - podatkovni inženjer često mora raditi s velikim podacima. Kafka također porastao za 20%, odnosno gotovo četiri puta u odnosu na rezultat za slobodna radna mjesta data scientist. Prijenos podataka jedna je od ključnih odgovornosti podatkovnog inženjera. Konačno, broj spominjanja bio je 15% veći u području podatkovnog inženjeringa za Javu, NoSQL, Redshift, SQL i Hadoop.

Manje popularan u podatkovnom inženjerstvu

Sada da vidimo koje su tehnologije manje popularne u natječajima za inženjere podataka.
Najveći pad u usporedbi sa sektorom znanosti o podacima dogodio se u R: tamo se pojavio u otprilike 56% slobodnih radnih mjesta, ovdje - samo u 17%. Impresivan. R je programski jezik koji favoriziraju znanstvenici i statističari i osmi je jezik kojeg se najviše plaše u svijetu.

SAS također se znatno rjeđe nalazi u natječajima za radno mjesto data engineer - razlika je 14%. SAS je vlasnički jezik dizajniran za rad sa statistikom i podacima. Zanimljivost: sudeći po rezultatima moje istraživanje otvorenih radnih mjesta za podatkovne znanstvenike, u posljednje je vrijeme izgubila mnogo na tlu - više od bilo koje druge tehnologije.

Potražnja u podatkovnom inženjerstvu i podatkovnoj znanosti

Treba napomenuti da je osam od prvih deset pozicija u oba seta isto. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala dospjeli su među deset najboljih i za industriju podatkovnog inženjerstva i za industriju znanosti o podacima. Na grafikonu ispod možete vidjeti petnaest najpopularnijih tehnologija među poslodavcima podatkovnih inženjera, a pored njih je njihova stopa slobodnih radnih mjesta za podatkovne znanstvenike.

Najtraženije vještine u profesiji podatkovnog inženjera

Preporuke

Ako se želite baviti podatkovnim inženjerstvom, savjetovao bih vam da ovladate sljedećim tehnologijama - navodim ih po približnom redu prioriteta.

Naučite SQL. Naginjem prema PostgreSQL-u jer je otvorenog koda, vrlo popularan u zajednici i u fazi je rasta. Možete naučiti kako koristiti jezik iz knjige My Memorable SQL - dostupna je njena pilot verzija здесь.

Ovladajte Pythonom, čak i ako ne na najtežoj razini. My Memorable Python dizajniran je posebno za početnike. Može se kupiti na Amazon, elektronički ili fizički primjerak, po vašem izboru, ili preuzmite u pdf ili epub formatu na ovoj stranici.

Nakon što se upoznate s Pythonom, prijeđite na pandas, Python biblioteku koja se koristi za čišćenje i obradu podataka. Ako namjeravate raditi u tvrtki koja zahtijeva sposobnost pisanja na Pythonu (a to je većina njih), možete biti sigurni da će se poznavanje pandi podrazumijevati prema zadanim postavkama. Trenutno dovršavam uvodni vodič za rad s pandama - možete pretplatitikako ne bi propustio trenutak oslobađanja.

Master AWS. Ako želite postati podatkovni inženjer, ne možete bez cloud platforme u zalihi, a AWS je najpopularnija od njih. Tečajevi su mi puno pomogli Linux akademijakad sam studirao podatkovni inženjering na Google Cloudu, mislim da će i oni imati dobre materijale na AWS-u.

Ako ste već završili ovaj cijeli popis i želite dalje napredovati u očima poslodavaca kao podatkovni inženjer, predlažem da dodate Apache Spark za rad s velikim podacima. Iako je moje istraživanje o slobodnim radnim mjestima data scientista pokazalo pad interesa, među podatkovnim inženjerima on se i dalje pojavljuje na gotovo svakom drugom natječaju.

Konačno

Nadam se da vam je ovaj pregled najtraženijih tehnologija za podatkovne inženjere bio koristan. Ako se pitate kako stoje poslovi analitičara, pročitajte moj drugi članak. Sretno inženjerstvo!

Izvor: www.habr.com

Dodajte komentar