Najžiadanejšie zručnosti v profesii dátového inžiniera

Podľa štatistiky 2019, dátový inžinier je v súčasnosti profesiou, ktorej dopyt rastie rýchlejšie ako ktorákoľvek iná. Dátový inžinier zohráva v organizácii kľúčovú úlohu – vytvára a udržiava kanály a databázy, ktoré sa používajú na spracovanie, transformáciu a ukladanie údajov. Aké zručnosti potrebujú predstavitelia tejto profesie predovšetkým? Líši sa zoznam od toho, čo sa vyžaduje od vedcov údajov? O tom všetkom sa dozviete z môjho článku.

Analyzoval som voľné pracovné miesta na pozíciu dátového inžiniera v januári 2020, aby som pochopil, ktoré technologické zručnosti sú najobľúbenejšie. Potom som porovnal výsledky so štatistikou voľných pracovných miest na pozícii data scientist – a objavili sa zaujímavé rozdiely.

Bez veľkého úvodu uvádzame desať najlepších technológií, ktoré sa najčastejšie spomínajú v pracovných pozíciách:

Najžiadanejšie zručnosti v profesii dátového inžiniera

Zmienka o technológiách na voľných pozíciách na pozíciu dátový inžinier v roku 2020

Poďme pochopiť.

Zodpovednosti dátového inžiniera

Práca, ktorú robia dátoví inžinieri, má dnes pre organizácie veľký význam – sú to ľudia, ktorí sú zodpovední za ukladanie informácií a ich uvedenie do takej podoby, aby s nimi mohli pracovať aj ostatní zamestnanci. Dátoví inžinieri vytvárajú kanály na streamovanie alebo dávkovanie údajov z viacerých zdrojov. Pipelines potom vykonávajú operácie extrakcie, transformácie a načítania (inými slovami procesy ETL), vďaka čomu sú údaje vhodnejšie na ďalšie použitie. Potom sa údaje predložia analytikom a vedcom údajov na hlbšie spracovanie. Nakoniec údaje končia svoju cestu v informačných paneloch, zostavách a modeloch strojového učenia.

Hľadal som informácie, ktoré by mi umožnili vyvodiť záver o tom, ktoré technológie sú v súčasnosti v práci dátového inžiniera najžiadanejšie.

metódy

Zhromaždil som informácie z troch stránok na hľadanie zamestnania − Jednoducho najatý, Naozaj и Príšera a pozreli sa, aké kľúčové slová sa vyskytli v spojení s výrazom „údajový inžinier“ v textoch voľných pracovných miest zameraných na obyvateľov USA. Na túto úlohu som použil dve knižnice Pythonu − žiadosti и Krásna polievka. Medzi kľúčové slová som zaradil tak tie, ktoré boli zaradené do predchádzajúceho zoznamu na analýzu voľných pozícií na pozíciu data scientist, ako aj tie, ktoré som manuálne vyberal pri čítaní pracovných ponúk pre dátových inžinierov. LinkedIn nebol zahrnutý v zozname zdrojov, pretože som tam bol zakázaný po mojom poslednom pokuse o zhromažďovanie údajov.

Pre každé kľúčové slovo som vypočítal percento zásahov z celkového počtu textov na každej stránke zvlášť a následne som vypočítal priemer pre tri zdroje.

výsledky

Nižšie je uvedených tridsať technických termínov inžinierstva údajov s najvyšším skóre na všetkých troch pracoviskách.

Najžiadanejšie zručnosti v profesii dátového inžiniera

A tu sú rovnaké čísla, ale uvedené vo forme tabuľky:

Najžiadanejšie zručnosti v profesii dátového inžiniera

Poďme pekne po poriadku.

Prehľad výsledkov

SQL aj Python sa objavujú vo viac ako dvoch tretinách kontrolovaných pracovných miest. Práve tieto dve technológie má zmysel študovať ako prvé. Pytón je veľmi populárny programovací jazyk používaný na prácu s údajmi, vytváranie webových stránok a písanie skriptov. SQL znamená Structured Query Language; zahŕňa štandard implementovaný skupinou jazykov a používa sa na získavanie údajov z relačných databáz. Objavil sa už dávno a osvedčil sa ako vysoko odolný.

Spark sa spomína približne v polovici voľných miest. Apache Spark je „jednotný nástroj na analýzu veľkých dát so vstavanými modulmi na streamovanie, SQL, strojové učenie a spracovanie grafov“. Obľúbený je najmä medzi tými, ktorí pracujú s veľkými databázami.

AWS sa objavuje v približne 45 % pracovných ponúk. Ide o platformu cloud computingu vyrábanú spoločnosťou Amazon; má najväčší podiel na trhu spomedzi všetkých cloudových platforiem.
Ďalej nasledujú Java a Hadoop - o niečo viac ako 40% pre ich brata. Jáva je široko používaný, bitkami testovaný jazyk, ktorý 2019 Prieskum pre vývojárov Stack Overflow získal desiate miesto medzi jazykmi, ktoré vyvolávajú hrôzu medzi programátormi. Naopak, Python bol druhý najobľúbenejší jazyk. Jazyk Java prevádzkuje spoločnosť Oracle a všetko, čo o ňom potrebujete vedieť, môžete pochopiť z tejto snímky oficiálnej stránky z januára 2020.

Najžiadanejšie zručnosti v profesii dátového inžiniera

Je to ako jazdiť v stroji času
Apache Hadoop používa programovací model MapReduce so serverovými klastrami pre veľké dáta. Teraz sa od tohto modelu čoraz viac upúšťa.

Potom vidíme Hive, Scala, Kafka a NoSQL – každá z týchto technológií je uvedená v štvrtine prihlásených voľných pozícií. Apache Hive je softvér na skladovanie údajov, ktorý „uľahčuje čítanie, zápis a správu veľkých súborov údajov umiestnených v distribuovaných obchodoch pomocou SQL“. Scala – programovací jazyk, ktorý sa aktívne používa pri práci s veľkými dátami. Najmä Spark vznikol v Scale. V už spomínanom rebríčku obávaných jazykov patrí Scala jedenásta priečka. Apache Kafka – distribuovaná platforma na spracovanie streamovaných správ. Veľmi populárny ako prostriedok na streamovanie dát.

NoSQL databázy kontrastujú s SQL. Líšia sa tým, že sú nerelačné, neštruktúrované a horizontálne škálovateľné. NoSQL si získal určitú popularitu, ale ošiaľ tohto prístupu, dokonca až do bodu proroctiev, že nahradí SQL ako dominantnú paradigmu ukladania, sa zdá byť u konca.

Porovnanie s termínmi na voľných pozíciách dátových vedcov

Tu je tridsať najbežnejších technologických výrazov medzi zamestnávateľmi v oblasti dátovej vedy. Tento zoznam som získal rovnakým spôsobom, ako je opísané vyššie pre dátové inžinierstvo.

Najžiadanejšie zručnosti v profesii dátového inžiniera

Zmienky o technológiách na voľných pozíciách na pozíciu data scientist v roku 2020

Ak hovoríme o celkovom počte, v porovnaní s doteraz uvažovaným náborom bolo o 28 % viac voľných pracovných miest (12 013 oproti 9396 XNUMX). Pozrime sa, ktoré technológie sú menej bežné na voľných pozíciách pre dátových vedcov ako pre dátových inžinierov.

Populárnejšie v dátovom inžinierstve

Nižšie uvedený graf zobrazuje kľúčové slová s priemerným rozdielom väčším ako 10 % alebo menším ako –10 %.

Najžiadanejšie zručnosti v profesii dátového inžiniera

Najväčšie rozdiely vo frekvencii kľúčových slov medzi dátovým inžinierom a dátovým vedcom

Najvýraznejší nárast vykazuje AWS: v dátovom inžinierstve sa objavuje o 25 % pravidelnejšie ako v dátovej vede (približne 45 % a 20 % z celkového počtu voľných pracovných miest). Rozdiel je badateľný!

Tu sú rovnaké údaje v trochu inom podaní – v grafe sú vedľa seba umiestnené výsledky pre rovnaké kľúčové slovo na voľných pozíciách na pozícii dátový inžinier a dátový vedec.

Najžiadanejšie zručnosti v profesii dátového inžiniera

Najväčšie rozdiely vo frekvencii kľúčových slov medzi dátovým inžinierom a dátovým vedcom

Ďalší najväčší skok, ktorý som zaznamenal, bol v Sparku – dátový inžinier musí často pracovať s veľkými dátami. Kafka sa tiež zvýšili o 20 %, teda takmer štvornásobne v porovnaní s výsledkom pre voľné pracovné miesta dátových vedcov. Prenos dát je jednou z kľúčových povinností dátového inžiniera. Napokon, počet zmienok bol o 15 % vyšší v oblasti dátového inžinierstva pre Java, NoSQL, Redshift, SQL a Hadoop.

Menej populárne v dátovom inžinierstve

Teraz sa pozrime, ktoré technológie sú menej populárne na voľných pozíciách dátových inžinierov.
Najprudší pokles v porovnaní so sektorom dátovej vedy nastal v r R: tam sa objavil v približne 56 % voľných pracovných miest, tu iba v 17 %. Pôsobivé. R je programovací jazyk, ktorý uprednostňujú vedci a štatistici a je ôsmym najobávanejším jazykom na svete.

SAS sa nachádza aj na voľných pozíciách na pozíciu dátový inžinier podstatne menej často – rozdiel je 14 %. SAS je proprietárny jazyk určený na prácu so štatistikami a údajmi. Zaujímavý bod: súdiac podľa výsledkov môj výskum pracovných ponúk pre dátových vedcov, nedávno stratila veľa pôdy – viac ako ktorákoľvek iná technológia.

Žiadaný v dátovom inžinierstve aj v dátovej vede

Treba si uvedomiť, že osem z prvých desiatich pozícií v oboch setoch je rovnakých. SQL, Python, Spark, AWS, Java, Hadoop, Hive a Scala sa dostali do prvej desiatky v oblasti dátového inžinierstva a dátovej vedy. V grafe nižšie vidíte pätnásť najpopulárnejších technológií medzi zamestnávateľmi dátových inžinierov a vedľa nich je ich miera neobsadenosti dátových vedcov.

Najžiadanejšie zručnosti v profesii dátového inžiniera

Odporúčanie

Ak sa chcete dostať do dátového inžinierstva, poradil by som vám, aby ste si osvojili nasledujúce technológie – uvádzam ich v poradí podľa približnej priority.

Naučte sa SQL. Prikláňam sa k PostgreSQL, pretože je to open source, veľmi populárny v komunite a je vo fáze rastu. Ako používať jazyk sa dozviete z knihy My Memorable SQL – je k dispozícii jej pilotná verzia tu.

Majster Python, aj keď nie na tej najtvrdšej úrovni. My Memorable Python je navrhnutý špeciálne pre začiatočníkov. Dá sa kúpiť na Amazonka, elektronická alebo fyzická kópia podľa vlastného výberu alebo si ju stiahnite vo formáte pdf alebo epub na tejto stránke.

Keď sa zoznámite s Pythonom, prejdite na pandas, knižnicu Pythonu, ktorá sa používa na čistenie a spracovanie údajov. Ak sa chystáte pracovať v spoločnosti, ktorá vyžaduje schopnosť písať v jazyku Python (a to je väčšina z nich), môžete si byť istí, že znalosť pandy sa bude štandardne predpokladať. Momentálne dokončujem úvodný návod na prácu s pandami – môžete predplatiťaby ste nepremeškali moment uvoľnenia.

Majster AWS. Ak sa chcete stať dátovým inžinierom, bez cloudovej platformy sa nezaobídete a AWS je z nich najobľúbenejšia. Kurzy mi veľmi pomohli Linux Academykeď som študoval dátové inžinierstvo v službe Google Cloud, myslim ze aj na AWS budu mat dobre materialy.

Ak ste už dokončili celý tento zoznam a chcete ďalej rásť v očiach zamestnávateľov ako dátový inžinier, navrhujem pridať Apache Spark pre prácu s veľkými dátami. Hoci môj výskum o voľných pozíciách dátových vedcov ukázal pokles záujmu, medzi dátovými inžiniermi sa stále objavuje takmer na každom druhom voľnom mieste.

Konečne

Dúfam, že vám bol tento prehľad najžiadanejších technológií pre dátových inžinierov užitočný. Ak vás zaujíma, ako sa darí prácam analytikov, čítajte môj ďalší článok. Šťastné inžinierstvo!

Zdroj: hab.com

Pridať komentár