Podľa
Analyzoval som voľné pracovné miesta na pozíciu dátového inžiniera v januári 2020, aby som pochopil, ktoré technologické zručnosti sú najobľúbenejšie. Potom som porovnal výsledky so štatistikou voľných pracovných miest na pozícii data scientist – a objavili sa zaujímavé rozdiely.
Bez veľkého úvodu uvádzame desať najlepších technológií, ktoré sa najčastejšie spomínajú v pracovných pozíciách:
Zmienka o technológiách na voľných pozíciách na pozíciu dátový inžinier v roku 2020
Zodpovednosti dátového inžiniera
Práca, ktorú robia dátoví inžinieri, má dnes pre organizácie veľký význam – sú to ľudia, ktorí sú zodpovední za ukladanie informácií a ich uvedenie do takej podoby, aby s nimi mohli pracovať aj ostatní zamestnanci. Dátoví inžinieri vytvárajú kanály na streamovanie alebo dávkovanie údajov z viacerých zdrojov. Pipelines potom vykonávajú operácie extrakcie, transformácie a načítania (inými slovami procesy ETL), vďaka čomu sú údaje vhodnejšie na ďalšie použitie. Potom sa údaje predložia analytikom a vedcom údajov na hlbšie spracovanie. Nakoniec údaje končia svoju cestu v informačných paneloch, zostavách a modeloch strojového učenia.
Hľadal som informácie, ktoré by mi umožnili vyvodiť záver o tom, ktoré technológie sú v súčasnosti v práci dátového inžiniera najžiadanejšie.
metódy
Zhromaždil som informácie z troch stránok na hľadanie zamestnania −
Pre každé kľúčové slovo som vypočítal percento zásahov z celkového počtu textov na každej stránke zvlášť a následne som vypočítal priemer pre tri zdroje.
výsledky
Nižšie je uvedených tridsať technických termínov inžinierstva údajov s najvyšším skóre na všetkých troch pracoviskách.
A tu sú rovnaké čísla, ale uvedené vo forme tabuľky:
Poďme pekne po poriadku.
Prehľad výsledkov
SQL aj Python sa objavujú vo viac ako dvoch tretinách kontrolovaných pracovných miest. Práve tieto dve technológie má zmysel študovať ako prvé.
Spark sa spomína približne v polovici voľných miest.
AWS sa objavuje v približne 45 % pracovných ponúk. Ide o platformu cloud computingu vyrábanú spoločnosťou Amazon; má najväčší podiel na trhu spomedzi všetkých cloudových platforiem.
Ďalej nasledujú Java a Hadoop - o niečo viac ako 40% pre ich brata.
Je to ako jazdiť v stroji času
Potom vidíme Hive, Scala, Kafka a NoSQL – každá z týchto technológií je uvedená v štvrtine prihlásených voľných pozícií. Apache Hive je softvér na skladovanie údajov, ktorý „uľahčuje čítanie, zápis a správu veľkých súborov údajov umiestnených v distribuovaných obchodoch pomocou SQL“.
Porovnanie s termínmi na voľných pozíciách dátových vedcov
Tu je tridsať najbežnejších technologických výrazov medzi zamestnávateľmi v oblasti dátovej vedy. Tento zoznam som získal rovnakým spôsobom, ako je opísané vyššie pre dátové inžinierstvo.
Zmienky o technológiách na voľných pozíciách na pozíciu data scientist v roku 2020
Ak hovoríme o celkovom počte, v porovnaní s doteraz uvažovaným náborom bolo o 28 % viac voľných pracovných miest (12 013 oproti 9396 XNUMX). Pozrime sa, ktoré technológie sú menej bežné na voľných pozíciách pre dátových vedcov ako pre dátových inžinierov.
Populárnejšie v dátovom inžinierstve
Nižšie uvedený graf zobrazuje kľúčové slová s priemerným rozdielom väčším ako 10 % alebo menším ako –10 %.
Najväčšie rozdiely vo frekvencii kľúčových slov medzi dátovým inžinierom a dátovým vedcom
Najvýraznejší nárast vykazuje AWS: v dátovom inžinierstve sa objavuje o 25 % pravidelnejšie ako v dátovej vede (približne 45 % a 20 % z celkového počtu voľných pracovných miest). Rozdiel je badateľný!
Tu sú rovnaké údaje v trochu inom podaní – v grafe sú vedľa seba umiestnené výsledky pre rovnaké kľúčové slovo na voľných pozíciách na pozícii dátový inžinier a dátový vedec.
Najväčšie rozdiely vo frekvencii kľúčových slov medzi dátovým inžinierom a dátovým vedcom
Ďalší najväčší skok, ktorý som zaznamenal, bol v Sparku – dátový inžinier musí často pracovať s veľkými dátami.
Menej populárne v dátovom inžinierstve
Teraz sa pozrime, ktoré technológie sú menej populárne na voľných pozíciách dátových inžinierov.
Najprudší pokles v porovnaní so sektorom dátovej vedy nastal v r
Žiadaný v dátovom inžinierstve aj v dátovej vede
Treba si uvedomiť, že osem z prvých desiatich pozícií v oboch setoch je rovnakých. SQL, Python, Spark, AWS, Java, Hadoop, Hive a Scala sa dostali do prvej desiatky v oblasti dátového inžinierstva a dátovej vedy. V grafe nižšie vidíte pätnásť najpopulárnejších technológií medzi zamestnávateľmi dátových inžinierov a vedľa nich je ich miera neobsadenosti dátových vedcov.
Odporúčanie
Ak sa chcete dostať do dátového inžinierstva, poradil by som vám, aby ste si osvojili nasledujúce technológie – uvádzam ich v poradí podľa približnej priority.
Naučte sa SQL. Prikláňam sa k PostgreSQL, pretože je to open source, veľmi populárny v komunite a je vo fáze rastu. Ako používať jazyk sa dozviete z knihy My Memorable SQL – je k dispozícii jej pilotná verzia
Majster Python, aj keď nie na tej najtvrdšej úrovni. My Memorable Python je navrhnutý špeciálne pre začiatočníkov. Dá sa kúpiť na
Keď sa zoznámite s Pythonom, prejdite na pandas, knižnicu Pythonu, ktorá sa používa na čistenie a spracovanie údajov. Ak sa chystáte pracovať v spoločnosti, ktorá vyžaduje schopnosť písať v jazyku Python (a to je väčšina z nich), môžete si byť istí, že znalosť pandy sa bude štandardne predpokladať. Momentálne dokončujem úvodný návod na prácu s pandami – môžete
Majster AWS. Ak sa chcete stať dátovým inžinierom, bez cloudovej platformy sa nezaobídete a AWS je z nich najobľúbenejšia. Kurzy mi veľmi pomohli
Ak ste už dokončili celý tento zoznam a chcete ďalej rásť v očiach zamestnávateľov ako dátový inžinier, navrhujem pridať Apache Spark pre prácu s veľkými dátami. Hoci môj výskum o voľných pozíciách dátových vedcov ukázal pokles záujmu, medzi dátovými inžiniermi sa stále objavuje takmer na každom druhom voľnom mieste.
Konečne
Dúfam, že vám bol tento prehľad najžiadanejších technológií pre dátových inžinierov užitočný. Ak vás zaujíma, ako sa darí prácam analytikov, čítajte
Zdroj: hab.com