Nejžádanější dovednosti v profesi datového inženýra

Podle statistiky 2019, datový inženýr je v současnosti profesí, jejíž poptávka roste rychleji než kterákoli jiná. Datový inženýr hraje v organizaci klíčovou roli – vytváří a udržuje kanály a databáze, které se používají ke zpracování, transformaci a ukládání dat. Jaké dovednosti potřebují zástupci této profese především? Liší se seznam od toho, co se požaduje od datových vědců? O tom všem se dozvíte z mého článku.

Analyzoval jsem volná místa na pozici datového inženýra tak, jak jsou v lednu 2020, abych pochopil, které technologické dovednosti jsou nejoblíbenější. Poté jsem výsledky porovnal se statistikou volných míst na pozici data scientist – a objevily se zajímavé rozdíly.

Bez velkého preambule uvádíme deset nejlepších technologií, které jsou nejčastěji zmiňovány v pracovních nabídkách:

Nejžádanější dovednosti v profesi datového inženýra

Zmínka o technologiích na volných pozicích na pozici datový inženýr v roce 2020

Zjistíme to.

Povinnosti datového inženýra

Práce, kterou datoví inženýři dělají, má dnes pro organizace velký význam – jsou to lidé, kteří jsou zodpovědní za ukládání informací a jejich uvedení do takové podoby, aby s nimi mohli pracovat ostatní zaměstnanci. Datoví inženýři vytvářejí kanály pro streamování nebo dávkování dat z více zdrojů. Pipelines pak provádějí operace extrakce, transformace a načítání (jinými slovy ETL procesy), díky čemuž jsou data vhodnější pro další použití. Poté jsou data předána analytikům a datovým vědcům k hlubšímu zpracování. Nakonec data končí svou cestu v řídicích panelech, sestavách a modelech strojového učení.

Hledal jsem informace, které by mi umožnily vyvodit závěr o tom, jaké technologie jsou v současné době v práci datového inženýra nejžádanější.

Metody

Shromáždil jsem informace ze tří stránek pro hledání zaměstnání − Jednoduše najatý, Vskutku и Netvor a podíval se na to, jaká klíčová slova se ve spojení s „datovým inženýrem“ objevila v textech volných pracovních míst zaměřených na obyvatele USA. Pro tento úkol jsem použil dvě knihovny Pythonu − žádosti и Krásná polévka. Mezi klíčová slova jsem zařadil jak ta, která byla zařazena v předchozím seznamu pro analýzu volných míst na pozici data scientist, tak ta, která jsem ručně vybíral při čtení nabídek práce pro datové inženýry. LinkedIn nebyl zařazen do seznamu zdrojů, protože jsem tam byl zakázán po mém posledním pokusu sbírat data.

Pro každé klíčové slovo jsem vypočítal procento zásahů z celkového počtu textů na každém webu zvlášť a poté vypočítal průměr pro tři zdroje.

výsledky

Níže je uvedeno třicet technických datových inženýrských termínů s nejvyšším skóre na všech třech pracovištích.

Nejžádanější dovednosti v profesi datového inženýra

A zde jsou stejná čísla, ale prezentovaná ve formě tabulky:

Nejžádanější dovednosti v profesi datového inženýra

Pojďme do pořádku.

Přehled výsledků

Jak SQL, tak Python se objevují ve více než dvou třetinách kontrolovaných pracovních míst. Právě tyto dvě technologie má smysl studovat jako první. PYTHON je velmi oblíbený programovací jazyk používaný pro práci s daty, tvorbu webových stránek a psaní skriptů. SQL znamená Structured Query Language; zahrnuje standard implementovaný skupinou jazyků a používá se k získávání dat z relačních databází. Objevil se již dávno a osvědčil se jako vysoce odolný.

Jiskra je zmíněna zhruba v polovině volných míst. Apache Spark je „jednotný nástroj pro analýzu velkých dat s vestavěnými moduly pro streamování, SQL, strojové učení a zpracování grafů“. Oblíbený je zejména mezi těmi, kteří pracují s velkými databázemi.

AWS se objevuje přibližně ve 45 % pracovních nabídek. Jedná se o platformu cloud computingu vyráběnou společností Amazon; má největší podíl na trhu mezi všemi cloudovými platformami.
Dále následují Java a Hadoop – o něco více než 40 % pro jejich bratra. Jáva je široce mluvený, bitvami testovaný jazyk, který 2019 Stack Overflow Developer Survey získal desáté místo mezi jazyky, které mezi programátory vyvolávají hrůzu. Naproti tomu Python byl druhý nejoblíbenější jazyk. Jazyk Java provozuje Oracle a vše, co o něm potřebujete vědět, lze pochopit z tohoto snímku obrazovky oficiální stránky z ledna 2020.

Nejžádanější dovednosti v profesi datového inženýra

Je to jako jízda ve stroji času
Apache Hadoop používá programovací model MapReduce se serverovými clustery pro velká data. Nyní se od tohoto modelu stále více upouští.

Dále vidíme Hive, Scala, Kafka a NoSQL – každá z těchto technologií je zmíněna ve čtvrtině přihlášených volných míst. Apache Hive je software datového skladu, který „usnadňuje čtení, zápis a správu velkých datových sad umístěných v distribuovaných obchodech pomocí SQL“. Scala – programovací jazyk, který se aktivně používá při práci s velkými daty. Konkrétně Spark vznikl ve Scale. V již zmíněném žebříčku obávaných jazyků patří Scala jedenáctá příčka. Apache Kafka – distribuovaná platforma pro zpracování streamovaných zpráv. Velmi populární jako prostředek pro streamování dat.

NoSQL databáze kontrastují s SQL. Liší se tím, že jsou nerelační, nestrukturované a horizontálně škálovatelné. NoSQL si získal určitou popularitu, ale šílenství po tomto přístupu, dokonce až do té míry, že proroctví nahradí SQL jako dominantní paradigma úložiště, se zdá být u konce.

Srovnání s termíny na volných pozicích datových vědců

Zde je třicet nejběžnějších technologických termínů mezi zaměstnavateli datové vědy. Tento seznam jsem získal stejným způsobem, jak je popsáno výše pro datové inženýrství.

Nejžádanější dovednosti v profesi datového inženýra

Zmínky o technologii na volných místech na pozici data scientist v roce 2020

Pokud se budeme bavit o celkovém počtu, oproti dříve uvažovanému náboru bylo o 28 % více volných míst (12 013 versus 9396 XNUMX). Podívejme se, které technologie jsou na volných pozicích pro datové vědce méně obvyklé než pro datové inženýry.

Více populární v datovém inženýrství

Níže uvedený graf ukazuje klíčová slova s ​​průměrným rozdílem větším než 10 % nebo menším než -10 %.

Nejžádanější dovednosti v profesi datového inženýra

Největší rozdíly ve frekvenci klíčových slov mezi datovým inženýrem a datovým vědcem

Nejvýraznější nárůst vykazuje AWS: v datovém inženýrství se objevuje o 25 % pravidelněji než v datové vědě (cca 45 %, resp. 20 % z celkového počtu volných míst). Rozdíl je patrný!

Zde jsou stejná data v trochu jiném podání – v grafu jsou vedle sebe umístěny výsledky pro stejné klíčové slovo na volných pozicích na pozici datový inženýr a datový vědec.

Nejžádanější dovednosti v profesi datového inženýra

Největší rozdíly ve frekvenci klíčových slov mezi datovým inženýrem a datovým vědcem

Další největší skok, který jsem zaznamenal, byl ve Sparku – datový inženýr musí často pracovat s velkými daty. Kafka také vzrostly o 20 %, tedy téměř čtyřnásobně ve srovnání s výsledkem pro volná místa datových vědců. Přenos dat je jednou z klíčových povinností datového inženýra. Nakonec byl počet zmínek o 15 % vyšší v oblasti datového inženýrství pro Java, NoSQL, Redshift, SQL a Hadoop.

Méně populární v datovém inženýrství

Nyní se podívejme, které technologie jsou na volných pozicích datových inženýrů méně oblíbené.
K nejprudšímu poklesu ve srovnání se sektorem datové vědy došlo v roce R: tam se objevil v přibližně 56 % volných míst, zde pouze v 17 %. Impozantní. R je programovací jazyk, který je oblíbený mezi vědci a statistiky a je osmým nejobávanějším jazykem na světě.

SAS se také nachází na volných místech na pozici datový inženýr výrazně méně často – rozdíl je 14 %. SAS je proprietární jazyk určený pro práci se statistikami a daty. Zajímavý bod: soudě podle výsledků můj výzkum pracovních nabídek pro datové vědce, v poslední době hodně ztratila půdu pod nohama – více než kterákoli jiná technologie.

Žádané jak v datovém inženýrství, tak v datové vědě

Nutno podotknout, že osm z prvních deseti pozic v obou setech je stejných. SQL, Python, Spark, AWS, Java, Hadoop, Hive a Scala se dostaly do první desítky v oblasti datového inženýrství a datové vědy. V grafu níže vidíte patnáct nejoblíbenějších technologií mezi zaměstnavateli datových inženýrů a vedle nich je jejich neobsazenost pro datové vědce.

Nejžádanější dovednosti v profesi datového inženýra

Doporučení

Pokud se chcete dostat do datového inženýrství, doporučil bych vám zvládnout následující technologie – uvádím je v pořadí podle přibližné priority.

Naučte se SQL. Přikláním se k PostgreSQL, protože je to open source, velmi populární v komunitě a je ve fázi růstu. Jak jazyk používat, se dozvíte z knihy My Memorable SQL – je k dispozici její pilotní verze zde.

Ovládněte Python, i když ne na té nejtvrdší úrovni. My Memorable Python je navržen speciálně pro začátečníky. Lze jej zakoupit na Amazonka, elektronická nebo fyzická kopie, dle vašeho výběru, nebo si ji stáhněte ve formátu pdf nebo epub na této stránce.

Jakmile se seznámíte s Pythonem, přejděte na pandas, knihovnu Pythonu, která se používá pro čištění a zpracování dat. Pokud se chystáte pracovat ve společnosti, která vyžaduje schopnost psát v Pythonu (a to je většina z nich), můžete si být jisti, že znalost pand bude standardně předpokládána. Momentálně dokončuji úvodní návod na práci s pandami – můžete přihlásit se k odběruaby nepromeškal okamžik uvolnění.

Mistr AWS. Pokud se chcete stát datovým inženýrem, neobejdete se bez cloudové platformy a AWS je nejoblíbenější z nich. Kurzy mi hodně pomohly Linux Academykdyž jsem studoval datové inženýrství na Google Cloud, myslím, že dobré materiály budou mít i na AWS.

Pokud jste již dokončili celý tento seznam a chcete dále růst v očích zaměstnavatelů jako datový inženýr, doporučuji přidat Apache Spark pro práci s velkými daty. Přestože můj výzkum o volných pozicích datových vědců ukázal pokles zájmu, mezi datovými inženýry se stále objevuje téměř na každém druhém volném místě.

Konečně

Doufám, že vám byl tento přehled nejžádanějších technologií pro datové inženýry užitečný. Pokud vás zajímá, jak se daří práci analytiků, čtěte můj další článek. Šťastné inženýrství!

Zdroj: www.habr.com

Přidat komentář