Podle
Analyzoval jsem volná místa na pozici datového inženýra tak, jak jsou v lednu 2020, abych pochopil, které technologické dovednosti jsou nejoblíbenější. Poté jsem výsledky porovnal se statistikou volných míst na pozici data scientist – a objevily se zajímavé rozdíly.
Bez velkého preambule uvádíme deset nejlepších technologií, které jsou nejčastěji zmiňovány v pracovních nabídkách:
Zmínka o technologiích na volných pozicích na pozici datový inženýr v roce 2020
Povinnosti datového inženýra
Práce, kterou datoví inženýři dělají, má dnes pro organizace velký význam – jsou to lidé, kteří jsou zodpovědní za ukládání informací a jejich uvedení do takové podoby, aby s nimi mohli pracovat ostatní zaměstnanci. Datoví inženýři vytvářejí kanály pro streamování nebo dávkování dat z více zdrojů. Pipelines pak provádějí operace extrakce, transformace a načítání (jinými slovy ETL procesy), díky čemuž jsou data vhodnější pro další použití. Poté jsou data předána analytikům a datovým vědcům k hlubšímu zpracování. Nakonec data končí svou cestu v řídicích panelech, sestavách a modelech strojového učení.
Hledal jsem informace, které by mi umožnily vyvodit závěr o tom, jaké technologie jsou v současné době v práci datového inženýra nejžádanější.
Metody
Shromáždil jsem informace ze tří stránek pro hledání zaměstnání −
Pro každé klíčové slovo jsem vypočítal procento zásahů z celkového počtu textů na každém webu zvlášť a poté vypočítal průměr pro tři zdroje.
výsledky
Níže je uvedeno třicet technických datových inženýrských termínů s nejvyšším skóre na všech třech pracovištích.
A zde jsou stejná čísla, ale prezentovaná ve formě tabulky:
Pojďme do pořádku.
Přehled výsledků
Jak SQL, tak Python se objevují ve více než dvou třetinách kontrolovaných pracovních míst. Právě tyto dvě technologie má smysl studovat jako první.
Jiskra je zmíněna zhruba v polovině volných míst.
AWS se objevuje přibližně ve 45 % pracovních nabídek. Jedná se o platformu cloud computingu vyráběnou společností Amazon; má největší podíl na trhu mezi všemi cloudovými platformami.
Dále následují Java a Hadoop – o něco více než 40 % pro jejich bratra.
Je to jako jízda ve stroji času
Dále vidíme Hive, Scala, Kafka a NoSQL – každá z těchto technologií je zmíněna ve čtvrtině přihlášených volných míst. Apache Hive je software datového skladu, který „usnadňuje čtení, zápis a správu velkých datových sad umístěných v distribuovaných obchodech pomocí SQL“.
Srovnání s termíny na volných pozicích datových vědců
Zde je třicet nejběžnějších technologických termínů mezi zaměstnavateli datové vědy. Tento seznam jsem získal stejným způsobem, jak je popsáno výše pro datové inženýrství.
Zmínky o technologii na volných místech na pozici data scientist v roce 2020
Pokud se budeme bavit o celkovém počtu, oproti dříve uvažovanému náboru bylo o 28 % více volných míst (12 013 versus 9396 XNUMX). Podívejme se, které technologie jsou na volných pozicích pro datové vědce méně obvyklé než pro datové inženýry.
Více populární v datovém inženýrství
Níže uvedený graf ukazuje klíčová slova s průměrným rozdílem větším než 10 % nebo menším než -10 %.
Největší rozdíly ve frekvenci klíčových slov mezi datovým inženýrem a datovým vědcem
Nejvýraznější nárůst vykazuje AWS: v datovém inženýrství se objevuje o 25 % pravidelněji než v datové vědě (cca 45 %, resp. 20 % z celkového počtu volných míst). Rozdíl je patrný!
Zde jsou stejná data v trochu jiném podání – v grafu jsou vedle sebe umístěny výsledky pro stejné klíčové slovo na volných pozicích na pozici datový inženýr a datový vědec.
Největší rozdíly ve frekvenci klíčových slov mezi datovým inženýrem a datovým vědcem
Další největší skok, který jsem zaznamenal, byl ve Sparku – datový inženýr musí často pracovat s velkými daty.
Méně populární v datovém inženýrství
Nyní se podívejme, které technologie jsou na volných pozicích datových inženýrů méně oblíbené.
K nejprudšímu poklesu ve srovnání se sektorem datové vědy došlo v roce
Žádané jak v datovém inženýrství, tak v datové vědě
Nutno podotknout, že osm z prvních deseti pozic v obou setech je stejných. SQL, Python, Spark, AWS, Java, Hadoop, Hive a Scala se dostaly do první desítky v oblasti datového inženýrství a datové vědy. V grafu níže vidíte patnáct nejoblíbenějších technologií mezi zaměstnavateli datových inženýrů a vedle nich je jejich neobsazenost pro datové vědce.
Doporučení
Pokud se chcete dostat do datového inženýrství, doporučil bych vám zvládnout následující technologie – uvádím je v pořadí podle přibližné priority.
Naučte se SQL. Přikláním se k PostgreSQL, protože je to open source, velmi populární v komunitě a je ve fázi růstu. Jak jazyk používat, se dozvíte z knihy My Memorable SQL – je k dispozici její pilotní verze
Ovládněte Python, i když ne na té nejtvrdší úrovni. My Memorable Python je navržen speciálně pro začátečníky. Lze jej zakoupit na
Jakmile se seznámíte s Pythonem, přejděte na pandas, knihovnu Pythonu, která se používá pro čištění a zpracování dat. Pokud se chystáte pracovat ve společnosti, která vyžaduje schopnost psát v Pythonu (a to je většina z nich), můžete si být jisti, že znalost pand bude standardně předpokládána. Momentálně dokončuji úvodní návod na práci s pandami – můžete
Mistr AWS. Pokud se chcete stát datovým inženýrem, neobejdete se bez cloudové platformy a AWS je nejoblíbenější z nich. Kurzy mi hodně pomohly
Pokud jste již dokončili celý tento seznam a chcete dále růst v očích zaměstnavatelů jako datový inženýr, doporučuji přidat Apache Spark pro práci s velkými daty. Přestože můj výzkum o volných pozicích datových vědců ukázal pokles zájmu, mezi datovými inženýry se stále objevuje téměř na každém druhém volném místě.
Konečně
Doufám, že vám byl tento přehled nejžádanějších technologií pro datové inženýry užitečný. Pokud vás zajímá, jak se daří práci analytiků, čtěte
Zdroj: www.habr.com