Według
Przeanalizowałem oferty pracy na stanowisku inżyniera danych w styczniu 2020 roku, aby dowiedzieć się, które umiejętności technologiczne są najpopularniejsze. Następnie porównałem wyniki ze statystykami dotyczącymi wakatów na stanowisko analityka danych – i wyszło kilka ciekawych różnic.
Bez większego wstępu, oto dziesięć technologii, o których najczęściej wspomina się w ogłoszeniach o pracę:
Wzmianka o technologiach w naborach na stanowisko inżyniera danych w 2020 roku
Obowiązki inżyniera danych
Dziś praca, którą wykonują inżynierowie danych, ma ogromne znaczenie dla organizacji – to właśnie ludzie odpowiadają za przechowywanie informacji i doprowadzenie ich do takiej formy, aby inni pracownicy mogli z nimi pracować. Inżynierowie danych budują potoki do przesyłania strumieniowego lub wsadowego danych z wielu źródeł. Następnie potoki wykonują operacje ekstrakcji, transformacji i ładowania (innymi słowy procesy ETL), dzięki czemu dane są bardziej przydatne do dalszego wykorzystania. Następnie dane są przekazywane analitykom i badaczom danych w celu głębszego przetworzenia. Wreszcie dane kończą swoją podróż w dashboardach, raportach i modelach uczenia maszynowego.
Szukałem informacji, które pozwoliłyby mi wyciągnąć wnioski, na jakie technologie jest obecnie największe zapotrzebowanie w pracy inżyniera danych.
Metody
Zebrałem informacje z trzech portali oferujących oferty pracy
Dla każdego słowa kluczowego obliczyłem procent trafień z całkowitej liczby tekstów w każdym serwisie z osobna, a następnie obliczyłem średnią dla trzech źródeł.
wyniki
Poniżej znajduje się trzydzieści terminów związanych z inżynierią danych technicznych, które uzyskały najwyższe wyniki we wszystkich trzech miejscach pracy.
A oto te same liczby, ale przedstawione w formie tabeli:
Chodźmy w porządku.
Przegląd wyników
Zarówno SQL, jak i Python pojawiają się w ponad dwóch trzecich przeglądanych ofert pracy. To właśnie te dwie technologie mają sens studiować w pierwszej kolejności.
Spark jest wymieniany w około połowie wakatów.
AWS pojawia się w około 45% ogłoszeń o pracę. Jest to platforma przetwarzania w chmurze wyprodukowana przez firmę Amazon; ma największy udział w rynku spośród wszystkich platform chmurowych.
Następne są Java i Hadoop – nieco ponad 40% w przypadku ich brata.
To jak podróż wehikułem czasu
Następnie widzimy Hive, Scala, Kafka i NoSQL – każda z tych technologii jest wymieniana w jednej czwartej zgłoszonych ofert pracy. Apache Hive to oprogramowanie do hurtowni danych, które „ułatwia odczytywanie, zapisywanie i zarządzanie dużymi zbiorami danych znajdującymi się w rozproszonych sklepach przy użyciu języka SQL”.
Porównanie z warunkami pracy na stanowiskach analityków danych
Oto trzydzieści terminów technologicznych najczęściej spotykanych wśród pracodawców zajmujących się analityką danych. Listę tę uzyskałem w taki sam sposób, jak opisano powyżej w przypadku inżynierii danych.
Wzmianki o technologii w naborach na stanowisko data science w 2020 roku
Jeśli mówimy o liczbie ogólnej, w porównaniu do wcześniej rozważanych rekrutacji, wakatów było o 28% więcej (12 013 wobec 9396 XNUMX). Zobaczmy, które technologie są mniej powszechne na stanowiskach pracy dla analityków danych niż dla inżynierów danych.
Bardziej popularne w inżynierii danych
Poniższy wykres przedstawia słowa kluczowe ze średnią różnicą większą niż 10% lub mniejszą niż -10%.
Największe różnice w częstotliwości słów kluczowych pomiędzy inżynierem danych a analitykiem danych
Najbardziej znaczący wzrost wykazuje AWS: w inżynierii danych pojawia się on o 25% częściej niż w data science (odpowiednio około 45% i 20% ogólnej liczby wakatów). Różnica jest zauważalna!
Tutaj te same dane w nieco innej prezentacji - na wykresie obok siebie znajdują się wyniki dla tego samego słowa kluczowego w ofertach pracy na stanowiska inżyniera danych i analityka danych.
Największe różnice w częstotliwości słów kluczowych pomiędzy inżynierem danych a analitykiem danych
Następny największy skok, jaki zauważyłem, nastąpił w Sparku – inżynier danych często musi pracować z dużymi zbiorami danych.
Mniej popularne w inżynierii danych
Zobaczmy teraz, które technologie są mniej popularne na stanowiskach inżynierów danych.
Najostrzejszy spadek w porównaniu z sektorem data science nastąpił w roku
Jest poszukiwany zarówno w inżynierii danych, jak i nauce o danych
Warto zaznaczyć, że osiem z pierwszych dziesięciu pozycji w obu zestawach jest takich samych. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala znalazły się w pierwszej dziesiątce zarówno w branży inżynierii danych, jak i nauki o danych. Na poniższym wykresie możesz zobaczyć piętnaście najpopularniejszych technologii wśród pracodawców zajmujących się inżynierią danych, a obok nich wskaźnik wakatów dla analityków danych.
zalecenia
Jeśli chcesz zająć się inżynierią danych, radzę opanować następujące technologie - wymieniam je w kolejności przybliżonego priorytetu.
Naucz się SQL'a. Skłaniam się ku PostgreSQL, ponieważ jest to oprogramowanie typu open source, bardzo popularne w społeczności i znajduje się w fazie wzrostu. O tym, jak posługiwać się językiem, możesz dowiedzieć się z książki Mój Memorable SQL – dostępna jest jej wersja pilotażowa
Opanuj Pythona, nawet jeśli nie na najbardziej hardkorowym poziomie. My Memorable Python został zaprojektowany specjalnie dla początkujących. Można go kupić pod adresem
Kiedy już zaznajomisz się z Pythonem, przejdź do pandas, biblioteki Pythona używanej do czyszczenia i przetwarzania danych. Jeśli Twoim celem jest praca w firmie, która wymaga umiejętności pisania w Pythonie (a jest ich większość), możesz być pewien, że domyślnie zostanie przyjęta znajomość pand. Aktualnie kończę wprowadzający przewodnik po pracy z pandami – da się
Mistrz AWS-a. Jeśli chcesz zostać inżynierem danych, nie możesz obejść się bez platformy chmurowej w skrytce, a AWS jest z nich najpopularniejszym. Kursy bardzo mi pomogły
Jeśli skompletowałeś już całą tę listę i chcesz dalej rozwijać się w oczach pracodawców jako inżynier danych, sugeruję dodanie Apache Spark do pracy z big data. Choć moje badania dotyczące wakatów na stanowisko analityka danych wykazały spadek zainteresowania, wśród inżynierów danych w dalszym ciągu pojawia się ono na prawie co drugim wakacie.
W końcu
Mam nadzieję, że ten przegląd technologii najbardziej poszukiwanych przez inżynierów danych był dla Ciebie przydatny. Jeśli zastanawiasz się, jak radzą sobie stanowiska analityków, przeczytaj
Źródło: www.habr.com