Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Według statystyki 2019Inżynier danych to obecnie zawód, na który zapotrzebowanie rośnie szybciej niż na jakikolwiek inny. Inżynier danych odgrywa kluczową rolę w organizacji — tworzy i utrzymuje potoki oraz bazy danych używane do przetwarzania, przekształcania i przechowywania danych. Jakich umiejętności potrzebują przede wszystkim przedstawiciele tego zawodu? Czy lista różni się od tej wymaganej od analityków danych? O tym wszystkim dowiesz się z mojego artykułu.

Przeanalizowałem oferty pracy na stanowisku inżyniera danych w styczniu 2020 roku, aby dowiedzieć się, które umiejętności technologiczne są najpopularniejsze. Następnie porównałem wyniki ze statystykami dotyczącymi wakatów na stanowisko analityka danych – i wyszło kilka ciekawych różnic.

Bez większego wstępu, oto dziesięć technologii, o których najczęściej wspomina się w ogłoszeniach o pracę:

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Wzmianka o technologiach w naborach na stanowisko inżyniera danych w 2020 roku

Zrozummy to.

Obowiązki inżyniera danych

Dziś praca, którą wykonują inżynierowie danych, ma ogromne znaczenie dla organizacji – to właśnie ludzie odpowiadają za przechowywanie informacji i doprowadzenie ich do takiej formy, aby inni pracownicy mogli z nimi pracować. Inżynierowie danych budują potoki do przesyłania strumieniowego lub wsadowego danych z wielu źródeł. Następnie potoki wykonują operacje ekstrakcji, transformacji i ładowania (innymi słowy procesy ETL), dzięki czemu dane są bardziej przydatne do dalszego wykorzystania. Następnie dane są przekazywane analitykom i badaczom danych w celu głębszego przetworzenia. Wreszcie dane kończą swoją podróż w dashboardach, raportach i modelach uczenia maszynowego.

Szukałem informacji, które pozwoliłyby mi wyciągnąć wnioski, na jakie technologie jest obecnie największe zapotrzebowanie w pracy inżyniera danych.

Metody

Zebrałem informacje z trzech portali oferujących oferty pracy Po prostu życzony, W rzeczy samej и Potwór i sprawdziliśmy, jakie słowa kluczowe pojawiały się w połączeniu ze słowem „inżynier danych” w tekstach ofert pracy skierowanych do mieszkańców USA. Do tego zadania użyłem dwóch bibliotek Pythona − wnioski и Piękna Zupa. Wśród słów kluczowych uwzględniłem zarówno te, które znalazły się na poprzedniej liście służącej do analizy wolnych stanowisk na stanowisko data science, jak i te, które sam wyselekcjonowałem, czytając oferty pracy dla inżynierów danych. LinkedIn nie został uwzględniony na liście źródeł, ponieważ zostałem tam zbanowany po mojej ostatniej próbie gromadzenia danych.

Dla każdego słowa kluczowego obliczyłem procent trafień z całkowitej liczby tekstów w każdym serwisie z osobna, a następnie obliczyłem średnią dla trzech źródeł.

wyniki

Poniżej znajduje się trzydzieści terminów związanych z inżynierią danych technicznych, które uzyskały najwyższe wyniki we wszystkich trzech miejscach pracy.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

A oto te same liczby, ale przedstawione w formie tabeli:

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Chodźmy w porządku.

Przegląd wyników

Zarówno SQL, jak i Python pojawiają się w ponad dwóch trzecich przeglądanych ofert pracy. To właśnie te dwie technologie mają sens studiować w pierwszej kolejności. Python to bardzo popularny język programowania używany do pracy z danymi, tworzenia stron internetowych i pisania skryptów. SQL oznacza Strukturalny Język Zapytań; dotyczy standardu implementowanego przez grupę języków i służy do pobierania danych z relacyjnych baz danych. Pojawił się dawno temu i okazał się bardzo odporny.

Spark jest wymieniany w około połowie wakatów. Apache Spark to „ujednolicony silnik analizy dużych zbiorów danych z wbudowanymi modułami do przesyłania strumieniowego, SQL, uczenia maszynowego i przetwarzania wykresów”. Jest szczególnie popularny wśród osób pracujących z dużymi bazami danych.

AWS pojawia się w około 45% ogłoszeń o pracę. Jest to platforma przetwarzania w chmurze wyprodukowana przez firmę Amazon; ma największy udział w rynku spośród wszystkich platform chmurowych.
Następne są Java i Hadoop – nieco ponad 40% w przypadku ich brata. Java jest powszechnie używanym, sprawdzonym w boju językiem Ankieta dla programistów przepełnienia stosu 2019 zajął dziesiąte miejsce wśród języków budzących grozę wśród programistów. Natomiast Python był drugim najbardziej lubianym językiem. Język Java jest obsługiwany przez firmę Oracle i wszystko, co musisz o nim wiedzieć, można zrozumieć z tego zrzutu ekranu oficjalnej strony ze stycznia 2020 r.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

To jak podróż wehikułem czasu
Apache Hadoopa wykorzystuje model programowania MapReduce z klastrami serwerów dla dużych zbiorów danych. Obecnie model ten jest coraz częściej porzucany.

Następnie widzimy Hive, Scala, Kafka i NoSQL – każda z tych technologii jest wymieniana w jednej czwartej zgłoszonych ofert pracy. Apache Hive to oprogramowanie do hurtowni danych, które „ułatwia odczytywanie, zapisywanie i zarządzanie dużymi zbiorami danych znajdującymi się w rozproszonych sklepach przy użyciu języka SQL”. Scala – język programowania aktywnie wykorzystywany podczas pracy z big data. W szczególności Spark został stworzony w Scali. We wspomnianym już rankingu języków budzących strach Scala zajmuje jedenaste miejsce. Apache Kafka – rozproszona platforma do przetwarzania wiadomości przesyłanych strumieniowo. Bardzo popularny jako sposób przesyłania strumieniowego danych.

Bazy danych NoSQL kontrastują z SQL. Różnią się tym, że są nierelacyjne, nieustrukturyzowane i skalowalne w poziomie. NoSQL zyskał pewną popularność, ale szał na to podejście, sięgający nawet przepowiedni, że zastąpi on SQL jako dominujący paradygmat przechowywania danych, wydaje się, że minął.

Porównanie z warunkami pracy na stanowiskach analityków danych

Oto trzydzieści terminów technologicznych najczęściej spotykanych wśród pracodawców zajmujących się analityką danych. Listę tę uzyskałem w taki sam sposób, jak opisano powyżej w przypadku inżynierii danych.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Wzmianki o technologii w naborach na stanowisko data science w 2020 roku

Jeśli mówimy o liczbie ogólnej, w porównaniu do wcześniej rozważanych rekrutacji, wakatów było o 28% więcej (12 013 wobec 9396 XNUMX). Zobaczmy, które technologie są mniej powszechne na stanowiskach pracy dla analityków danych niż dla inżynierów danych.

Bardziej popularne w inżynierii danych

Poniższy wykres przedstawia słowa kluczowe ze średnią różnicą większą niż 10% lub mniejszą niż -10%.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Największe różnice w częstotliwości słów kluczowych pomiędzy inżynierem danych a analitykiem danych

Najbardziej znaczący wzrost wykazuje AWS: w inżynierii danych pojawia się on o 25% częściej niż w data science (odpowiednio około 45% i 20% ogólnej liczby wakatów). Różnica jest zauważalna!

Tutaj te same dane w nieco innej prezentacji - na wykresie obok siebie znajdują się wyniki dla tego samego słowa kluczowego w ofertach pracy na stanowiska inżyniera danych i analityka danych.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

Największe różnice w częstotliwości słów kluczowych pomiędzy inżynierem danych a analitykiem danych

Następny największy skok, jaki zauważyłem, nastąpił w Sparku – inżynier danych często musi pracować z dużymi zbiorami danych. Kafka również wzrosła o 20%, czyli prawie czterokrotnie w porównaniu z wynikiem dotyczącym wakatów na stanowiska analityków danych. Przesyłanie danych jest jednym z kluczowych obowiązków inżyniera danych. Ostatecznie o 15% więcej było wzmianek w obszarze inżynierii danych dla Java, NoSQL, Redshift, SQL i Hadoop.

Mniej popularne w inżynierii danych

Zobaczmy teraz, które technologie są mniej popularne na stanowiskach inżynierów danych.
Najostrzejszy spadek w porównaniu z sektorem data science nastąpił w roku R: tam pojawił się w około 56% wakatów, tutaj - tylko w 17%. Imponujący. R to preferowany przez naukowców i statystyków język programowania, będący ósmym językiem na świecie, którego budzą największy strach.

SAS Znacząco rzadziej spotykane są także oferty pracy na stanowisko inżyniera danych – różnica wynosi 14%. SAS to autorski język przeznaczony do pracy ze statystykami i danymi. Interesujący punkt: sądząc po wynikach moje badania dotyczące ofert pracy dla analityków danych, ostatnio znacznie straciła na popularności – bardziej niż jakakolwiek inna technologia.

Jest poszukiwany zarówno w inżynierii danych, jak i nauce o danych

Warto zaznaczyć, że osiem z pierwszych dziesięciu pozycji w obu zestawach jest takich samych. SQL, Python, Spark, AWS, Java, Hadoop, Hive i Scala znalazły się w pierwszej dziesiątce zarówno w branży inżynierii danych, jak i nauki o danych. Na poniższym wykresie możesz zobaczyć piętnaście najpopularniejszych technologii wśród pracodawców zajmujących się inżynierią danych, a obok nich wskaźnik wakatów dla analityków danych.

Najbardziej pożądane umiejętności w zawodzie inżyniera danych

zalecenia

Jeśli chcesz zająć się inżynierią danych, radzę opanować następujące technologie - wymieniam je w kolejności przybliżonego priorytetu.

Naucz się SQL'a. Skłaniam się ku PostgreSQL, ponieważ jest to oprogramowanie typu open source, bardzo popularne w społeczności i znajduje się w fazie wzrostu. O tym, jak posługiwać się językiem, możesz dowiedzieć się z książki Mój Memorable SQL – dostępna jest jej wersja pilotażowa tutaj.

Opanuj Pythona, nawet jeśli nie na najbardziej hardkorowym poziomie. My Memorable Python został zaprojektowany specjalnie dla początkujących. Można go kupić pod adresem Amazonka, kopię elektroniczną lub fizyczną, według własnego wyboru, lub pobierz w formacie pdf lub epub na tej stronie.

Kiedy już zaznajomisz się z Pythonem, przejdź do pandas, biblioteki Pythona używanej do czyszczenia i przetwarzania danych. Jeśli Twoim celem jest praca w firmie, która wymaga umiejętności pisania w Pythonie (a jest ich większość), możesz być pewien, że domyślnie zostanie przyjęta znajomość pand. Aktualnie kończę wprowadzający przewodnik po pracy z pandami – da się subskrybowaćaby nie przegapić momentu uwolnienia.

Mistrz AWS-a. Jeśli chcesz zostać inżynierem danych, nie możesz obejść się bez platformy chmurowej w skrytce, a AWS jest z nich najpopularniejszym. Kursy bardzo mi pomogły Akademia Linuksowakiedy studiowałem inżynieria danych w Google Cloud, myślę, że będą mieli też dobre materiały na AWS.

Jeśli skompletowałeś już całą tę listę i chcesz dalej rozwijać się w oczach pracodawców jako inżynier danych, sugeruję dodanie Apache Spark do pracy z big data. Choć moje badania dotyczące wakatów na stanowisko analityka danych wykazały spadek zainteresowania, wśród inżynierów danych w dalszym ciągu pojawia się ono na prawie co drugim wakacie.

W końcu

Mam nadzieję, że ten przegląd technologii najbardziej poszukiwanych przez inżynierów danych był dla Ciebie przydatny. Jeśli zastanawiasz się, jak radzą sobie stanowiska analityków, przeczytaj mój drugi artykuł. Szczęśliwej inżynierii!

Źródło: www.habr.com

Dodaj komentarz