Згодна з
Я прааналізаваў вакансіі на пазіцыю data engineer у тым выглядзе, у якім яны знаходзяцца ў студзені 2020 года, каб зразумець, якія ўменні ў вобласці тэхналогій карыстаюцца найвялікай папулярнасцю. Затым я параўнаў атрыманыя вынікі са статыстыкай па вакансіях на пазіцыі data scientist - пры гэтым выявіліся некаторыя забаўныя адрозненні.
Абыдземся без доўгіх прадмоваў - вось топ-дзесяць тэхналогій, якія згадваюцца ў тэкстах вакансій часцей за ўсё:
Згадванні тэхналогій у вакансіях на пазіцыю data engineer у 2020 годзе
Абавязкі data engineer
На сённяшні дзень праца, якую выконваюць data engineers, мае вялікае значэнне для арганізацый - менавіта гэтыя людзі адказваюць за захоўванне інфармацыі і прыводзяць яе ў такі выгляд, каб з іншыя супрацоўнікі маглі з ёй працаваць. Data engineers выбудоўваюць пайплайны, каб наладзіць атрыманне дадзеных, струменем або пакетамі, з мноства крыніц. Далей пайплайны вырабляюць аперацыі па выманні, трансфармацыі і загрузцы (іншымі словамі, ETL-працэсы), робячы дадзеныя больш прыдатнымі для далейшага выкарыстання. Пасля гэтага дадзеныя аддаюцца аналітыкам і data scientists для глыбейшай апрацоўкі. Нарэшце, дадзеныя заканчваюць сваё падарожжа на інфармацыйных панэлях, у справаздачах і мадэлях для машыннага навучання.
Я шукаў інфармацыю, якая дазволіла б зрабіць выснову аб тым, якія тэхналогіі найболей запатрабаваныя ў працы data engineer на бягучы момант.
метады
Я збіраў інфармацыю з трох сайтаў для пошуку працы.
Для кожнага ключавога слова я падлічыў працэнт трапленняў ад агульнай колькасці тэкстаў на кожным з сайтаў паасобку, а потым вылічыў сярэдняе значэнне па трох крыніцах.
Вынікі
Ніжэй прадстаўлены трыццаць тэхнічных тэрмінаў са сферы data engineering з самымі высокімі паказчыкамі па ўсіх трох сайтах вакансій.
А вось тыя ж самыя лічбы, але аформленыя ў выглядзе табліцы:
Пойдзем па парадку.
Агляд вынікаў
І SQL, і Python фігуруюць у больш за дзве траціны разгледжаных вакансій. Менавіта гэтыя дзве тэхналогіі мае сэнс вывучаць у першую чаргу.
Аб Spark гаворыцца прыкладна ў палове вакансій.
AWS пападае прыкладна ў 45% тэкстаў вакансій. Гэта хмарная вылічальная платформа вытворчасці Amazon; ёй належыць найбольшая доля рынку сярод усіх хмарных платформаў.
Следам ідуць Java і Hadoop - крыху больш за 40% на брата.
Быццам на машыне часу пракаціўся
Далей мы бачым Hive, Scala, Kafka і NoSQL - кожная з гэтых тэхналогій згадваецца ў чвэрці прадстаўленых вакансій. Apache Hive - гэта праграма-сховішча дадзеных, якая "спрашчае чытанне, напісанне і кіраванне буйнымі наборамі дадзеных, якія размяшчаюцца ў размеркаваных сховішчах, пры дапамозе SQL".
Параўнанне з тэрмінамі ў вакансіях data scientist
Вось трыццаць тэхналагічных тэрмінаў, найболей распаўсюджаных у працадаўцаў у сферы data science. Гэты спіс я атрымаў тым жа шляхам, які апісваў вышэй для data engineering.
Згадванні тэхналогій у вакансіях на пазіцыю data scientist у 2020 годзе
Калі казаць аб агульнай колькасці, у параўнанні з разгледжаным ранняе наборам, вакансій аказалася больш на 28% (12 супраць 013). Давайце паглядзім, якія тэхналогіі сустракаюцца ў вакансіях для data scientists радзей, чым для data engineers.
Больш папулярныя ў data engineering
На графіцы ніжэй паказаны ключавыя словы з сярэднім адрозненнем у значэннях больш за 10% ці ж менш -10%.
Найбольшыя адрозненні ў частотнасці ключавых слоў у data engineer і data scientist
Самы істотны прырост выяўляе AWS: у data engineering ён з'яўляецца на 25% рэгулярней, чым у data science (прыблізна 45% і 20% ад агульнай колькасці вакансій адпаведна). Розніца адчувальная!
Вось тыя ж дадзеныя ў крыху іншым уяўленні – на графіцы вынікі для аднаго і таго ж ключавога слова ў вакансіях на пазіцыю data engineer і data scientist размешчаны бок аб бок.
Найбольшыя адрозненні ў частотнасці ключавых слоў у data engineer і data scientist
Наступны па велічыні скок я адзначыў у Spark data engineer часта даводзіцца працаваць з вялікімі дадзенымі.
Менш папулярныя ў data engineering
Цяпер давайце паглядзім, якія тэхналогіі менш папулярныя ў вакансіях для data engineer.
Самы рэзкі спад у параўнанні са сферай data science здарыўся ў
Запатрабаваныя і ў data engineering, і ў data science
Трэба адзначыць, што восем з дзесяці першых пазіцый у абодвух наборах супадаюць. SQL, Python, Spark, AWS, Java, Hadoop, Hive і Scala ўвайшлі ў дзясятку як для галіны data engineering, так і для data science. На графіцы ніжэй вы можаце ўбачыць пятнаццаць самых папулярных тэхналогій у працадаўцаў data engineers, а побач - іх паказчык па вакансіях для data scienctists.
Рэкамендацыі
Калі вы жадаеце займацца data engineering, я б параіў асвоіць наступныя тэхналогіі - пералічваю іх у парадку прыблізнай прыярытэтнасці.
Вывучыце SQL. Я схіляю вас менавіта да PostgreSQL, таму што ў яго адчынены код, вялікая папулярнасць у супольнасці і ён знаходзіцца ў фазе росту. Як карыстацца мовай, можна даведацца з кнігі My Memorable SQL - яе пілотная версія даступная
Асвойце Python, хай не на самым хардкорным узроўні. Кніга My Memorable Python разлічана якраз на пачаткоўцаў. Яе можна купіць на
Як толькі пазнаёміцеся з Python, пераходзіце да pandas - бібліятэцы Python, якая прымяняецца пры ачыстцы і апрацоўцы дадзеных. Калі вы накіраваны на працу ў кампаніі, дзе патрабуецца ўменне пісаць на Python (а такіх большасць), можаце быць упэўнены, што веданне pandas будзе меркавацца па змаўчанні. Я зараз заканчваю ўступнае кіраўніцтва для працы з pandas - можаце
Асвойце AWS. Калі жадаеце стаць data engineer, без хмарнай платформы ў загашніку вам не абыйсціся, а AWS - самая папулярная з іх. Мне вельмі дапамаглі курсы
Калі вы ўжо здужалі ўвесь гэты спіс і жадаеце яшчэ выгадуй у вачах працадаўцаў як data engineer, прапаную дадаць Apache Spark для працы з вялікімі дадзенымі. Хоць маё даследаванне па вакансіях data science і паказала спад цікавасці, у data engineer-ов ён усёткі мільгае амаль у кожнай другой вакансіі.
напрыканцы
Спадзяюся, гэты агляд самых запатрабаваных тэхналогій для data engineer падаўся вам карысным. Калі вам цікава, як ідуць справы ў вакансіях у аналітыкаў, прачытайце
Крыніца: habr.com