Самыя запатрабаваныя навыкі ў прафесіі data engineer

Згодна з статыстыцы 2019 года, data engineer на дадзены момант з'яўляецца прафесіяй, попыт на якую расце хутчэй за ўсіх іншых. Data engineer гуляе ў арганізацыі крытычна важную ролю - стварае і падтрымлівае ў працоўным стане пайплайны і базы дадзеных, якія выкарыстоўваюцца для апрацоўкі, трансфармацыі і захоўванні дадзеных. Якія навыкі патрэбны прадстаўнікам гэтай прафесіі ў першую чаргу? Ці адрозніваецца спіс таго, што патрабуецца ад data scientists? Пра ўсё гэта вы даведаецеся з майго артыкула.

Я прааналізаваў вакансіі на пазіцыю data engineer у тым выглядзе, у якім яны знаходзяцца ў студзені 2020 года, каб зразумець, якія ўменні ў вобласці тэхналогій карыстаюцца найвялікай папулярнасцю. Затым я параўнаў атрыманыя вынікі са статыстыкай па вакансіях на пазіцыі data scientist - пры гэтым выявіліся некаторыя забаўныя адрозненні.

Абыдземся без доўгіх прадмоваў - вось топ-дзесяць тэхналогій, якія згадваюцца ў тэкстах вакансій часцей за ўсё:

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Згадванні тэхналогій у вакансіях на пазіцыю data engineer у 2020 годзе

Давайце разбірацца.

Абавязкі data engineer

На сённяшні дзень праца, якую выконваюць data engineers, мае вялікае значэнне для арганізацый - менавіта гэтыя людзі адказваюць за захоўванне інфармацыі і прыводзяць яе ў такі выгляд, каб з іншыя супрацоўнікі маглі з ёй працаваць. Data engineers выбудоўваюць пайплайны, каб наладзіць атрыманне дадзеных, струменем або пакетамі, з мноства крыніц. Далей пайплайны вырабляюць аперацыі па выманні, трансфармацыі і загрузцы (іншымі словамі, ETL-працэсы), робячы дадзеныя больш прыдатнымі для далейшага выкарыстання. Пасля гэтага дадзеныя аддаюцца аналітыкам і data scientists для глыбейшай апрацоўкі. Нарэшце, дадзеныя заканчваюць сваё падарожжа на інфармацыйных панэлях, у справаздачах і мадэлях для машыннага навучання.

Я шукаў інфармацыю, якая дазволіла б зрабіць выснову аб тым, якія тэхналогіі найболей запатрабаваныя ў працы data engineer на бягучы момант.

метады

Я збіраў інфармацыю з трох сайтаў для пошуку працы. Проста накіраваны, Сапраўды и монстар і глядзеў, якія ключавыя словы трапляюцца ў звязку з "data engineer" у тэкстах вакансій, разлічаных на жыхароў ЗША. Для гэтай задачы я ўжываў дзве бібліятэкі Python. запыты и Прыгожы суп. У лік ключавых слоў я ўключаў як тыя, якія ўваходзілі ў папярэдні спіс для аналізу вакансіяў на пазіцыю data scientist, так і тыя, якія ўручную адабраў, чытаючы прапановы аб працы для data engineers. LinkedIn у лік крыніц не ўвайшоў, бо мяне тамака забанілі пасля мінулай спробы сабраць дадзеныя.

Для кожнага ключавога слова я падлічыў працэнт трапленняў ад агульнай колькасці тэкстаў на кожным з сайтаў паасобку, а потым вылічыў сярэдняе значэнне па трох крыніцах.

Вынікі

Ніжэй прадстаўлены трыццаць тэхнічных тэрмінаў са сферы data engineering з самымі высокімі паказчыкамі па ўсіх трох сайтах вакансій.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

А вось тыя ж самыя лічбы, але аформленыя ў выглядзе табліцы:

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Пойдзем па парадку.

Агляд вынікаў

І SQL, і Python фігуруюць у больш за дзве траціны разгледжаных вакансій. Менавіта гэтыя дзве тэхналогіі мае сэнс вывучаць у першую чаргу. Пітон – вельмі папулярная мова праграмавання, якая прымяняецца для працы з дадзенымі, стварэння вэбсайтаў і напісання сцэнарыяў. SQL расшыфроўваецца як Structured Query Language (мова структураваных запытаў); ён мяркуе стандарт, які рэалізуецца групай моў, і ўжываецца для вымання дадзеных з рэляцыйных баз. Ён з'явіўся ўжо даўно і зарэкамендаваў сябе высокай устойлівасцю.

Аб Spark гаворыцца прыкладна ў палове вакансій. Apache Spark – гэта "аб'яднаны аналітычны рухавічок для апрацоўкі вялікіх дадзеных з убудаванымі модулямі для струменевай перадачы, SQL, машыннага навучання і апрацоўкі графаў". Ён карыстаецца асаблівай папулярнасцю ў тых, хто працуе з базамі даных вялікіх памераў.

AWS пападае прыкладна ў 45% тэкстаў вакансій. Гэта хмарная вылічальная платформа вытворчасці Amazon; ёй належыць найбольшая доля рынку сярод усіх хмарных платформаў.
Следам ідуць Java і Hadoop - крыху больш за 40% на брата. ява – шырока распаўсюджаная, правераная ў баях мова, якая ў апытанні распрацоўшчыкаў на Stack Overflow 2019 года удастоіўся дзясятага месца сярод моў, якія выклікаюць у праграмістаў жах. У супрацьлегласць яму, Python апынуўся другой з моў, якія карыстаюцца найбольшым каханнем. Мовай Java запраўляе Oracle, і ўсё, што аб ім наогул трэба ведаць, можна зразумець вось з гэтага скрыншота афіцыйнай старонкі ад студзеня 2020 гады.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Быццам на машыне часу пракаціўся
Apache Hadoop выкарыстоўвае праграмную мадэль MapReduce з кластарамі сервераў для вялікіх дадзеных. Цяпер ад гэтай мадэлі пачынаюць усё часцей адмаўляцца.

Далей мы бачым Hive, Scala, Kafka і NoSQL - кожная з гэтых тэхналогій згадваецца ў чвэрці прадстаўленых вакансій. Apache Hive - гэта праграма-сховішча дадзеных, якая "спрашчае чытанне, напісанне і кіраванне буйнымі наборамі дадзеных, якія размяшчаюцца ў размеркаваных сховішчах, пры дапамозе SQL". маштаб – мова праграмавання, якая актыўна выкарыстоўваецца пры працы з вялікімі дадзенымі. У прыватнасці, на Scala ствараўся Spark. Ва ўжо згадваным рэйтынгу навадных страх моў Scala займае адзінаццаты радок. Apache Kafka - размеркаваная платформа для апрацоўкі струменевых паведамленняў. Вельмі папулярная як сродак струменевай перадачы дадзеных.

Базы даных NoSQL супрацьпастаўляюць сябе SQL. Яны адрозніваюцца тым, што не рэляцыйныя, не структураваныя і валодаюць гарызантальнай маштабаванасцю. NoSQL заваяваў некаторую папулярнасць, аднак ліхаманкавае захапленне гэтым падыходам, аж да вяшчунстваў, што ён зменіць SQL у якасці дамінантнай парадыгмы захоўвання, падобна, ужо ззаду.

Параўнанне з тэрмінамі ў вакансіях data scientist

Вось трыццаць тэхналагічных тэрмінаў, найболей распаўсюджаных у працадаўцаў у сферы data science. Гэты спіс я атрымаў тым жа шляхам, які апісваў вышэй для data engineering.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Згадванні тэхналогій у вакансіях на пазіцыю data scientist у 2020 годзе

Калі казаць аб агульнай колькасці, у параўнанні з разгледжаным ранняе наборам, вакансій аказалася больш на 28% (12 супраць 013). Давайце паглядзім, якія тэхналогіі сустракаюцца ў вакансіях для data scientists радзей, чым для data engineers.

Больш папулярныя ў data engineering

На графіцы ніжэй паказаны ключавыя словы з сярэднім адрозненнем у значэннях больш за 10% ці ж менш -10%.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Найбольшыя адрозненні ў частотнасці ключавых слоў у data engineer і data scientist

Самы істотны прырост выяўляе AWS: у data engineering ён з'яўляецца на 25% рэгулярней, чым у data science (прыблізна 45% і 20% ад агульнай колькасці вакансій адпаведна). Розніца адчувальная!

Вось тыя ж дадзеныя ў крыху іншым уяўленні – на графіцы вынікі для аднаго і таго ж ключавога слова ў вакансіях на пазіцыю data engineer і data scientist размешчаны бок аб бок.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Найбольшыя адрозненні ў частотнасці ключавых слоў у data engineer і data scientist

Наступны па велічыні скок я адзначыў у Spark data engineer часта даводзіцца працаваць з вялікімі дадзенымі. Кафка таксама падрос на 20%, гэта значыць амаль у чатыры разы ў параўнанні з вынікам па вакансіях data scientist. Перадача дадзеных - адна з ключавых абавязкаў data engineer. Нарэшце, колькасць згадак аказалася на 15% больш у сферы data engineering у Java, NoSQL, Redshift, SQL і Hadoop.

Менш папулярныя ў data engineering

Цяпер давайце паглядзім, якія тэхналогіі менш папулярныя ў вакансіях для data engineer.
Самы рэзкі спад у параўнанні са сферай data science здарыўся ў R: там ён фігураваў прыкладна ў 56% вакансій, тут - толькі ў 17%. Уражвае. R - мова праграмавання, які карыстаецца поспехам у навукоўцаў і статыстыкаў, а таксама ўладальнік восьмага месца ў рэйтынгу выклікаюць жах моў.

ПАВ таксама сустракаецца ў вакансіях на пазіцыю data engineer адчувальна радзей - розніца складае 14%. SAS з'яўляецца патэнтаванай мовай, разлічанай на працу са статыстыкай і дадзенымі. Цікавы момант: мяркуючы па выніках майго даследавання вакансій для data scientists, у апошні час ён моцна страціў пазіцыі - мацней, чым любая іншая тэхналогія.

Запатрабаваныя і ў data engineering, і ў data science

Трэба адзначыць, што восем з дзесяці першых пазіцый у абодвух наборах супадаюць. SQL, Python, Spark, AWS, Java, Hadoop, Hive і Scala ўвайшлі ў дзясятку як для галіны data engineering, так і для data science. На графіцы ніжэй вы можаце ўбачыць пятнаццаць самых папулярных тэхналогій у працадаўцаў data engineers, а побач - іх паказчык па вакансіях для data scienctists.

Самыя запатрабаваныя навыкі ў прафесіі data engineer

Рэкамендацыі

Калі вы жадаеце займацца data engineering, я б параіў асвоіць наступныя тэхналогіі - пералічваю іх у парадку прыблізнай прыярытэтнасці.

Вывучыце SQL. Я схіляю вас менавіта да PostgreSQL, таму што ў яго адчынены код, вялікая папулярнасць у супольнасці і ён знаходзіцца ў фазе росту. Як карыстацца мовай, можна даведацца з кнігі My Memorable SQL - яе пілотная версія даступная тут.

Асвойце Python, хай не на самым хардкорным узроўні. Кніга My Memorable Python разлічана якраз на пачаткоўцаў. Яе можна купіць на амазонка, электронную копію або фізічную, на ваш выбар, ці ж спампаваць у фармаце pdf або epub на гэтым сайце.

Як толькі пазнаёміцеся з Python, пераходзіце да pandas - бібліятэцы Python, якая прымяняецца пры ачыстцы і апрацоўцы дадзеных. Калі вы накіраваны на працу ў кампаніі, дзе патрабуецца ўменне пісаць на Python (а такіх большасць), можаце быць упэўнены, што веданне pandas будзе меркавацца па змаўчанні. Я зараз заканчваю ўступнае кіраўніцтва для працы з pandas - можаце падпісацца, каб не прапусціць момант выхаду.

Асвойце AWS. Калі жадаеце стаць data engineer, без хмарнай платформы ў загашніку вам не абыйсціся, а AWS - самая папулярная з іх. Мне вельмі дапамаглі курсы Акадэмія Linux, калі я вывучаў data engineering на Google Cloud, думаю, што і па AWS у іх знойдуцца добрыя матэрыялы

Калі вы ўжо здужалі ўвесь гэты спіс і жадаеце яшчэ выгадуй у вачах працадаўцаў як data engineer, прапаную дадаць Apache Spark для працы з вялікімі дадзенымі. Хоць маё даследаванне па вакансіях data science і паказала спад цікавасці, у data engineer-ов ён усёткі мільгае амаль у кожнай другой вакансіі.

напрыканцы

Спадзяюся, гэты агляд самых запатрабаваных тэхналогій для data engineer падаўся вам карысным. Калі вам цікава, як ідуць справы ў вакансіях у аналітыкаў, прачытайце іншы мой артыкул. Паспяховага інжынерства!

Крыніца: habr.com

Дадаць каментар