Ayon sa
Sinuri ko ang mga bakante para sa posisyon ng data engineer dahil sa Enero 2020 upang maunawaan kung aling mga kasanayan sa teknolohiya ang pinakasikat. Pagkatapos ay inihambing ko ang mga resulta sa mga istatistika sa mga bakante para sa posisyon ng data scientist - at lumitaw ang ilang kawili-wiling pagkakaiba.
Nang walang maraming paunang salita, narito ang nangungunang sampung teknolohiya na madalas na binabanggit sa mga pag-post ng trabaho:
Pagbanggit ng mga teknolohiya sa mga bakante para sa posisyon ng data engineer sa 2020
Mga responsibilidad ng isang data engineer
Ngayon, ang gawain na ginagawa ng mga inhinyero ng data ay napakahalaga para sa mga organisasyon - ito ang mga taong may pananagutan sa pag-imbak ng impormasyon at pagdadala nito sa isang anyo na maaaring makipagtulungan dito ng ibang mga empleyado. Ang mga inhinyero ng data ay gumagawa ng mga pipeline upang mag-stream o mag-batch ng data mula sa maraming mapagkukunan. Ang mga pipeline ay nagsasagawa ng mga operasyon ng pagkuha, pagbabago, at paglo-load (sa madaling salita, mga proseso ng ETL), na ginagawang mas angkop ang data para sa karagdagang paggamit. Pagkatapos nito, ang data ay isinumite sa mga analyst at data scientist para sa mas malalim na pagproseso. Sa wakas, tinatapos ng data ang paglalakbay nito sa mga dashboard, ulat, at mga modelo ng machine learning.
Naghahanap ako ng impormasyon na magbibigay-daan sa akin na makagawa ng konklusyon tungkol sa kung aling mga teknolohiya ang pinaka-in demand sa trabaho ng isang data engineer sa ngayon.
Paraan
Nangolekta ako ng impormasyon mula sa tatlong site ng paghahanap ng trabaho β
Para sa bawat keyword, hiwalay kong kinakalkula ang porsyento ng mga hit mula sa kabuuang bilang ng mga teksto sa bawat site, at pagkatapos ay kinakalkula ang average na halaga para sa tatlong pinagmulan.
Natuklasan
Nasa ibaba ang tatlumpung termino para sa teknikal na data engineering na may pinakamataas na marka sa lahat ng tatlong lugar ng trabaho.
At narito ang parehong mga numero, ngunit ipinakita sa anyo ng talahanayan:
Pumunta tayo sa ayos.
Pagsusuri ng mga resulta
Ang parehong SQL at Python ay lumalabas sa higit sa dalawang-katlo ng mga bakanteng trabaho na nasuri. Ang dalawang teknolohiyang ito ang may saysay na pag-aralan muna.
Nabanggit ang Spark sa halos kalahati ng mga bakante.
Lumalabas ang AWS sa humigit-kumulang 45% ng mga pag-post ng trabaho. Ito ay isang cloud computing platform na ginawa ng Amazon; ito ang may pinakamalaking market share sa lahat ng cloud platform.
Susunod ang Java at Hadoop - higit sa 40% para sa kanilang kapatid.
Parang nakasakay sa time machine
Pagkatapos ay makikita natin ang Hive, Scala, Kafka at NoSQL - bawat isa sa mga teknolohiyang ito ay binanggit sa isang-kapat ng mga isinumiteng bakante. Ang Apache Hive ay isang software ng data warehouse na "pinadadali ang pagbabasa, pagsulat, at pamamahala ng malalaking dataset na naninirahan sa mga distributed na tindahan gamit ang SQL."
Paghahambing sa mga termino sa mga bakanteng data scientist
Narito ang tatlumpung termino ng teknolohiya na pinakakaraniwan sa mga employer ng data science. Nakuha ko ang listahang ito sa parehong paraan tulad ng inilarawan sa itaas para sa data engineering.
Mga pagbanggit ng teknolohiya sa mga bakante para sa posisyon ng data scientist sa 2020
Kung pag-uusapan ang kabuuang bilang, kumpara sa naunang kinokonsiderang recruitment, mayroong 28% na mas maraming bakante (12 versus 013). Tingnan natin kung aling mga teknolohiya ang hindi gaanong karaniwan sa mga bakante para sa mga data scientist kaysa sa mga inhinyero ng data.
Mas sikat sa data engineering
Ang graph sa ibaba ay nagpapakita ng mga keyword na may average na pagkakaiba na higit sa 10% o mas mababa sa -10%.
Ang pinakamalaking pagkakaiba sa dalas ng keyword sa pagitan ng data engineer at data scientist
Ang AWS ay nagpapakita ng pinakamahalagang pagtaas: sa data engineering lumilitaw itong 25% na mas regular kaysa sa data science (humigit-kumulang 45% at 20% ng kabuuang bilang ng mga bakante, ayon sa pagkakabanggit). Kapansin-pansin ang pagkakaiba!
Narito ang parehong data sa isang bahagyang naiibang presentasyon - sa graph, ang mga resulta para sa parehong keyword sa mga bakante para sa posisyon ng data engineer at data scientist ay matatagpuan magkatabi.
Ang pinakamalaking pagkakaiba sa dalas ng keyword sa pagitan ng data engineer at data scientist
Ang susunod na pinakamalaking tumalon na nabanggit ko ay sa Spark - ang isang data engineer ay madalas na kailangang gumana sa malaking data.
Hindi gaanong sikat sa data engineering
Ngayon tingnan natin kung aling mga teknolohiya ang hindi gaanong sikat sa mga bakanteng data engineer.
Ang pinakamatinding pagbaba kumpara sa sektor ng agham ng data ay naganap noong
In demand sa parehong data engineering at data science
Dapat tandaan na ang walo sa unang sampung posisyon sa parehong set ay pareho. Nakapasok ang SQL, Python, Spark, AWS, Java, Hadoop, Hive at Scala sa nangungunang sampung para sa parehong industriya ng data engineering at data science. Sa graph sa ibaba makikita mo ang labinlimang pinakasikat na teknolohiya sa mga tagapag-empleyo ng data engineer, at sa tabi ng mga ito ay ang kanilang vacancy rate para sa mga data scientist.
Rekomendasyon
Kung gusto mong makapasok sa data engineering, ipapayo ko sa iyo na makabisado ang mga sumusunod na teknolohiya - inilista ko ang mga ito sa pagkakasunud-sunod ng tinatayang priyoridad.
Matuto ng SQL. Ako ay nakasandal sa PostgreSQL dahil ito ay open source, napakapopular sa komunidad, at nasa isang yugto ng paglago. Maaari mong matutunan kung paano gamitin ang wika mula sa aklat na My Memorable SQL - available ang pilot version nito
Master Python, kahit na hindi sa pinaka-hardcore na antas. Ang Aking Memorable Python ay partikular na idinisenyo para sa mga nagsisimula. Maaari itong mabili sa
Kapag pamilyar ka na sa Python, lumipat sa panda, isang library ng Python na ginagamit para sa paglilinis at pagproseso ng data. Kung ikaw ay naglalayon na magtrabaho sa isang kumpanya na nangangailangan ng kakayahang magsulat sa Python (at ito ang karamihan sa kanila), maaari mong tiyakin na ang kaalaman sa mga pandas ay ipapalagay bilang default. Kasalukuyan akong tinatapos ang isang panimulang gabay sa pagtatrabaho sa mga panda - magagawa mo
Master AWS. Kung gusto mong maging isang data engineer, hindi mo magagawa nang walang cloud platform sa stash, at ang AWS ang pinakasikat sa kanila. Malaki ang naitulong sa akin ng mga kurso
Kung nakumpleto mo na ang buong listahang ito at nais na lumago pa sa mga mata ng mga employer bilang isang data engineer, iminumungkahi kong magdagdag ng Apache Spark para sa pagtatrabaho sa malaking data. Bagama't ang aking pananaliksik sa mga bakanteng data scientist ay nagpakita ng pagbaba ng interes, sa mga inhinyero ng data ay lumilitaw pa rin ito sa halos bawat segundong bakante.
Sa wakas
Umaasa ako na nakita mo ang pangkalahatang-ideya na ito ng mga pinaka-in-demand na teknolohiya para sa mga inhinyero ng data na kapaki-pakinabang. Kung nagtataka ka kung paano ang mga trabaho ng analyst, basahin
Pinagmulan: www.habr.com