Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Ayon sa istatistika 2019, ang data engineer ay kasalukuyang isang propesyon na ang demand ay lumalaki nang mas mabilis kaysa sa iba pa. Ang isang data engineer ay gumaganap ng isang kritikal na papel sa isang organisasyon - paggawa at pagpapanatili ng mga pipeline at database na ginagamit upang iproseso, ibahin ang anyo at mag-imbak ng data. Anong mga kasanayan ang kailangan ng mga kinatawan ng propesyon na ito una sa lahat? Iba ba ang listahan sa kung ano ang kinakailangan ng mga data scientist? Malalaman mo ang lahat ng ito mula sa aking artikulo.

Sinuri ko ang mga bakante para sa posisyon ng data engineer dahil sa Enero 2020 upang maunawaan kung aling mga kasanayan sa teknolohiya ang pinakasikat. Pagkatapos ay inihambing ko ang mga resulta sa mga istatistika sa mga bakante para sa posisyon ng data scientist - at lumitaw ang ilang kawili-wiling pagkakaiba.

Nang walang maraming paunang salita, narito ang nangungunang sampung teknolohiya na madalas na binabanggit sa mga pag-post ng trabaho:

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Pagbanggit ng mga teknolohiya sa mga bakante para sa posisyon ng data engineer sa 2020

Tingnan natin ito.

Mga responsibilidad ng isang data engineer

Ngayon, ang gawain na ginagawa ng mga inhinyero ng data ay napakahalaga para sa mga organisasyon - ito ang mga taong may pananagutan sa pag-imbak ng impormasyon at pagdadala nito sa isang anyo na maaaring makipagtulungan dito ng ibang mga empleyado. Ang mga inhinyero ng data ay gumagawa ng mga pipeline upang mag-stream o mag-batch ng data mula sa maraming mapagkukunan. Ang mga pipeline ay nagsasagawa ng mga operasyon ng pagkuha, pagbabago, at paglo-load (sa madaling salita, mga proseso ng ETL), na ginagawang mas angkop ang data para sa karagdagang paggamit. Pagkatapos nito, ang data ay isinumite sa mga analyst at data scientist para sa mas malalim na pagproseso. Sa wakas, tinatapos ng data ang paglalakbay nito sa mga dashboard, ulat, at mga modelo ng machine learning.

Naghahanap ako ng impormasyon na magbibigay-daan sa akin na makagawa ng konklusyon tungkol sa kung aling mga teknolohiya ang pinaka-in demand sa trabaho ng isang data engineer sa ngayon.

Paraan

Nangolekta ako ng impormasyon mula sa tatlong site ng paghahanap ng trabaho βˆ’ SimplyHired, Sa katunayan ΠΈ napakalaking halimaw at tiningnan kung anong mga keyword ang nakita kasabay ng "data engineer" sa mga teksto ng mga bakante na naglalayong mga residente ng US. Para sa gawaing ito gumamit ako ng dalawang aklatan ng Python βˆ’ Requests ΠΈ Magandang Sopas. Kabilang sa mga keyword, isinama ko ang parehong mga kasama sa nakaraang listahan para sa pagsusuri ng mga bakante para sa posisyon ng data scientist, at ang mga manu-manong pinili ko habang nagbabasa ng mga alok ng trabaho para sa mga inhinyero ng data. Hindi kasama ang LinkedIn sa listahan ng mga mapagkukunan, dahil na-ban ako doon pagkatapos ng huling pagtatangka kong mangolekta ng data.

Para sa bawat keyword, hiwalay kong kinakalkula ang porsyento ng mga hit mula sa kabuuang bilang ng mga teksto sa bawat site, at pagkatapos ay kinakalkula ang average na halaga para sa tatlong pinagmulan.

Natuklasan

Nasa ibaba ang tatlumpung termino para sa teknikal na data engineering na may pinakamataas na marka sa lahat ng tatlong lugar ng trabaho.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

At narito ang parehong mga numero, ngunit ipinakita sa anyo ng talahanayan:

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Pumunta tayo sa ayos.

Pagsusuri ng mga resulta

Ang parehong SQL at Python ay lumalabas sa higit sa dalawang-katlo ng mga bakanteng trabaho na nasuri. Ang dalawang teknolohiyang ito ang may saysay na pag-aralan muna. Sawa ay isang napaka-tanyag na programming language na ginagamit para sa pagtatrabaho sa data, paggawa ng mga website, at pagsulat ng mga script. SQL ibig sabihin ay Structured Query Language; ito ay nagsasangkot ng isang pamantayang ipinatupad ng isang pangkat ng mga wika at ginagamit upang kunin ang data mula sa mga relational database. Ito ay lumitaw nang matagal na ang nakalipas at napatunayan na ang sarili ay lubos na lumalaban.

Nabanggit ang Spark sa halos kalahati ng mga bakante. Apache Spark ay isang "pinag-isang malaking data analytics engine na may mga built-in na module para sa streaming, SQL, machine learning, at pagpoproseso ng graph." Lalo itong sikat sa mga nagtatrabaho sa malalaking database.

Lumalabas ang AWS sa humigit-kumulang 45% ng mga pag-post ng trabaho. Ito ay isang cloud computing platform na ginawa ng Amazon; ito ang may pinakamalaking market share sa lahat ng cloud platform.
Susunod ang Java at Hadoop - higit sa 40% para sa kanilang kapatid. Java ay isang malawak na sinasalita, nasubok sa labanan na wika na Survey ng 2019 Stack Overflow Developer ay iginawad sa ikasampung puwesto sa mga wikang nagdudulot ng kakila-kilabot sa mga programmer. Sa kabaligtaran, ang Python ang pangalawang pinakamahal na wika. Ang wikang Java ay pinapatakbo ng Oracle, at lahat ng kailangan mong malaman tungkol dito ay mauunawaan mula sa screenshot na ito ng opisyal na pahina mula Enero 2020.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Parang nakasakay sa time machine
Apache Hadoop gumagamit ng modelo ng programming ng MapReduce na may mga cluster ng server para sa malaking data. Ngayon ang modelong ito ay lalong inabandona.

Pagkatapos ay makikita natin ang Hive, Scala, Kafka at NoSQL - bawat isa sa mga teknolohiyang ito ay binanggit sa isang-kapat ng mga isinumiteng bakante. Ang Apache Hive ay isang software ng data warehouse na "pinadadali ang pagbabasa, pagsulat, at pamamahala ng malalaking dataset na naninirahan sa mga distributed na tindahan gamit ang SQL." Scala – isang programming language na aktibong ginagamit kapag nagtatrabaho sa malaking data. Sa partikular, ang Spark ay nilikha sa Scala. Sa nabanggit na ranggo ng mga kinatatakutang wika, ang Scala ay nasa ika-labing isa. Apache Kafka – isang distributed platform para sa pagproseso ng mga streaming message. Napakasikat bilang isang paraan ng streaming ng data.

Mga database ng NoSQL ihambing ang kanilang sarili sa SQL. Naiiba ang mga ito dahil hindi nauugnay, hindi nakabalangkas, at nasusukat nang pahalang. Ang NoSQL ay nakakuha ng ilang katanyagan, ngunit ang pagkahumaling sa diskarte, kahit na sa punto ng mga propesiya na papalitan nito ang SQL bilang nangingibabaw na paradigm sa imbakan, ay tila tapos na.

Paghahambing sa mga termino sa mga bakanteng data scientist

Narito ang tatlumpung termino ng teknolohiya na pinakakaraniwan sa mga employer ng data science. Nakuha ko ang listahang ito sa parehong paraan tulad ng inilarawan sa itaas para sa data engineering.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Mga pagbanggit ng teknolohiya sa mga bakante para sa posisyon ng data scientist sa 2020

Kung pag-uusapan ang kabuuang bilang, kumpara sa naunang kinokonsiderang recruitment, mayroong 28% na mas maraming bakante (12 versus 013). Tingnan natin kung aling mga teknolohiya ang hindi gaanong karaniwan sa mga bakante para sa mga data scientist kaysa sa mga inhinyero ng data.

Mas sikat sa data engineering

Ang graph sa ibaba ay nagpapakita ng mga keyword na may average na pagkakaiba na higit sa 10% o mas mababa sa -10%.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Ang pinakamalaking pagkakaiba sa dalas ng keyword sa pagitan ng data engineer at data scientist

Ang AWS ay nagpapakita ng pinakamahalagang pagtaas: sa data engineering lumilitaw itong 25% na mas regular kaysa sa data science (humigit-kumulang 45% at 20% ng kabuuang bilang ng mga bakante, ayon sa pagkakabanggit). Kapansin-pansin ang pagkakaiba!

Narito ang parehong data sa isang bahagyang naiibang presentasyon - sa graph, ang mga resulta para sa parehong keyword sa mga bakante para sa posisyon ng data engineer at data scientist ay matatagpuan magkatabi.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Ang pinakamalaking pagkakaiba sa dalas ng keyword sa pagitan ng data engineer at data scientist

Ang susunod na pinakamalaking tumalon na nabanggit ko ay sa Spark - ang isang data engineer ay madalas na kailangang gumana sa malaking data. Kafka tumaas din ng 20%, iyon ay, halos apat na beses kumpara sa resulta para sa mga bakanteng data scientist. Ang paglipat ng data ay isa sa mga pangunahing responsibilidad ng isang data engineer. Sa wakas, ang bilang ng mga pagbanggit ay 15% na mas mataas sa larangan ng data engineering para sa Java, NoSQL, Redshift, SQL at Hadoop.

Hindi gaanong sikat sa data engineering

Ngayon tingnan natin kung aling mga teknolohiya ang hindi gaanong sikat sa mga bakanteng data engineer.
Ang pinakamatinding pagbaba kumpara sa sektor ng agham ng data ay naganap noong R: doon siya lumitaw sa humigit-kumulang 56% ng mga bakante, dito - lamang sa 17%. Kahanga-hanga. Ang R ay isang programming language na pinapaboran ng mga scientist at statistician, at ito ang ikawalong pinakakinatatakutan na wika sa mundo.

SAS ay matatagpuan din sa mga bakante para sa posisyon ng data engineer na mas madalas - ang pagkakaiba ay 14%. Ang SAS ay isang proprietary language na idinisenyo para sa pagtatrabaho sa mga istatistika at data. Kawili-wiling punto: paghusga sa mga resulta ang aking pananaliksik sa mga bakanteng trabaho para sa mga data scientist, ito ay nawalan ng maraming lupa kamakailan-higit pa kaysa sa anumang iba pang teknolohiya.

In demand sa parehong data engineering at data science

Dapat tandaan na ang walo sa unang sampung posisyon sa parehong set ay pareho. Nakapasok ang SQL, Python, Spark, AWS, Java, Hadoop, Hive at Scala sa nangungunang sampung para sa parehong industriya ng data engineering at data science. Sa graph sa ibaba makikita mo ang labinlimang pinakasikat na teknolohiya sa mga tagapag-empleyo ng data engineer, at sa tabi ng mga ito ay ang kanilang vacancy rate para sa mga data scientist.

Ang pinaka-in-demand na kasanayan sa propesyon ng data engineer

Rekomendasyon

Kung gusto mong makapasok sa data engineering, ipapayo ko sa iyo na makabisado ang mga sumusunod na teknolohiya - inilista ko ang mga ito sa pagkakasunud-sunod ng tinatayang priyoridad.

Matuto ng SQL. Ako ay nakasandal sa PostgreSQL dahil ito ay open source, napakapopular sa komunidad, at nasa isang yugto ng paglago. Maaari mong matutunan kung paano gamitin ang wika mula sa aklat na My Memorable SQL - available ang pilot version nito dito.

Master Python, kahit na hindi sa pinaka-hardcore na antas. Ang Aking Memorable Python ay partikular na idinisenyo para sa mga nagsisimula. Maaari itong mabili sa Birago, electronic o pisikal na kopya, iyong pinili, o i-download sa pdf o epub na format sa site na ito.

Kapag pamilyar ka na sa Python, lumipat sa panda, isang library ng Python na ginagamit para sa paglilinis at pagproseso ng data. Kung ikaw ay naglalayon na magtrabaho sa isang kumpanya na nangangailangan ng kakayahang magsulat sa Python (at ito ang karamihan sa kanila), maaari mong tiyakin na ang kaalaman sa mga pandas ay ipapalagay bilang default. Kasalukuyan akong tinatapos ang isang panimulang gabay sa pagtatrabaho sa mga panda - magagawa mo mag-subscribeupang hindi makaligtaan ang sandali ng paglaya.

Master AWS. Kung gusto mong maging isang data engineer, hindi mo magagawa nang walang cloud platform sa stash, at ang AWS ang pinakasikat sa kanila. Malaki ang naitulong sa akin ng mga kurso Linux Academynoong nag-aaral ako data engineering sa Google Cloud, sa tingin ko magkakaroon din sila ng magagandang materyales sa AWS.

Kung nakumpleto mo na ang buong listahang ito at nais na lumago pa sa mga mata ng mga employer bilang isang data engineer, iminumungkahi kong magdagdag ng Apache Spark para sa pagtatrabaho sa malaking data. Bagama't ang aking pananaliksik sa mga bakanteng data scientist ay nagpakita ng pagbaba ng interes, sa mga inhinyero ng data ay lumilitaw pa rin ito sa halos bawat segundong bakante.

Sa wakas

Umaasa ako na nakita mo ang pangkalahatang-ideya na ito ng mga pinaka-in-demand na teknolohiya para sa mga inhinyero ng data na kapaki-pakinabang. Kung nagtataka ka kung paano ang mga trabaho ng analyst, basahin ang aking iba pang artikulo. Maligayang engineering!

Pinagmulan: www.habr.com

Magdagdag ng komento