Pieprasītākās prasmes datu inženiera profesijā

Saskaņā ar statistika 2019, datu inženieris Å”obrÄ«d ir profesija, kuras pieprasÄ«jums aug straujāk nekā jebkura cita. Datu inženierim ir bÅ«tiska loma organizācijā - izveidojot un uzturot cauruļvadus un datu bāzes, ko izmanto datu apstrādei, pārveidoÅ”anai un uzglabāŔanai. Kādas prasmes vispirms nepiecieÅ”amas Ŕīs profesijas pārstāvjiem? Vai saraksts atŔķiras no tā, kas tiek prasÄ«ts datu zinātniekiem? Par to visu jÅ«s uzzināsit no mana raksta.

Es analizēju vakances datu inženiera amatam 2020. gada janvārÄ«, lai saprastu, kuras tehnoloÄ£iju prasmes ir vispopulārākās. Pēc tam es salÄ«dzināju rezultātus ar statistiku par vakancēm datu zinātnieka amatam - un atklājās dažas interesantas atŔķirÄ«bas.

Bez lielas preambulas Å”eit ir desmit populārākās tehnoloÄ£ijas, kas visbiežāk tiek minētas darba sludinājumos:

Pieprasītākās prasmes datu inženiera profesijā

TehnoloÄ£iju pieminÄ“Å”ana vakancēs datu inženiera amatam 2020. gadā

Sapratīsim.

Datu inženiera pienākumi

MÅ«sdienās liela nozÄ«me organizācijām ir darbam, ko veic datu inženieri ā€“ tie ir cilvēki, kas ir atbildÄ«gi par informācijas uzglabāŔanu un nogādāŔanu tādā formā, lai ar to varētu strādāt citi darbinieki. Datu inženieri izveido konveijerus, lai straumētu vai grupētu datus no vairākiem avotiem. Pēc tam cauruļvadi veic ieguves, pārveidoÅ”anas un ielādes darbÄ«bas (citiem vārdiem sakot, ETL procesus), padarot datus piemērotākus turpmākai izmantoÅ”anai. Pēc tam dati tiek iesniegti analÄ«tiÄ·iem un datu zinātniekiem dziļākai apstrādei. Visbeidzot, dati beidz savu ceļu informācijas paneļos, pārskatos un maŔīnmācÄ«Å”anās modeļos.

Meklēju informāciju, kas ļautu izdarÄ«t secinājumu par to, kuras tehnoloÄ£ijas datu inženiera darbā Å”obrÄ«d ir pieprasÄ«tākās.

Metodes

Es savācu informāciju no trim darba meklÄ“Å”anas vietnēm āˆ’ SimplyHired, patieŔām Šø briesmonis un aplÅ«koja, kādi atslēgvārdi ir sastopami saistÄ«bā ar ā€œdatu inženierisā€ ASV iedzÄ«votājiem paredzēto vakanču tekstos. Å im uzdevumam es izmantoju divas Python bibliotēkas āˆ’ pieprasÄ«jumi Šø Skaista zupa. Starp atslēgvārdiem es iekļāvu gan tos, kas bija iekļauti iepriekŔējā datu zinātnieka amata vakanču analÄ«zes sarakstā, gan tos, kurus manuāli atlasÄ«ju, lasot darba piedāvājumus datu inženieriem. LinkedIn nebija iekļauts avotu sarakstā, jo pēc mana pēdējā mēģinājuma vākt datus man tur tika aizliegts.

Katram atslēgvārdam es aprēķināju trāpÄ«jumu procentuālo daudzumu no kopējā tekstu skaita katrā vietnē atseviŔķi un pēc tam aprēķināju vidējo rādÄ«tāju trim avotiem.

rezultātus

Tālāk ir norādīti trīsdesmit tehnisko datu inženierijas termini ar augstākajiem rādītājiem visās trīs darba vietās.

Pieprasītākās prasmes datu inženiera profesijā

Un Ŕeit ir tie paŔi skaitļi, bet parādīti tabulas veidā:

Pieprasītākās prasmes datu inženiera profesijā

Ejam kārtībā.

Rezultātu apskats

Gan SQL, gan Python parādās vairāk nekā divās treÅ”daļās pārskatÄ«to darba vietu. TieÅ”i Ŕīs divas tehnoloÄ£ijas ir jēga vispirms izpētÄ«t. Pitons ir ļoti populāra programmÄ“Å”anas valoda, ko izmanto darbam ar datiem, vietņu izveidei un skriptu rakstÄ«Å”anai. SQL apzÄ«mē strukturēto vaicājumu valodu; tas ietver standartu, ko ieviesusi valodu grupa, un to izmanto datu izgÅ«Å”anai no relāciju datu bāzēm. Tas parādÄ«jās jau sen un ir pierādÄ«jis sevi kā ļoti izturÄ«gu.

Spark pieminēta aptuveni pusē no vakancēm. Apache Spark ir "vienots lielo datu analÄ«zes dzinējs ar iebÅ«vētiem moduļiem straumÄ“Å”anai, SQL, maŔīnmācÄ«bai un grafiku apstrādei." Tas ir Ä«paÅ”i populārs starp tiem, kas strādā ar lielām datu bāzēm.

AWS parādās aptuveni 45% darba sludinājumu. Tā ir mākoņdatoÅ”anas platforma, ko ražo Amazon; tai ir lielākā tirgus daļa starp visām mākoņu platformām.
Tālāk nāk Java un Hadoop - nedaudz vairāk par 40% viņu brālim. Java ir plaÅ”i runāta, kaujās pārbaudÄ«ta valoda, kas 2019. gada Stack Overflow izstrādātāju aptauja tika pieŔķirta desmitā vieta starp valodām, kas programmētāju vidÅ« rada Å”ausmas. Turpretim Python bija otrā vismīļākā valoda. Java valodu pārvalda Oracle, un visu, kas jums par to jāzina, var saprast no Ŕī oficiālās lapas ekrānuzņēmuma no 2020. gada janvāra.

Pieprasītākās prasmes datu inženiera profesijā

Tas ir kā braukt ar laika maŔīnu
Apache Hadoop izmanto MapReduce programmÄ“Å”anas modeli ar serveru klasteriem lieliem datiem. Tagad no Ŕī modeļa arvien vairāk tiek pamests.

Tad mēs redzam Hive, Scala, Kafka un NoSQL ā€“ katra no Ŕīm tehnoloÄ£ijām ir minēta ceturtdaļā iesniegto vakanču. Apache Hive ir datu noliktavas programmatÅ«ra, kas "viegli lasot, rakstÄ«t un pārvaldÄ«t lielas datu kopas, kas atrodas izplatÄ«tajos veikalos, izmantojot SQL." Scala ā€“ programmÄ“Å”anas valoda, kas tiek aktÄ«vi izmantota, strādājot ar lielajiem datiem. Jo Ä«paÅ”i Spark tika izveidots Scala. Jau pieminētajā baidÄ«to valodu reitingā Scala ieņem vienpadsmito vietu. Apache Kafka ā€“ izplatÄ«ta platforma straumÄ“Å”anas ziņojumu apstrādei. Ä»oti populārs kā datu straumÄ“Å”anas lÄ«dzeklis.

NoSQL datu bāzes kontrastē ar SQL. Tie atŔķiras ar to, ka tie ir nerelāciju, nestrukturēti un horizontāli mērogojami. NoSQL ir guvis zināmu popularitāti, taču Ŕķiet, ka Ŕīs pieejas trakums, pat lÄ«dz pareÄ£ojumiem, ka tā aizstās SQL kā dominējoÅ”o krātuves paradigmu, ir beigusies.

Salīdzinājums ar terminiem datu zinātnieku vakancēs

Å eit ir trÄ«sdesmit tehnoloÄ£iju termini, kas visbiežāk sastopami datu zinātnes darba devēju vidÅ«. Es ieguvu Å”o sarakstu tādā paŔā veidā, kā aprakstÄ«ts iepriekÅ” attiecÄ«bā uz datu inženieriju.

Pieprasītākās prasmes datu inženiera profesijā

TehnoloÄ£iju pieminÄ“Å”ana vakancēs datu zinātnieka amatam 2020. gadā

Ja runājam par kopējo skaitu, tad, salÄ«dzinot ar iepriekÅ” izskatÄ«to, vakanču bija par 28% vairāk (12 013 pret 9396 XNUMX). ApskatÄ«sim, kuras tehnoloÄ£ijas datu zinātnieku vakances ir retāk sastopamas nekā datu inženieru vakances.

Populārāks datu inženierijā

Tālāk esoÅ”ajā diagrammā ir parādÄ«ti atslēgvārdi, kuru vidējā atŔķirÄ«ba ir lielāka par 10% vai mazāka par -10%.

Pieprasītākās prasmes datu inženiera profesijā

Lielākās atŔķirÄ«bas atslēgvārdu biežumā starp datu inženieri un datu zinātnieku

AWS uzrāda visbÅ«tiskāko pieaugumu: datu inženierijā tas parādās par 25% regulārāk nekā datu zinātnē (attiecÄ«gi aptuveni 45% un 20% no kopējā vakanču skaita). AtŔķirÄ«ba ir jÅ«tama!

LÅ«k, tie paÅ”i dati nedaudz atŔķirÄ«gā prezentācijā ā€“ grafikā lÄ«dzās atrodas viena un tā paÅ”a atslēgvārda rezultāti datu inženiera un datu zinātnieka amata vakances.

Pieprasītākās prasmes datu inženiera profesijā

Lielākās atŔķirÄ«bas atslēgvārdu biežumā starp datu inženieri un datu zinātnieku

Nākamais lielākais lēciens, ko atzÄ«mēju, bija Spark ā€” datu inženierim bieži ir jāstrādā ar lielajiem datiem. Kafka arÄ« pieauga par 20%, tas ir, gandrÄ«z četras reizes, salÄ«dzinot ar rezultātu datu zinātnieku vakancēm. Datu pārsÅ«tÄ«Å”ana ir viens no galvenajiem datu inženiera pienākumiem. Visbeidzot, pieminējumu skaits bija par 15% lielāks datu inženierijas jomā Java, NoSQL, Redshift, SQL un Hadoop.

Mazāk populārs datu inženierijā

Tagad apskatīsim, kuras tehnoloģijas ir mazāk populāras datu inženieru vakancēs.
Straujākais kritums salÄ«dzinājumā ar datu zinātnes nozari notika gadā R: tur viņŔ parādÄ«jās aptuveni 56% vakanču, Å”eit - tikai 17%. IespaidÄ«gi. R ir programmÄ“Å”anas valoda, ko iecienÄ«juÅ”i zinātnieki un statistiÄ·i, un tā ir astotā visvairāk baidÄ«tā valoda pasaulē.

SAS arÄ« datu inženiera amata vakances atrodamas ievērojami retāk - starpÄ«ba ir 14%. SAS ir patentēta valoda, kas paredzēta darbam ar statistiku un datiem. Interesants punkts: spriežot pēc rezultātiem mans pētÄ«jums par darba piedāvājumiem datu zinātniekiem, tā pēdējā laikā ir zaudējusi daudz vietas ā€” vairāk nekā jebkura cita tehnoloÄ£ija.

Pieprasīts gan datu inženierijā, gan datu zinātnē

Jāpiebilst, ka astoņas no pirmajām desmit pozÄ«cijām abos setos ir vienādas. SQL, Python, Spark, AWS, Java, Hadoop, Hive un Scala iekļuva labāko desmitniekā gan datu inženierijas, gan datu zinātnes nozarēs. Zemāk esoÅ”ajā grafikā var redzēt piecpadsmit populārākās tehnoloÄ£ijas datu inženieru darba devēju vidÅ«, un blakus tām ir datu zinātnieku vakanču lÄ«menis.

Pieprasītākās prasmes datu inženiera profesijā

Ieteikumi

Ja vēlaties iedziļināties datu inženierijā, es ieteiktu apgÅ«t Ŕādas tehnoloÄ£ijas - es tos uzskaitu aptuvenās prioritātes secÄ«bā.

ApgÅ«stiet SQL. Es sliecos uz PostgreSQL, jo tas ir atvērtais avots, ļoti populārs sabiedrÄ«bā un atrodas izaugsmes fāzē. JÅ«s varat uzzināt, kā lietot valodu, no grāmatas My Memorable SQL ā€” ir pieejama tās izmēģinājuma versija Å”eit.

ApgÅ«stiet Python, pat ja ne vissmagākajā lÄ«menÄ«. My Memorable Python ir Ä«paÅ”i izstrādāts iesācējiem. To var iegādāties pie Amazone, elektroniskā vai fiziskā kopija, pēc jÅ«su izvēles, vai lejupielādēt pdf vai epub formātā Å”ajā vietnē.

Kad esat iepazinies ar Python, pārejiet uz pandām ā€” Python bibliotēku, kas tiek izmantota datu tÄ«rÄ«Å”anai un apstrādei. Ja vēlaties strādāt uzņēmumā, kurā ir nepiecieÅ”ama prasme rakstÄ«t Python valodā (un tā ir lielākā daļa), varat bÅ«t pārliecināti, ka zināŔanas par pandām tiks pieņemtas pēc noklusējuma. PaÅ”laik es pabeidzu ievada rokasgrāmatu darbam ar pandām ā€” jÅ«s varat abonētlai nepalaistu garām atbrÄ«voÅ”anas brÄ«di.

Meistars AWS. Ja vēlaties kļūt par datu inženieri, jūs nevarat iztikt bez mākoņa platformas krātuvē, un AWS ir vispopulārākā no tām. Kursi man ļoti palīdzēja Linux akadēmijakad es mācījos datu inženierija pakalpojumā Google Cloud, domāju, ka viņiem būs arī labi materiāli uz AWS.

Ja esat jau aizpildÄ«jis visu Å”o sarakstu un vēlaties turpināt augt darba devēju acÄ«s kā datu inženieris, iesaku pievienot Apache Spark darbam ar lielajiem datiem. Lai gan mans pētÄ«jums par datu zinātnieku vakancēm uzrādÄ«ja intereses samazināŔanos, datu inženieru vidÅ« tā joprojām parādās gandrÄ«z katrā otrajā vakancē.

Beidzot

Ceru, ka jums noderēja Å”is pārskats par vispieprasÄ«tākajām tehnoloÄ£ijām datu inženieriem. Ja vēlaties uzzināt, kā veicas analÄ«tiÄ·u darbā, izlasiet mans cits raksts. LaimÄ«gu inženieriju!

Avots: www.habr.com

Pievieno komentāru