Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Kulingana na takwimu 2019, mhandisi wa data kwa sasa ni taaluma ambayo mahitaji yake yanakua kwa kasi zaidi kuliko nyingine yoyote. Mhandisi wa data ana jukumu muhimu katika shirika - kuunda na kudumisha mabomba na hifadhidata ambazo hutumiwa kuchakata, kubadilisha na kuhifadhi data. Wawakilishi wa taaluma hii wanahitaji ujuzi gani kwanza? Je, orodha ni tofauti na kile kinachohitajika kwa wanasayansi wa data? Utajifunza juu ya haya yote kutoka kwa nakala yangu.

Nilichanganua nafasi zilizoachwa wazi za nafasi ya mhandisi wa data kama zilivyo Januari 2020 ili kuelewa ni ujuzi gani wa teknolojia unaojulikana zaidi. Kisha nikalinganisha matokeo na takwimu za nafasi za kazi za mwanasayansi wa data - na tofauti kadhaa za kupendeza zikaibuka.

Bila utangulizi mwingi, hizi hapa ni teknolojia kumi bora ambazo hutajwa mara nyingi katika machapisho ya kazi:

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Kutajwa kwa teknolojia katika nafasi za kazi kwa nafasi ya mhandisi wa data mnamo 2020

Wacha tuipate sawa.

Majukumu ya mhandisi wa data

Leo, kazi ambayo wahandisi wa data hufanya ni muhimu sana kwa mashirika - hawa ndio watu ambao wana jukumu la kuhifadhi habari na kuzileta katika fomu ambayo wafanyikazi wengine wanaweza kufanya kazi nayo. Wahandisi wa data huunda mabomba ili kutiririsha au kujumuisha data kutoka kwa vyanzo vingi. Mabomba kisha hufanya shughuli za uchimbaji, mabadiliko, na upakiaji (kwa maneno mengine, michakato ya ETL), na kufanya data kufaa zaidi kwa matumizi zaidi. Baada ya hayo, data inawasilishwa kwa wachambuzi na wanasayansi wa data kwa usindikaji wa kina. Hatimaye, data inamaliza safari yake katika dashibodi, ripoti na miundo ya mashine ya kujifunza.

Nilikuwa nikitafuta maelezo ambayo yangeniruhusu kufikia hitimisho kuhusu ni teknolojia gani zinazohitajika sana katika kazi ya mhandisi wa data kwa sasa.

Njia

Nilikusanya taarifa kutoka tovuti tatu za kutafuta kazi - SimplyHired, Hakika ΠΈ Monster na kuangalia ni maneno gani muhimu yalikuja kwa kushirikiana na "mhandisi wa data" katika maandishi ya nafasi za kazi zinazolenga wakazi wa Marekani. Kwa kazi hii nilitumia maktaba mbili za Python - maombi ΠΈ Supu Nzuri. Miongoni mwa maneno muhimu, nilijumuisha yale yote mawili ambayo yalijumuishwa kwenye orodha ya awali ya kuchambua nafasi za nafasi ya mwanasayansi wa data, na yale ambayo nilichagua mwenyewe wakati wa kusoma ofa za kazi kwa wahandisi wa data. LinkedIn haikujumuishwa kwenye orodha ya vyanzo, kwani nilipigwa marufuku huko baada ya jaribio langu la mwisho la kukusanya data.

Kwa kila neno kuu, nilihesabu asilimia ya vibao kutoka kwa jumla ya idadi ya maandishi kwenye kila tovuti kando, na kisha nikahesabu wastani wa vyanzo vitatu.

Matokeo

Yafuatayo ni masharti thelathini ya uhandisi wa data ya kiufundi yenye alama za juu zaidi katika tovuti zote tatu za kazi.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Na hapa kuna nambari zinazofanana, lakini zimewasilishwa kwa fomu ya meza:

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Twende kwa utaratibu.

Muhtasari wa matokeo

SQL na Python zote mbili zinaonekana katika zaidi ya theluthi mbili ya nafasi za kazi zilizopitiwa. Ni teknolojia hizi mbili zinazoleta maana ya kusoma kwanza. Chatu ni lugha maarufu sana ya programu inayotumika kufanya kazi na data, kuunda tovuti, na kuandika hati. SQL inasimamia Lugha ya Maswali Iliyoundwa; inahusisha kiwango kinachotekelezwa na kikundi cha lugha na hutumiwa kurejesha data kutoka kwa hifadhidata za uhusiano. Ilionekana muda mrefu uliopita na imejidhihirisha kuwa sugu sana.

Spark imetajwa katika takriban nusu ya nafasi zilizoachwa wazi. Apache Spark ni "injini kubwa iliyounganishwa ya uchanganuzi wa data iliyo na moduli zilizojengewa ndani za utiririshaji, SQL, kujifunza kwa mashine, na kuchakata grafu." Inajulikana sana kati ya wale wanaofanya kazi na hifadhidata kubwa.

AWS inaonekana katika takriban 45% ya machapisho ya kazi. Ni jukwaa la kompyuta la wingu linalotengenezwa na Amazon; ina sehemu kubwa zaidi ya soko kati ya majukwaa yote ya wingu.
Inayofuata inakuja Java na Hadoop - zaidi ya 40% kwa kaka yao. Java ni lugha inayozungumzwa na watu wengi, iliyojaribiwa kwa vita ambayo Utafiti wa Wasanidi Programu wa Stack Overflow wa 2019 ilipewa nafasi ya kumi kati ya lugha zinazosababisha hofu kati ya watengeneza programu. Kinyume chake, Python ilikuwa lugha ya pili inayopendwa zaidi. Lugha ya Java inaendeshwa na Oracle, na kila kitu unachohitaji kujua juu yake kinaweza kueleweka kutoka kwa skrini hii ya ukurasa rasmi kutoka Januari 2020.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Ni kama kuendesha mashine ya wakati
Apache Hadoop hutumia muundo wa programu wa MapReduce na vikundi vya seva kwa data kubwa. Sasa mtindo huu unazidi kuachwa.

Kisha tunaona Hive, Scala, Kafka na NoSQL - kila moja ya teknolojia hizi imetajwa katika robo ya nafasi zilizowasilishwa. Apache Hive ni programu ya ghala ya data ambayo "hurahisisha kusoma, kuandika, na kudhibiti hifadhidata kubwa zinazoishi katika maduka yaliyosambazwa kwa kutumia SQL." Scala - lugha ya programu ambayo hutumiwa kikamilifu wakati wa kufanya kazi na data kubwa. Hasa, Spark iliundwa huko Scala. Katika orodha iliyotajwa tayari ya lugha zinazoogopewa, Scala inashika nafasi ya kumi na moja. Apache Kafka - jukwaa lililosambazwa la kuchakata ujumbe wa kutiririsha. Maarufu sana kama njia ya kutiririsha data.

Hifadhidata za NoSQL tofauti na SQL. Zinatofautiana kwa kuwa hazina uhusiano, hazina muundo, na zinaweza kupanuka kwa usawa. NoSQL imepata umaarufu fulani, lakini hamu ya mbinu hiyo, hata kufikia hatua ya unabii kwamba itachukua nafasi ya SQL kama dhana kuu ya uhifadhi, inaonekana kumalizika.

Ulinganisho na maneno katika nafasi za mwanasayansi wa data

Hapa kuna maneno thelathini ya teknolojia yanayojulikana zaidi kati ya waajiri wa sayansi ya data. Nilipata orodha hii kwa njia ile ile kama ilivyoelezwa hapo juu kwa uhandisi wa data.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Inataja teknolojia katika nafasi za kazi za mwanasayansi wa data mnamo 2020

Ikiwa tunazungumza juu ya idadi ya jumla, ikilinganishwa na uajiri uliozingatiwa hapo awali, kulikuwa na nafasi 28% zaidi (12 dhidi ya 013). Hebu tuone ni teknolojia gani hazitumiki sana katika nafasi za wanasayansi wa data kuliko wahandisi wa data.

Maarufu zaidi katika uhandisi wa data

Grafu iliyo hapa chini inaonyesha manenomsingi yenye tofauti ya wastani ya zaidi ya 10% au chini ya -10%.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Tofauti kubwa zaidi katika mzunguko wa maneno muhimu kati ya mhandisi wa data na mwanasayansi wa data

AWS inaonyesha ongezeko kubwa zaidi: katika uhandisi wa data inaonekana 25% mara kwa mara kuliko katika sayansi ya data (takriban 45% na 20% ya jumla ya idadi ya nafasi, kwa mtiririko huo). Tofauti inaonekana!

Hapa kuna data sawa katika uwasilishaji tofauti kidogo - kwenye grafu, matokeo ya neno muhimu sawa katika nafasi za nafasi ya mhandisi wa data na mwanasayansi wa data ziko kando.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Tofauti kubwa zaidi katika mzunguko wa maneno muhimu kati ya mhandisi wa data na mwanasayansi wa data

Rukia kubwa zaidi niliyogundua ilikuwa Spark - mhandisi wa data mara nyingi lazima afanye kazi na data kubwa. Kafka pia iliongezeka kwa 20%, ambayo ni, karibu mara nne ikilinganishwa na matokeo ya nafasi za mwanasayansi wa data. Uhamisho wa data ni mojawapo ya majukumu muhimu ya mhandisi wa data. Hatimaye, idadi ya waliotajwa ilikuwa 15% ya juu katika uwanja wa uhandisi wa data kwa Java, NoSQL, Redshift, SQL na Hadoop.

Haijulikani sana katika uhandisi wa data

Sasa hebu tuone ni teknolojia gani ambazo hazijulikani sana katika nafasi za wahandisi wa data.
Kupungua kwa kasi zaidi ikilinganishwa na sekta ya sayansi ya data kulitokea R: huko alionekana katika takriban 56% ya nafasi, hapa - tu katika 17%. Inavutia. R ni lugha ya programu ambayo inapendelewa na wanasayansi na wanatakwimu, na ni lugha ya nane inayoogopwa zaidi ulimwenguni.

SAS pia hupatikana katika nafasi za kazi kwa nafasi ya mhandisi wa data kwa kiasi kikubwa chini ya mara nyingi - tofauti ni 14%. SAS ni lugha inayomilikiwa iliyoundwa kwa ajili ya kufanya kazi na takwimu na data. Jambo la kuvutia: kuhukumu kwa matokeo utafiti wangu katika nafasi za kazi kwa wanasayansi wa data, imepoteza nafasi nyingi hivi karibuniβ€”zaidi ya teknolojia nyingine yoyote.

Katika mahitaji katika uhandisi wa data na sayansi ya data

Ikumbukwe kwamba nafasi nane kati ya kumi za kwanza katika seti zote mbili ni sawa. SQL, Python, Spark, AWS, Java, Hadoop, Hive na Scala zimeingia katika kumi bora kwa tasnia ya uhandisi wa data na sayansi ya data. Katika grafu iliyo hapa chini unaweza kuona teknolojia kumi na tano maarufu zaidi kati ya waajiri wa wahandisi wa data, na karibu nao ni kiwango chao cha nafasi kwa wanasayansi wa data.

Ujuzi unaohitajika zaidi katika taaluma ya mhandisi wa data

Mapendekezo

Ikiwa unataka kuingia katika uhandisi wa data, ningekushauri kujua teknolojia zifuatazo - ninaziorodhesha kwa utaratibu wa kipaumbele cha takriban.

Jifunze SQL. Ninaegemea PostgreSQL kwa sababu ni chanzo wazi, maarufu sana katika jamii, na iko katika hatua ya ukuaji. Unaweza kujifunza jinsi ya kutumia lugha kutoka kwa kitabu My Memorable SQL - toleo lake la majaribio linapatikana hapa.

Master Python, hata ikiwa sio katika kiwango cha hardcore. Python yangu ya Kukumbukwa imeundwa mahsusi kwa Kompyuta. Inaweza kununuliwa saa Amazon, nakala ya kielektroniki au halisi, chaguo lako, au pakua katika umbizo la pdf au epub kwenye tovuti hii.

Mara tu unapoifahamu Python, nenda kwa pandas, maktaba ya Python ambayo hutumiwa kusafisha na usindikaji wa data. Ikiwa unalenga kufanya kazi katika kampuni ambayo inahitaji uwezo wa kuandika katika Python (na hii ndiyo wengi wao), unaweza kuwa na uhakika kwamba ujuzi wa pandas utachukuliwa kwa default. Kwa sasa ninamalizia mwongozo wa utangulizi wa kufanya kazi na panda - unaweza Jiandikisheili usikose wakati wa kutolewa.

Mwalimu AWS. Ikiwa unataka kuwa mhandisi wa data, huwezi kufanya bila jukwaa la wingu kwenye stash, na AWS ni maarufu zaidi kati yao. Kozi zilinisaidia sana Chuo cha Linuxnilipokuwa nasoma uhandisi wa data kwenye Wingu la Google, nadhani pia watakuwa na nyenzo nzuri kwenye AWS.

Ikiwa tayari umekamilisha orodha hii yote na unataka kukua zaidi machoni pa waajiri kama mhandisi wa data, ninapendekeza kuongeza Apache Spark kwa kufanya kazi na data kubwa. Ingawa utafiti wangu juu ya nafasi za wanasayansi wa data ulionyesha kupungua kwa riba, kati ya wahandisi wa data bado inaonekana katika karibu kila nafasi ya pili.

Hatimaye

Natumai umepata muhtasari huu wa teknolojia zinazohitajika zaidi kwa wahandisi wa data kuwa muhimu. Ikiwa unashangaa jinsi kazi za wachambuzi zinaendelea, soma makala yangu nyingine. Furaha ya uhandisi!

Chanzo: mapenzi.com

Kuongeza maoni