Eftirsóttasta færni í gagnaverkfræðingastarfinu

Samkvæmt tölfræði 2019, gagnaverkfræðingur er nú starfsgrein þar sem eftirspurn eykst hraðar en nokkur önnur. Gagnaverkfræðingur gegnir mikilvægu hlutverki í stofnun - að búa til og viðhalda leiðslum og gagnagrunnum sem eru notaðir til að vinna, umbreyta og geyma gögn. Hvaða færni þurfa fulltrúar þessarar starfsgreinar fyrst og fremst? Er listinn frábrugðinn því sem krafist er af gagnafræðingum? Þú munt læra um allt þetta af greininni minni.

Ég greindi laus störf í stöðu gagnaverkfræðings eins og þau eru í janúar 2020 til að skilja hvaða tæknikunnátta er vinsælust. Síðan bar ég niðurstöðurnar saman við tölfræði um laus störf í stöðu gagnafræðings - og þá kom í ljós áhugaverður munur.

Án mikillar forsögu eru hér tíu efstu tæknirnar sem oftast eru nefndar í atvinnutilkynningum:

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Getið um tækni í lausum störfum í stöðu gagnaverkfræðings árið 2020

Við skulum reikna það út.

Ábyrgð gagnaverkfræðings

Í dag skiptir starfið sem gagnaverkfræðingar vinna miklu máli fyrir stofnanir - þetta er fólkið sem ber ábyrgð á að geyma upplýsingar og koma þeim í það form að aðrir starfsmenn geti unnið með þær. Gagnaverkfræðingar byggja leiðslur til að streyma eða safna gögnum frá mörgum aðilum. Leiðslur framkvæma síðan útdrátt, umbreytingu og hleðsluaðgerðir (með öðrum orðum, ETL ferli), sem gerir gögnin hentugri til frekari notkunar. Að þessu loknu eru gögnin send til greiningaraðila og gagnafræðinga til dýpri úrvinnslu. Að lokum enda gögnin ferð sína í mælaborðum, skýrslum og vélanámslíkönum.

Ég var að leita að upplýsingum sem gera mér kleift að draga ályktun um hvaða tækni er eftirsóttust í starfi gagnaverkfræðings um þessar mundir.

Aðferðir

Ég safnaði upplýsingum frá þremur atvinnuleitarsíðum − Einfaldlega ráðinn, Einmitt и Monster og skoðaði hvaða leitarorð fundust í tengslum við „gagnaverkfræðing“ í textum lausra starfa sem beint er að íbúum Bandaríkjanna. Fyrir þetta verkefni notaði ég tvö Python bókasöfn - beiðnir и Falleg súpa. Meðal leitarorða tók ég bæði inn þau sem voru á fyrri lista til að greina laus störf í stöðu gagnafræðings og þau sem ég valdi handvirkt við lestur atvinnutilboða fyrir gagnafræðinga. LinkedIn var ekki með á heimildalistanum þar sem ég var bannaður þar eftir síðustu tilraun mína til að safna gögnum.

Fyrir hvert leitarorð reiknaði ég út hlutfall heimsókna af heildarfjölda texta á hverri síðu fyrir sig og reiknaði síðan meðaltalið fyrir þessar þrjár heimildir.

Niðurstöður

Hér að neðan eru þrjátíu skilmálar fyrir tæknigagnaverkfræði með hæstu einkunnir á öllum þremur vinnusvæðum.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Og hér eru sömu tölur, en settar fram í töfluformi:

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Förum í röð.

Farið yfir niðurstöður

Bæði SQL og Python birtast í meira en tveimur þriðju hluta þeirra starfa sem farið er yfir. Það eru þessar tvær tækni sem er skynsamlegt að læra fyrst. Python er mjög vinsælt forritunarmál sem notað er til að vinna með gögn, búa til vefsíður og skrifa forskriftir. SQL stendur fyrir Structured Query Language; það felur í sér staðal sem er útfærður af hópi tungumála og er notaður til að sækja gögn úr venslagagnagrunnum. Það birtist fyrir löngu síðan og hefur reynst mjög ónæmt.

Spark er nefndur í um helmingi lausra starfa. Apache Spark er "sameinuð stór gagnagreiningarvél með innbyggðum einingum fyrir streymi, SQL, vélanám og grafvinnslu." Það er sérstaklega vinsælt meðal þeirra sem vinna með stóra gagnagrunna.

AWS birtist í um það bil 45% af atvinnutilkynningum. Það er skýjatölvuvettvangur framleiddur af Amazon; það hefur stærstu markaðshlutdeild meðal allra skýjapalla.
Næst koma Java og Hadoop - aðeins meira en 40% fyrir bróður þeirra. Java er víða talað, bardagaprófað tungumál sem 2019 Stack Overflow Developer Survey hlaut tíunda sæti yfir tungumálin sem valda skelfingu meðal forritara. Aftur á móti var Python annað elskaðasta tungumálið. Java tungumálið er rekið af Oracle og allt sem þú þarft að vita um það má skilja af þessu skjáskoti af opinberu síðunni frá janúar 2020.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Þetta er eins og að hjóla í tímavél
Apache Hadoop notar MapReduce forritunarlíkanið með netþjónaklösum fyrir stór gögn. Nú er þetta líkan hætt í auknum mæli.

Síðan sjáum við Hive, Scala, Kafka og NoSQL - hver þessara tækni er nefnd í fjórðungi innsendra lausra starfa. Apache Hive er gagnavöruhúsahugbúnaður sem „gerir það auðvelt að lesa, skrifa og stjórna stórum gagnasöfnum sem búa í dreifðum verslunum með því að nota SQL. mælikvarði – forritunarmál sem er virkt notað þegar unnið er með stór gögn. Sérstaklega var Spark búið til í Scala. Scala er í ellefta sæti í þeirri röð sem áður hefur verið nefnd yfir óttaleg tungumál. Apache Kafka – dreifður vettvangur til að vinna úr streymisskilaboðum. Mjög vinsæl sem leið til að streyma gögnum.

NoSQL gagnagrunnar andstæða sig við SQL. Þeir eru ólíkir að því leyti að þeir eru óhlutbundnir, óskipulagðir og lárétt stigstærðir. NoSQL hefur náð nokkrum vinsældum, en æðið fyrir nálguninni, jafnvel að því marki spádóma um að það komi í stað SQL sem ríkjandi geymslufyrirmynd, virðist vera lokið.

Samanburður við kjör í lausum störfum gagnafræðinga

Hér eru þrjátíu tæknihugtök sem eru algengust meðal vinnuveitenda í gagnavísindum. Ég fékk þennan lista á sama hátt og lýst er hér að ofan fyrir gagnaverkfræði.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Getið um tækni í lausum störfum í stöðu gagnafræðings árið 2020

Ef talað er um heildarfjöldann, miðað við ráðningar sem áður voru taldar, voru 28% fleiri laus störf (12 á móti 013). Við skulum sjá hvaða tækni er sjaldgæfari í lausum störfum fyrir gagnafræðinga en fyrir gagnafræðinga.

Vinsælli í gagnaverkfræði

Myndritið hér að neðan sýnir leitarorð með að meðaltali meiri munur en 10% eða minna en -10%.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Stærsti munurinn á leitarorðatíðni milli gagnafræðings og gagnafræðings

AWS sýnir mestu aukninguna: í gagnaverkfræði birtist það 25% oftar en í gagnafræði (um það bil 45% og 20% ​​af heildarfjölda lausra starfa, í sömu röð). Munurinn er áberandi!

Hér eru sömu gögn í örlítið annarri framsetningu - á línuritinu eru niðurstöður fyrir sama leitarorð í lausum störfum í stöðu gagnafræðings og gagnafræðings staðsettar hlið við hlið.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Stærsti munurinn á leitarorðatíðni milli gagnafræðings og gagnafræðings

Næststærsta stökkið sem ég tók eftir var í Spark - gagnaverkfræðingur þarf oft að vinna með stór gögn. Kafka jókst einnig um 20%, það er tæplega fjórfalt miðað við niðurstöðuna fyrir laus störf gagnafræðinga. Gagnaflutningur er ein af lykilskyldum gagnaverkfræðings. Loks var fjöldi ummæla 15% meiri á sviði gagnaverkfræði fyrir Java, NoSQL, Redshift, SQL og Hadoop.

Minna vinsæll í gagnaverkfræði

Nú skulum við sjá hvaða tækni er minna vinsæl í lausum störfum gagnaverkfræðinga.
Mesta samdrátturinn miðað við gagnavísindageirann átti sér stað í R: þar kom hann fram í um það bil 56% lausra starfa, hér - aðeins í 17%. Áhrifamikill. R er forritunarmál sem er vinsælt af vísindamönnum og tölfræðingum og er áttunda mest óttaslegin tungumál í heimi.

SAS er einnig að finna í lausum störfum í stöðu gagnafræðings verulega sjaldnar - munurinn er 14%. SAS er sérstakt tungumál sem er hannað til að vinna með tölfræði og gögn. Áhugaverður punktur: Miðað við niðurstöðurnar rannsóknir mínar á lausum störfum fyrir gagnafræðinga, það hefur tapað miklu að undanförnu - meira en nokkur önnur tækni.

Eftirsótt í bæði gagnaverkfræði og gagnafræði

Það skal tekið fram að átta af fyrstu tíu stöðunum í báðum settum eru þau sömu. SQL, Python, Spark, AWS, Java, Hadoop, Hive og Scala komust á topp tíu fyrir bæði gagnaverkfræði og gagnavísindaiðnaðinn. Á línuritinu hér að neðan má sjá fimmtán vinsælustu tæknina meðal vinnuveitenda gagnaverkfræðinga og við hlið þeirra er hlutfall lausra starfa hjá gagnafræðingum.

Eftirsóttasta færni í gagnaverkfræðingastarfinu

Tillögur

Ef þú vilt komast í gagnaverkfræði, myndi ég ráðleggja þér að ná tökum á eftirfarandi tækni - ég skrái þær í áætlaðri forgangsröð.

Lærðu SQL. Ég hallast að PostgreSQL vegna þess að það er opinn uppspretta, mjög vinsæll í samfélaginu og er á vaxtarskeiði. Þú getur lært hvernig á að nota tungumálið í bókinni My Memorable SQL - tilraunaútgáfa hennar er fáanleg hér.

Master Python, jafnvel þó ekki á harðkjarnastigi. My Memorable Python er hannaður sérstaklega fyrir byrjendur. Það er hægt að kaupa á Amazon, rafrænt eða líkamlegt afrit, að eigin vali, eða hlaðið niður á pdf eða epub formi á þessari síðu.

Þegar þú hefur kynnt þér Python skaltu fara yfir í pandas, Python bókasafn sem er notað til að hreinsa og vinna gögn. Ef þú stefnir á að vinna í fyrirtæki sem krefst getu til að skrifa í Python (og þetta er meirihluti þeirra), geturðu verið viss um að sjálfgefið sé að þekking á pöndum sé gert ráð fyrir. Ég er núna að leggja lokahönd á kynningarleiðbeiningar um að vinna með pöndum - þú getur gerast áskrifanditil að missa ekki af útgáfustundinni.

Meistari AWS. Ef þú vilt verða gagnaverkfræðingur geturðu ekki verið án skýjapalls í geymslunni og AWS er ​​vinsælastur þeirra. Námskeiðin hjálpuðu mér mikið Linux Academyþegar ég var í námi gagnaverkfræði á Google Cloud, Ég held að þeir muni líka hafa gott efni á AWS.

Ef þú hefur þegar lokið öllum þessum lista og vilt vaxa enn frekar í augum vinnuveitenda sem gagnaverkfræðingur, þá legg ég til að þú bætir Apache Spark við til að vinna með stór gögn. Þrátt fyrir að rannsóknir mínar á lausum störfum gagnafræðinga sýndu minnkandi áhuga, birtist hann hjá gagnaverkfræðingum enn í næstum öðru hverju lausu starfi.

Að lokum

Ég vona að þér hafi fundist þetta yfirlit yfir eftirsóttustu tækni fyrir gagnaverkfræðinga gagnlegt. Ef þú ert að velta fyrir þér hvernig greiningarstörfum gengur, lestu þá hina greinina mína. Til hamingju með verkfræði!

Heimild: www.habr.com

Bæta við athugasemd