Nõudlikumad oskused andmeinseneri erialal

Vastavalt statistika 2019, andmeinsener on praegu eriala, mille nõudlus kasvab kiiremini kui ükski teine. Andmeinsener mängib organisatsioonis kriitilist rolli – loob ja hooldab konveierid ja andmebaasid, mida kasutatakse andmete töötlemiseks, teisendamiseks ja salvestamiseks. Milliseid oskusi vajavad selle eriala esindajad eelkõige? Kas loetelu erineb andmeteadlastelt nõutavast? Selle kõige kohta saate teada minu artiklist.

Analüüsisin vabu töökohti andmeinseneri ametikohale 2020. aasta jaanuaris, et mõista, millised tehnoloogiaoskused on kõige populaarsemad. Seejärel võrdlesin tulemusi andmeteadlase ametikohtade vabade töökohtade statistikaga – ja ilmnesid huvitavad erinevused.

Ilma suurema sissejuhatuseta on siin kümme tehnoloogiat, mida töökuulutustes kõige sagedamini mainitakse:

Nõudlikumad oskused andmeinseneri erialal

Tehnoloogiate mainimine vabadel töökohtadel andmeinseneri ametikohal 2020. aastal

Mõistame.

Andmeinseneri kohustused

Tänapäeval on andmeinseneride tööl organisatsioonide jaoks suur tähtsus – just need inimesed vastutavad info salvestamise ja sellisesse vormi viimise eest, et teised töötajad saaksid sellega töötada. Andmeinsenerid loovad torujuhtmeid mitmest allikast pärit andmete voogesitamiseks või komplekteerimiseks. Seejärel teostavad torujuhtmed ekstraheerimis-, teisendus- ja laadimisoperatsioone (teisisõnu ETL-protsesse), muutes andmed edasiseks kasutamiseks sobivamaks. Pärast seda esitatakse andmed analüütikutele ja andmeteadlastele sügavamaks töötlemiseks. Lõpuks lõpetavad andmed oma teekonna armatuurlaudades, aruannetes ja masinõppemudelites.

Otsisin infot, mis võimaldaks teha järelduse, millised tehnoloogiad on hetkel andmeinseneri töös enim nõutud.

Meetodid

Kogusin teavet kolmelt tööotsingu saidilt − Lihtsalt palgatud, tõepoolest и Koletis ja vaatas, milliseid märksõnu USA elanikele suunatud vabade töökohtade tekstides koos sõnaga "andmeinsener" kohtas. Selle ülesande jaoks kasutasin kahte Pythoni teeki − Taotlused и Ilus supp. Märksõnade hulka tõin nii need, mis olid eelmises nimekirjas andmeteadlase ametikoha vabade töökohtade analüüsimiseks, kui ka need, mille valisin käsitsi andmeinseneride tööpakkumisi lugedes. LinkedIni allikate loendisse ei lisatud, kuna pärast viimast andmete kogumise katset keelati mind seal.

Iga märksõna jaoks arvutasin tabamuste protsendi iga saidi tekstide koguarvust eraldi ja seejärel arvutasin kolme allika keskmise.

Järeldused

Allpool on kolmkümmend tehnilist andmetöötluse terminit, millel on kõrgeim hind kõigis kolmes töökohas.

Nõudlikumad oskused andmeinseneri erialal

Ja siin on samad numbrid, kuid esitatud tabeli kujul:

Nõudlikumad oskused andmeinseneri erialal

Lähme järjekorras.

Tulemuste ülevaade

Nii SQL kui ka Python esinevad enam kui kahes kolmandikus vaadatud tööpakkumistest. Neid kahte tehnoloogiat on mõttekas kõigepealt uurida. Python on väga populaarne programmeerimiskeel, mida kasutatakse andmetega töötamiseks, veebisaitide loomiseks ja skriptide kirjutamiseks. SQL tähistab struktureeritud päringu keelt; see hõlmab keelte rühma rakendatud standardit ja seda kasutatakse andmete hankimiseks relatsiooniandmebaasidest. See ilmus kaua aega tagasi ja on osutunud väga vastupidavaks.

Säde on mainitud umbes pooltel vabadest töökohtadest. Apache Spark on "ühtne suurandmete analüüsimootor, millel on sisseehitatud voogesituse, SQL-i, masinõppe ja graafikute töötlemise moodulid." See on eriti populaarne suurte andmebaasidega töötavate inimeste seas.

AWS esineb ligikaudu 45% töökuulutustes. See on Amazoni toodetud pilvandmetöötlusplatvorm; sellel on kõigi pilveplatvormide seas suurim turuosa.
Järgmisena tulevad Java ja Hadoop – nende vennale veidi rohkem kui 40%. Java on laialdaselt kõneldud, lahingutes testitud keel, mis 2019. aasta Stack Overflow arendaja uuring pälvis kümnenda koha programmeerijate seas õudust tekitavate keelte seas. Seevastu Python oli armastatuim keel teine. Java keelt haldab Oracle ja kõike, mida peate selle kohta teadma, saate aru sellelt 2020. aasta jaanuari ametliku lehe ekraanipildilt.

Nõudlikumad oskused andmeinseneri erialal

See on nagu ajamasinaga sõitmine
Apache Hadoop kasutab suurandmete jaoks serveriklastritega programmeerimismudelit MapReduce. Nüüd loobutakse sellest mudelist üha enam.

Siis näeme Hive, Scala, Kafka ja NoSQL – igat neist tehnoloogiatest mainitakse veerandis esitatud vabadest töökohtadest. Apache Hive on andmelao tarkvara, mis "muudab SQL-i abil hajutatud kauplustes asuvate suurte andmekogude lugemise, kirjutamise ja haldamise lihtsaks". Scala – programmeerimiskeel, mida kasutatakse aktiivselt suurandmetega töötamisel. Eelkõige loodi Scalas Spark. Juba mainitud kardetud keelte pingereas on Scala üheteistkümnendal kohal. Apache Kafka – hajutatud platvorm sõnumite voogesituse töötlemiseks. Väga populaarne andmete voogesituse vahendina.

NoSQL andmebaasid vastandavad end SQL-ile. Need erinevad selle poolest, et nad on mitterelatiivsed, struktureerimata ja horisontaalselt skaleeritavad. NoSQL on saavutanud mõningase populaarsuse, kuid selle lähenemisviisi hullus, isegi kuni ennustusteni, et see asendab SQL-i domineeriva salvestusparadigmana, näib olevat möödas.

Võrdlus andmeteadlaste vabade ametikohtade terminitega

Siin on kolmkümmend andmeteaduse tööandjate seas levinumat tehnoloogiaterminit. Sain selle loendi samamoodi nagu ülalpool andmetöötluse jaoks kirjeldatud.

Nõudlikumad oskused andmeinseneri erialal

Tehnoloogia mainimine vabadel kohtadel andmeteadlase ametikohale 2020. aastal

Kui rääkida koguarvust, siis võrreldes varem arvestatud värbamisega oli vabu töökohti 28% rohkem (12 013 versus 9396 XNUMX). Vaatame, millised tehnoloogiad on andmeteadlaste vabadel töökohtadel vähem levinud kui andmeinseneride jaoks.

Andmetehnikas populaarsem

Allolev graafik näitab märksõnu, mille keskmine erinevus on suurem kui 10% või väiksem kui -10%.

Nõudlikumad oskused andmeinseneri erialal

Suurimad erinevused märksõnade sageduses andmeinseneri ja andmeteadlase vahel

AWS näitab kõige olulisemat kasvu: andmetehnikas ilmub see 25% regulaarsemalt kui andmeteaduses (vastavalt ligikaudu 45% ja 20% vabade töökohtade koguarvust). Erinevus on märgatav!

Siin on samad andmed veidi erinevas esitluses - graafikul asuvad kõrvuti sama märksõna tulemused andmeinseneri ja andmeteadlase ametikoha vabadel töökohtadel.

Nõudlikumad oskused andmeinseneri erialal

Suurimad erinevused märksõnade sageduses andmeinseneri ja andmeteadlase vahel

Järgmine suurim hüpe, mille märkasin, oli Sparkis – andmeinsener peab sageli töötama suurandmetega. Kafka samuti kasvas 20% ehk ligi neli korda võrreldes andmeteadlaste vabade ametikohtade tulemusega. Andmeedastus on andmeinseneri üks peamisi kohustusi. Lõpuks oli mainimiste arv 15% suurem Java, NoSQL, Redshifti, SQL ja Hadoopi andmetehnoloogia valdkonnas.

Andmetehnikas vähem populaarne

Nüüd vaatame, millised tehnoloogiad on andmeinseneride vabade ametikohtade puhul vähem populaarsed.
Kõige järsem langus võrreldes andmeteaduse sektoriga toimus aastal R: seal esines ta ligikaudu 56% vabadest ametikohtadest, siin - ainult 17%. Muljetavaldav. R on programmeerimiskeel, mida soosivad teadlased ja statistikud ning mis on maailmas kardetumalt kaheksas keel.

SAS ka andmeinseneri ametikohtade vabadel töökohtadel leitakse oluliselt harvem - vahe on 14%. SAS on patenteeritud keel, mis on loodud statistika ja andmetega töötamiseks. Huvitav punkt: tulemuste põhjal otsustades minu uurimustöö andmeteadlaste töökohtade kohta, on see viimasel ajal oluliselt kaotanud – rohkem kui ükski teine ​​tehnoloogia.

Nõutud nii andmetehnika kui ka andmeteaduse alal

Tuleb märkida, et mõlema seti esimesest kümnest positsioonist kaheksa on samad. SQL, Python, Spark, AWS, Java, Hadoop, Hive ja Scala pääsesid nii andmetehnika kui ka andmeteaduse tööstuse esikümnesse. Alloleval graafikul on näha viisteist kõige populaarsemat tehnoloogiat andmeinseneride tööandjate seas ning nende kõrval on nende vabade ametikohtade määr andmeteadlaste jaoks.

Nõudlikumad oskused andmeinseneri erialal

Soovitused

Kui soovite andmetehnikaga tegeleda, soovitaksin teil omandada järgmised tehnoloogiad - loetlen need ligikaudse tähtsuse järjekorras.

Õppige SQL-i. Ma kaldun PostgreSQL-i poole, sest see on avatud lähtekoodiga, kogukonnas väga populaarne ja on kasvufaasis. Keele kasutamist saate õppida raamatust Minu meeldejääv SQL – selle pilootversioon on saadaval siin.

Õppige Pythonit, isegi kui mitte kõige raskemal tasemel. My Memorable Python on loodud spetsiaalselt algajatele. Seda saab osta aadressil Amazon, elektrooniline või füüsiline koopia, teie valikul, või laadige alla pdf- või epub-vormingus selles kohas.

Kui olete Pythoniga tuttav, liikuge edasi pandade juurde, Pythoni teeki, mida kasutatakse andmete puhastamiseks ja töötlemiseks. Kui teie eesmärk on töötada ettevõttes, mis nõuab Pythonis kirjutamise oskust (ja see on enamik neist), võite olla kindel, et vaikimisi eeldatakse pandade tundmist. Lõpetan praegu pandadega töötamise sissejuhatavat juhendit – saate tellimaet mitte lasta vabakslaskmise hetke käest.

Meister AWS. Kui soovite saada andmeinseneriks, ei saa te ilma pilveplatvormita hakkama ja AWS on neist populaarseim. Kursused aitasid mind palju Linuxi akadeemiakui ma õppisin andmetöötlus Google Cloudis, arvan, et neil on ka AWS-is häid materjale.

Kui teil on kogu see nimekiri juba valmis ja soovite andmeinsenerina tööandjate silmis veelgi kasvada, soovitan suurandmetega töötamiseks lisada Apache Sparki. Kuigi minu uurimustöö andmeteadlaste vabade ametikohtade kohta näitas huvi vähenemist, esineb andmeinseneride seas seda siiski peaaegu igal teisel vabal ametikohal.

lõpuks

Loodan, et see ülevaade andmeinseneride jaoks kõige nõudlikumatest tehnoloogiatest oli teile kasulik. Kui soovite teada, kuidas analüütikutel läheb, lugege minu teine ​​artikkel. Head inseneritööd!

Allikas: www.habr.com

Lisa kommentaar