Vastavalt
Analüüsisin vabu töökohti andmeinseneri ametikohale 2020. aasta jaanuaris, et mõista, millised tehnoloogiaoskused on kõige populaarsemad. Seejärel võrdlesin tulemusi andmeteadlase ametikohtade vabade töökohtade statistikaga – ja ilmnesid huvitavad erinevused.
Ilma suurema sissejuhatuseta on siin kümme tehnoloogiat, mida töökuulutustes kõige sagedamini mainitakse:
Tehnoloogiate mainimine vabadel töökohtadel andmeinseneri ametikohal 2020. aastal
Andmeinseneri kohustused
Tänapäeval on andmeinseneride tööl organisatsioonide jaoks suur tähtsus – just need inimesed vastutavad info salvestamise ja sellisesse vormi viimise eest, et teised töötajad saaksid sellega töötada. Andmeinsenerid loovad torujuhtmeid mitmest allikast pärit andmete voogesitamiseks või komplekteerimiseks. Seejärel teostavad torujuhtmed ekstraheerimis-, teisendus- ja laadimisoperatsioone (teisisõnu ETL-protsesse), muutes andmed edasiseks kasutamiseks sobivamaks. Pärast seda esitatakse andmed analüütikutele ja andmeteadlastele sügavamaks töötlemiseks. Lõpuks lõpetavad andmed oma teekonna armatuurlaudades, aruannetes ja masinõppemudelites.
Otsisin infot, mis võimaldaks teha järelduse, millised tehnoloogiad on hetkel andmeinseneri töös enim nõutud.
Meetodid
Kogusin teavet kolmelt tööotsingu saidilt −
Iga märksõna jaoks arvutasin tabamuste protsendi iga saidi tekstide koguarvust eraldi ja seejärel arvutasin kolme allika keskmise.
Järeldused
Allpool on kolmkümmend tehnilist andmetöötluse terminit, millel on kõrgeim hind kõigis kolmes töökohas.
Ja siin on samad numbrid, kuid esitatud tabeli kujul:
Lähme järjekorras.
Tulemuste ülevaade
Nii SQL kui ka Python esinevad enam kui kahes kolmandikus vaadatud tööpakkumistest. Neid kahte tehnoloogiat on mõttekas kõigepealt uurida.
Säde on mainitud umbes pooltel vabadest töökohtadest.
AWS esineb ligikaudu 45% töökuulutustes. See on Amazoni toodetud pilvandmetöötlusplatvorm; sellel on kõigi pilveplatvormide seas suurim turuosa.
Järgmisena tulevad Java ja Hadoop – nende vennale veidi rohkem kui 40%.
See on nagu ajamasinaga sõitmine
Siis näeme Hive, Scala, Kafka ja NoSQL – igat neist tehnoloogiatest mainitakse veerandis esitatud vabadest töökohtadest. Apache Hive on andmelao tarkvara, mis "muudab SQL-i abil hajutatud kauplustes asuvate suurte andmekogude lugemise, kirjutamise ja haldamise lihtsaks".
Võrdlus andmeteadlaste vabade ametikohtade terminitega
Siin on kolmkümmend andmeteaduse tööandjate seas levinumat tehnoloogiaterminit. Sain selle loendi samamoodi nagu ülalpool andmetöötluse jaoks kirjeldatud.
Tehnoloogia mainimine vabadel kohtadel andmeteadlase ametikohale 2020. aastal
Kui rääkida koguarvust, siis võrreldes varem arvestatud värbamisega oli vabu töökohti 28% rohkem (12 013 versus 9396 XNUMX). Vaatame, millised tehnoloogiad on andmeteadlaste vabadel töökohtadel vähem levinud kui andmeinseneride jaoks.
Andmetehnikas populaarsem
Allolev graafik näitab märksõnu, mille keskmine erinevus on suurem kui 10% või väiksem kui -10%.
Suurimad erinevused märksõnade sageduses andmeinseneri ja andmeteadlase vahel
AWS näitab kõige olulisemat kasvu: andmetehnikas ilmub see 25% regulaarsemalt kui andmeteaduses (vastavalt ligikaudu 45% ja 20% vabade töökohtade koguarvust). Erinevus on märgatav!
Siin on samad andmed veidi erinevas esitluses - graafikul asuvad kõrvuti sama märksõna tulemused andmeinseneri ja andmeteadlase ametikoha vabadel töökohtadel.
Suurimad erinevused märksõnade sageduses andmeinseneri ja andmeteadlase vahel
Järgmine suurim hüpe, mille märkasin, oli Sparkis – andmeinsener peab sageli töötama suurandmetega.
Andmetehnikas vähem populaarne
Nüüd vaatame, millised tehnoloogiad on andmeinseneride vabade ametikohtade puhul vähem populaarsed.
Kõige järsem langus võrreldes andmeteaduse sektoriga toimus aastal
Nõutud nii andmetehnika kui ka andmeteaduse alal
Tuleb märkida, et mõlema seti esimesest kümnest positsioonist kaheksa on samad. SQL, Python, Spark, AWS, Java, Hadoop, Hive ja Scala pääsesid nii andmetehnika kui ka andmeteaduse tööstuse esikümnesse. Alloleval graafikul on näha viisteist kõige populaarsemat tehnoloogiat andmeinseneride tööandjate seas ning nende kõrval on nende vabade ametikohtade määr andmeteadlaste jaoks.
Soovitused
Kui soovite andmetehnikaga tegeleda, soovitaksin teil omandada järgmised tehnoloogiad - loetlen need ligikaudse tähtsuse järjekorras.
Õppige SQL-i. Ma kaldun PostgreSQL-i poole, sest see on avatud lähtekoodiga, kogukonnas väga populaarne ja on kasvufaasis. Keele kasutamist saate õppida raamatust Minu meeldejääv SQL – selle pilootversioon on saadaval
Õppige Pythonit, isegi kui mitte kõige raskemal tasemel. My Memorable Python on loodud spetsiaalselt algajatele. Seda saab osta aadressil
Kui olete Pythoniga tuttav, liikuge edasi pandade juurde, Pythoni teeki, mida kasutatakse andmete puhastamiseks ja töötlemiseks. Kui teie eesmärk on töötada ettevõttes, mis nõuab Pythonis kirjutamise oskust (ja see on enamik neist), võite olla kindel, et vaikimisi eeldatakse pandade tundmist. Lõpetan praegu pandadega töötamise sissejuhatavat juhendit – saate
Meister AWS. Kui soovite saada andmeinseneriks, ei saa te ilma pilveplatvormita hakkama ja AWS on neist populaarseim. Kursused aitasid mind palju
Kui teil on kogu see nimekiri juba valmis ja soovite andmeinsenerina tööandjate silmis veelgi kasvada, soovitan suurandmetega töötamiseks lisada Apache Sparki. Kuigi minu uurimustöö andmeteadlaste vabade ametikohtade kohta näitas huvi vähenemist, esineb andmeinseneride seas seda siiski peaaegu igal teisel vabal ametikohal.
lõpuks
Loodan, et see ülevaade andmeinseneride jaoks kõige nõudlikumatest tehnoloogiatest oli teile kasulik. Kui soovite teada, kuidas analüütikutel läheb, lugege
Allikas: www.habr.com