A legkeresettebb készségek az adatmérnöki szakmában

Szerint statisztika 2019, az adatmérnök jelenleg olyan szakma, amelynek kereslete gyorsabban növekszik, mint bármelyik másik. Az adatmérnök kritikus szerepet tölt be egy szervezetben – olyan folyamatokat és adatbázisokat hoz létre és tart fenn, amelyeket adatok feldolgozására, átalakítására és tárolására használnak. Milyen képességekre van szükségük elsősorban e szakma képviselőinek? Eltér a lista attól, amit az adattudósoktól megkövetelnek? Mindezt cikkemből megtudhatja.

Elemeztem a 2020. januári adatmérnöki állás megüresedését, hogy megértsem, mely technológiai készségek a legnépszerűbbek. Ezután összehasonlítottam az eredményeket az adattudós pozíció betöltésére vonatkozó statisztikákkal – és érdekes különbségek derültek ki.

Nagy bevezető nélkül íme a tíz legjobb technológia, amelyet leggyakrabban emlegetnek az álláshirdetésekben:

A legkeresettebb készségek az adatmérnöki szakmában

Technológiák említése az adatmérnöki állás betöltésére 2020-ban

Nézzük meg.

Az adatmérnök feladatai

Ma az adatmérnökök által végzett munka nagy jelentőséggel bír a szervezetek számára – ezek az emberek felelősek az információk tárolásáért és olyan formába hozataláért, hogy más munkatársak is dolgozhassanak velük. Az adatmérnökök folyamatokat építenek fel az adatok több forrásból történő streamelésére vagy kötegelésére. A csővezetékek ezután kinyerési, átalakítási és betöltési műveleteket (más szóval ETL-folyamatokat) hajtanak végre, így az adatok alkalmasabbak a további felhasználásra. Ezt követően az adatokat elemzőknek és adattudósoknak továbbítják mélyebb feldolgozás céljából. Végül az adatok véget érnek az irányítópultok, jelentések és gépi tanulási modellek felé.

Olyan információkat kerestem, amelyek alapján következtetést vonhatok le arról, hogy jelenleg mely technológiákra van a legnagyobb igény az adatmérnök munkájában.

mód

Három álláskereső oldalról gyűjtöttem információkat − SimplyHired, Valóban и Szörnyeteg és megvizsgálta, hogy az „adatmérnök” kifejezéssel összefüggésben milyen kulcsszavakra bukkantak az Egyesült Államok lakosait megcélzó állások szövegeiben. Ehhez a feladathoz két Python könyvtárat használtam − kérések и Gyönyörű leves. A kulcsszavak közé azokat is felvettem, amelyek az előző listában szerepeltek az adatkutatói állások betöltésére vonatkozó állások elemzésére, és azokat, amelyeket az adatmérnöki állásajánlatok olvasásakor manuálisan választottam ki. A LinkedIn nem került be a források közé, mivel az utolsó adatgyűjtési kísérletem után onnan kitiltottak.

Minden kulcsszónál külön-külön kiszámoltam a találatok százalékos arányát az egyes webhelyeken található szövegek teljes számából, majd a három forrás átlagát.

Álláspontja

Alább látható a harminc műszaki adatmérnöki kifejezés, amelyek mindhárom munkaterületen a legmagasabb pontszámot kapták.

A legkeresettebb készségek az adatmérnöki szakmában

És itt vannak ugyanazok a számok, de táblázatos formában:

A legkeresettebb készségek az adatmérnöki szakmában

Menjünk sorban.

Az eredmények áttekintése

Az SQL és a Python egyaránt megjelenik a vizsgált álláslehetőségek több mint kétharmadában. Ezt a két technológiát érdemes először tanulmányozni. Piton egy nagyon népszerű programozási nyelv, amelyet adatkezelésre, webhelyek létrehozására és szkriptek írására használnak. SQL a Structured Query Language rövidítése; Ez egy nyelvcsoport által megvalósított szabványt foglal magában, és adatok lekérésére szolgál relációs adatbázisokból. Nagyon régen jelent meg, és rendkívül ellenállónak bizonyult.

A megüresedett állások mintegy felében Sparkot említik. Apache Spark egy „egyesített nagy adatelemző motor beépített adatfolyam-, SQL-, gépi tanulási és grafikonfeldolgozási modulokkal”. Különösen népszerű azok körében, akik nagy adatbázisokkal dolgoznak.

Az AWS az álláshirdetések körülbelül 45%-ában jelenik meg. Ez egy felhőalapú számítástechnikai platform, amelyet az Amazon gyártott; az összes felhőplatform között a legnagyobb piaci részesedéssel rendelkezik.
Következik a Java és a Hadoop – valamivel több, mint 40% testvérük számára. Jáva egy széles körben beszélt, harcokban tesztelt nyelv 2019-es Stack Overflow fejlesztői felmérés tizedik helyezést ért el azon nyelvek között, amelyek rettegést okoznak a programozók körében. Ezzel szemben a Python volt a második legkedveltebb nyelv. A Java nyelvet az Oracle üzemelteti, és minden, amit tudni kell róla, megérthető a hivatalos oldal 2020 januárjától készült képernyőképéről.

A legkeresettebb készségek az adatmérnöki szakmában

Olyan ez, mint egy időgépen lovagolni
Apache Hadoop a MapReduce programozási modellt használja szerverfürtökkel a nagy adatokhoz. Most ezt a modellt egyre inkább elhagyják.

Aztán látjuk a Hive-t, a Scalát, a Kafkát és a NoSQL-t – ezek a technológiák mindegyike szerepel a beküldött állások egynegyedében. Az Apache Hive egy adattárház-szoftver, amely „könnyűvé teszi az elosztott üzletekben található nagy adatkészletek olvasását, írását és kezelését SQL használatával”. Scala – olyan programozási nyelv, amelyet aktívan használnak nagy adatokkal való munka során. A Sparkot a Scalában hozták létre. A rettegett nyelvek már említett rangsorában a Scala a tizenegyedik helyen áll. Apache Kafka – elosztott platform a streaming üzenetek feldolgozására. Nagyon népszerű adatfolyamként.

NoSQL adatbázisok szembeállítják magukat az SQL-lel. Abban különböznek egymástól, hogy nem relációsak, strukturálatlanok és vízszintesen méretezhetők. A NoSQL némi népszerűségre tett szert, de úgy tűnik, vége a megközelítés iránti őrületnek, még akkor is, ha olyan jóslatok születtek, hogy az SQL-t váltja fel a domináns tárolási paradigmaként.

Összehasonlítás a megüresedett adattudósi állások kifejezéseivel

Íme harminc technológiai kifejezés, amelyek a leggyakoribbak az adattudományi munkaadók körében. Ezt a listát ugyanúgy kaptam meg, mint fentebb az adatkezelésnél leírtam.

A legkeresettebb készségek az adatmérnöki szakmában

Technológia említése a 2020-as adattudósi pozíció betöltésére

Ha az összlétszámról beszélünk, akkor a korábban figyelembe vett toborzáshoz képest 28%-kal több volt az üresedés (12 013 szemben a 9396 XNUMX-tal). Nézzük meg, mely technológiák kevésbé gyakoriak az adattudósok betöltetlen állásain, mint az adatmérnököknél.

Népszerűbb az adatkezelésben

Az alábbi grafikon azokat a kulcsszavakat mutatja, amelyek átlagos eltérése 10%-nál nagyobb vagy -10%-nál kisebb.

A legkeresettebb készségek az adatmérnöki szakmában

A legnagyobb különbségek a kulcsszavak gyakoriságában az adatmérnök és az adattudós között

A legjelentősebb növekedést az AWS mutatja: az adattechnikában 25%-kal rendszeresebben jelenik meg, mint az adattudományban (az összes betöltetlen állás kb. 45%-a, illetve 20%-a). A különbség észrevehető!

Itt ugyanazok az adatok egy kicsit más megjelenítésben - a grafikonon egymás mellett helyezkednek el az adatmérnök és adattudós munkakör betöltésére meghirdetett pozíciók azonos kulcsszóra vonatkozó eredmények.

A legkeresettebb készségek az adatmérnöki szakmában

A legnagyobb különbségek a kulcsszavak gyakoriságában az adatmérnök és az adattudós között

A következő legnagyobb ugrás a Sparkban volt – egy adatmérnöknek gyakran nagy adattal kell dolgoznia. Kafka szintén 20%-kal, azaz közel négyszeresére nőtt az adatkutatói állások eredményéhez képest. Az adatátvitel az adatmérnökök egyik legfontosabb feladata. Végül 15%-kal magasabb volt az említések száma a Java, NoSQL, Redshift, SQL és Hadoop adatkezelési területén.

Kevésbé népszerű az adatkezelésben

Most pedig nézzük meg, mely technológiák kevésbé népszerűek az adatmérnöki állásokban.
A legélesebb visszaesés az adattudományi szektorhoz képest ben következett be R: ott a betöltetlen állások hozzávetőlegesen 56%-án, itt - csak 17%-án jelent meg. Hatásos. Az R egy programozási nyelv, amelyet a tudósok és a statisztikusok kedvelnek, és a nyolcadik legfélelmetesebb nyelv a világon.

SAS szintén lényegesen ritkábban található meg az adatmérnöki pozíció betöltése esetén - a különbség 14%. A SAS egy védett nyelv, amelyet statisztikákkal és adatokkal való munkavégzésre terveztek. Érdekesség: az eredmények alapján ítélve az adattudósok számára kínált álláslehetőségekkel kapcsolatos kutatásaim, az utóbbi időben sokat vesztett – többet, mint bármely más technológia.

Mind az adatmérnöki, mind az adattudományi területen keresett

Megjegyzendő, hogy mindkét szettben az első tíz pozícióból nyolc azonos. Az SQL, a Python, a Spark, az AWS, a Java, a Hadoop, a Hive és a Scala bekerült az első tíz közé mind az adatmérnöki, mind az adattudományi ágazatban. Az alábbi grafikonon az adatmérnöki munkaadók körében a tizenöt legnépszerűbb technológia látható, mellettük pedig az adatkutatók üresedési aránya.

A legkeresettebb készségek az adatmérnöki szakmában

Ajánlások

Ha adatmérnökséggel szeretne foglalkozni, azt javaslom, hogy sajátítsa el az alábbi technológiákat - közelítő fontossági sorrendben sorolom fel őket.

Tanulj SQL-t. A PostgreSQL felé hajlok, mert nyílt forráskódú, nagyon népszerű a közösségben, és növekedési szakaszban van. A nyelv használatát a My Memorable SQL című könyvből tanulhatja meg – ennek pilot verziója elérhető itt.

Mester Python, még ha nem is a legkeményebb szinten. A My Memorable Python kifejezetten kezdőknek készült. Megvásárolható a amazon, elektronikus vagy fizikai másolat, tetszés szerint, vagy letölthető pdf vagy epub formátumban ezen az oldalon.

Miután megismerte a Pythont, lépjen tovább a pandákhoz, egy Python-könyvtárhoz, amelyet adattisztításra és -feldolgozásra használnak. Ha olyan cégnél szeretne dolgozni, amely Python nyelvű íráskészséget igényel (és ez a legtöbb), biztos lehet benne, hogy a pandák ismerete alapértelmezés szerint feltételezhető. Jelenleg befejezem a pandákkal való munka bevezető útmutatóját – megteheti előfizethogy ne mulasszuk el a szabadulás pillanatát.

AWS mester. Ha adatmérnök szeretne lenni, nem nélkülözheti a felhőplatformot a rejtettben, ezek közül pedig az AWS a legnépszerűbb. A tanfolyamok sokat segítettek Linux Akadémiaamikor tanultam adatkezelés a Google Cloudon, szerintem az AWS-en is lesznek jó anyagaik.

Ha már kitöltötte ezt a teljes listát, és adatmérnökként tovább szeretne növekedni a munkaadók szemében, javaslom, hogy vegye fel az Apache Sparkot a nagy adatokkal való munkavégzéshez. Bár az adatkutatói állásokkal kapcsolatos kutatásaim az érdeklődés visszaesését mutatták, az adatmérnökök körében még mindig szinte minden második álláshelyen megjelenik.

végül

Remélem, hasznosnak találta az adatmérnökök számára legkeresettebb technológiákról szóló áttekintést. Ha kíváncsi, hogyan állnak az elemzői állások, olvassa el másik cikkem. Boldog mérnöki munkát!

Forrás: will.com

Hozzászólás