Cele mai solicitate competențe în profesia de inginer de date

În conformitate cu statistici 2019, inginer de date este în prezent o profesie a cărei cerere crește mai rapid decât oricare alta. Un inginer de date joacă un rol critic într-o organizație - creând și întreținând conducte și baze de date care sunt utilizate pentru a procesa, transforma și stoca date. De ce aptitudini au nevoie în primul rând reprezentanții acestei profesii? Este lista diferită de ceea ce este cerut de la oamenii de știință de date? Veți afla despre toate acestea din articolul meu.

Am analizat posturile vacante pentru postul de inginer de date așa cum sunt în ianuarie 2020 pentru a înțelege care abilități tehnologice sunt cele mai populare. Apoi am comparat rezultatele cu statisticile privind posturile vacante pentru postul de data scientist - și au apărut câteva diferențe interesante.

Fără preambol, iată primele zece tehnologii care sunt menționate cel mai des în postările de locuri de muncă:

Cele mai solicitate competențe în profesia de inginer de date

Mențiune de tehnologii în posturile vacante pentru postul de inginer de date în 2020

Să ne dăm seama.

Responsabilitățile unui inginer de date

Astăzi, munca pe care o fac inginerii de date este de mare importanță pentru organizații - aceștia sunt oamenii care sunt responsabili pentru stocarea informațiilor și aducerea lor într-o asemenea formă încât alți angajați să poată lucra cu ele. Inginerii de date construiesc conducte pentru a transmite date în flux sau în loturi din mai multe surse. Conductele efectuează apoi operațiuni de extracție, transformare și încărcare (cu alte cuvinte, procese ETL), făcând datele mai potrivite pentru utilizare ulterioară. După aceasta, datele sunt transmise analiștilor și cercetătorilor de date pentru o prelucrare mai profundă. În cele din urmă, datele își încheie călătoria în tablouri de bord, rapoarte și modele de învățare automată.

Căutam informații care să îmi permită să trag o concluzie despre care tehnologii sunt cele mai solicitate în munca unui inginer de date în acest moment.

metode

Am colectat informații de pe trei site-uri de căutare de locuri de muncă − SimplyHirred, Intr-adevar и Monstru și a analizat ce cuvinte cheie au găsit împreună cu „inginer de date” în textele posturilor vacante destinate rezidenților din SUA. Pentru această sarcină am folosit două biblioteci Python - Cereri и Supă frumoasă. Printre cuvintele cheie le-am inclus atât pe cele care au fost incluse în lista anterioară pentru analiza posturilor vacante pentru postul de data scientist, cât și pe cele pe care le-am selectat manual în timp ce citeam ofertele de muncă pentru ingineri de date. LinkedIn nu a fost inclus în lista de surse, deoarece am fost interzis acolo după ultima mea încercare de a colecta date.

Pentru fiecare cuvânt cheie, am calculat procentul de accesări din numărul total de texte de pe fiecare site separat, apoi am calculat media pentru cele trei surse.

Constatări

Mai jos sunt cei treizeci de termeni de inginerie a datelor tehnice cu cele mai mari scoruri pe toate cele trei locuri de muncă.

Cele mai solicitate competențe în profesia de inginer de date

Și iată aceleași numere, dar prezentate sub formă de tabel:

Cele mai solicitate competențe în profesia de inginer de date

Să mergem în ordine.

Revizuirea rezultatelor

Atât SQL, cât și Python apar în mai mult de două treimi din locurile de muncă disponibile examinate. Aceste două tehnologii au sens să studiezi mai întâi. Piton este un limbaj de programare foarte popular folosit pentru lucrul cu date, crearea de site-uri web și scrierea de scripturi. SQL înseamnă Structured Query Language; implică un standard implementat de un grup de limbi și este folosit pentru a prelua date din baze de date relaționale. A apărut cu mult timp în urmă și s-a dovedit a fi foarte rezistent.

Spark este menționat în aproximativ jumătate din posturile vacante. Apache Spark este un „motor unificat de analiză a datelor mari cu module încorporate pentru streaming, SQL, învățare automată și procesare grafică”. Este deosebit de popular printre cei care lucrează cu baze de date mari.

AWS apare în aproximativ 45% dintre postările de locuri de muncă. Este o platformă de cloud computing produsă de Amazon; are cea mai mare cotă de piață dintre toate platformele cloud.
Urmează Java și Hadoop - puțin mai mult de 40% pentru fratele lor. Java este o limbă larg vorbită, testată în luptă, care Sondaj pentru dezvoltatori Stack Overflow 2019 a fost premiat pe locul zece printre limbile care provoacă groază în rândul programatorilor. În schimb, Python a fost al doilea cel mai iubit limbaj. Limbajul Java este condus de Oracle și tot ce trebuie să știți despre el poate fi înțeles din această captură de ecran a paginii oficiale din ianuarie 2020.

Cele mai solicitate competențe în profesia de inginer de date

E ca și cum ai merge într-o mașină a timpului
Apache Hadoop folosește modelul de programare MapReduce cu clustere de servere pentru big data. Acum acest model este din ce în ce mai abandonat.

Apoi vedem Hive, Scala, Kafka și NoSQL - fiecare dintre aceste tehnologii este menționată într-un sfert din posturile vacante depuse. Apache Hive este un software de depozit de date care „ușoară citirea, scrierea și gestionarea seturilor mari de date care se află în magazine distribuite folosind SQL”. Scala – un limbaj de programare care este utilizat în mod activ atunci când se lucrează cu date mari. În special, Spark a fost creat la Scala. În clasamentul deja menționat al limbilor de temut, Scala ocupă locul unsprezece. Apache Kafka – o platformă distribuită pentru procesarea mesajelor în flux. Foarte popular ca mijloc de transmitere a datelor.

Baze de date NoSQL se contrastează cu SQL. Ele diferă prin faptul că sunt non-relaționale, nestructurate și scalabile pe orizontală. NoSQL a câștigat o oarecare popularitate, dar nebunia pentru abordare, chiar și până la profețiile că va înlocui SQL ca paradigmă dominantă de stocare, pare să s-a încheiat.

Comparație cu termenii din posturile vacante de data scientist

Iată treizeci de termeni tehnologici cei mai des întâlniți în rândul angajatorilor din știința datelor. Am obținut această listă în același mod ca cel descris mai sus pentru ingineria datelor.

Cele mai solicitate competențe în profesia de inginer de date

Mențiuni de tehnologie în posturile vacante pentru postul de Data Scientist în 2020

Dacă vorbim de numărul total, față de recrutarea avută în vedere anterior, au existat cu 28% mai multe posturi vacante (12 față de 013). Să vedem ce tehnologii sunt mai puțin frecvente în posturile vacante pentru oamenii de știință de date decât pentru inginerii de date.

Mai popular în ingineria datelor

Graficul de mai jos prezintă cuvinte cheie cu o diferență medie mai mare de 10% sau mai mică de -10%.

Cele mai solicitate competențe în profesia de inginer de date

Cele mai mari diferențe în frecvența cuvintelor cheie între inginerul de date și cercetătorul de date

AWS arată cea mai semnificativă creștere: în ingineria datelor apare cu 25% mai regulat decât în ​​știința datelor (aproximativ 45% și, respectiv, 20% din numărul total de posturi vacante). Diferența este vizibilă!

Iată aceleași date într-o prezentare ușor diferită - în grafic, rezultatele pentru același cuvânt cheie în posturile vacante pentru funcția de inginer de date și cercetător de date sunt situate una lângă alta.

Cele mai solicitate competențe în profesia de inginer de date

Cele mai mari diferențe în frecvența cuvintelor cheie între inginerul de date și cercetătorul de date

Următorul salt cel mai mare pe care l-am observat a fost în Spark - un inginer de date trebuie adesea să lucreze cu date mari. Kafka de asemenea, a crescut cu 20%, adică de aproape patru ori față de rezultatul pentru posturile vacante de data scientist. Transferul de date este una dintre responsabilitățile cheie ale unui inginer de date. În sfârșit, numărul mențiunilor a fost cu 15% mai mare în domeniul ingineriei datelor pentru Java, NoSQL, Redshift, SQL și Hadoop.

Mai puțin popular în ingineria datelor

Acum să vedem ce tehnologii sunt mai puțin populare în posturile vacante de inginer de date.
Cel mai puternic declin în comparație cu sectorul științei datelor a avut loc în R: acolo a apărut în aproximativ 56% din posturi vacante, aici - doar în 17%. Impresionant. R este un limbaj de programare care este favorizat de oamenii de știință și statisticieni și este al optulea cel mai de temut limbaj din lume.

SAS se regăsește și în posturile vacante pentru postul de inginer de date semnificativ mai rar - diferența este de 14%. SAS este un limbaj proprietar conceput pentru lucrul cu statistici și date. Punct interesant: a judeca după rezultate cercetarea mea privind locurile de muncă deschise pentru cercetătorii de date, a pierdut mult teren recent – ​​mai mult decât orice altă tehnologie.

La cerere atât în ​​ingineria datelor, cât și în știința datelor

Trebuie remarcat faptul că opt din primele zece poziții din ambele seturi sunt aceleași. SQL, Python, Spark, AWS, Java, Hadoop, Hive și Scala au ajuns în top zece pentru industriile de inginerie a datelor și știința datelor. În graficul de mai jos puteți vedea cele cincisprezece tehnologii cele mai populare în rândul angajatorilor ingineri de date, iar lângă acestea este rata de locuri de muncă vacante pentru oamenii de știință de date.

Cele mai solicitate competențe în profesia de inginer de date

Recomandări

Dacă doriți să intrați în ingineria datelor, v-aș sfătui să stăpâniți următoarele tehnologii - le enumerez în ordinea aproximativă a priorității.

Învață SQL. Înclin spre PostgreSQL pentru că este open source, foarte popular în comunitate și se află într-o fază de creștere. Puteți învăța cum să utilizați limba din cartea My Memorable SQL - versiunea sa pilot este disponibilă aici.

Master Python, chiar dacă nu la nivelul cel mai hardcore. My Memorable Python este conceput special pentru începători. Poate fi achiziționat de la Amazon, copie electronică sau fizică, la alegere sau descărcare în format pdf sau epub pe acest site.

Odată ce vă familiarizați cu Python, treceți la panda, o bibliotecă Python care este folosită pentru curățarea și procesarea datelor. Dacă doriți să lucrați într-o companie care necesită abilitatea de a scrie în Python (și aceasta este majoritatea), puteți fi sigur că cunoașterea panda va fi asumată în mod implicit. În prezent, termin un ghid introductiv pentru lucrul cu panda - poți Abonati-vapentru a nu rata momentul eliberării.

Maestru AWS. Dacă doriți să deveniți inginer de date, nu vă puteți lipsi de o platformă cloud în depozit, iar AWS este cea mai populară dintre ele. Cursurile m-au ajutat foarte mult Academia Linuxcând învăţam ingineria datelor pe Google Cloud, cred că vor avea și materiale bune pe AWS.

Dacă ați completat deja întreaga listă și doriți să creșteți și mai mult în ochii angajatorilor ca inginer de date, vă sugerez să adăugați Apache Spark pentru lucrul cu big data. Deși cercetările mele privind posturile vacante de cercetători de date au arătat o scădere a interesului, în rândul inginerilor de date, acesta apare încă în aproape fiecare al doilea post vacant.

în sfârșit

Sper că ați găsit utilă această prezentare generală a celor mai solicitate tehnologii pentru inginerii de date. Dacă vă întrebați cum se descurcă posturile de analist, citiți celălalt articol al meu. Inginerie fericită!

Sursa: www.habr.com

Adauga un comentariu