În conformitate cu
Am analizat posturile vacante pentru postul de inginer de date așa cum sunt în ianuarie 2020 pentru a înțelege care abilități tehnologice sunt cele mai populare. Apoi am comparat rezultatele cu statisticile privind posturile vacante pentru postul de data scientist - și au apărut câteva diferențe interesante.
Fără preambol, iată primele zece tehnologii care sunt menționate cel mai des în postările de locuri de muncă:
Mențiune de tehnologii în posturile vacante pentru postul de inginer de date în 2020
Responsabilitățile unui inginer de date
Astăzi, munca pe care o fac inginerii de date este de mare importanță pentru organizații - aceștia sunt oamenii care sunt responsabili pentru stocarea informațiilor și aducerea lor într-o asemenea formă încât alți angajați să poată lucra cu ele. Inginerii de date construiesc conducte pentru a transmite date în flux sau în loturi din mai multe surse. Conductele efectuează apoi operațiuni de extracție, transformare și încărcare (cu alte cuvinte, procese ETL), făcând datele mai potrivite pentru utilizare ulterioară. După aceasta, datele sunt transmise analiștilor și cercetătorilor de date pentru o prelucrare mai profundă. În cele din urmă, datele își încheie călătoria în tablouri de bord, rapoarte și modele de învățare automată.
Căutam informații care să îmi permită să trag o concluzie despre care tehnologii sunt cele mai solicitate în munca unui inginer de date în acest moment.
metode
Am colectat informații de pe trei site-uri de căutare de locuri de muncă −
Pentru fiecare cuvânt cheie, am calculat procentul de accesări din numărul total de texte de pe fiecare site separat, apoi am calculat media pentru cele trei surse.
Constatări
Mai jos sunt cei treizeci de termeni de inginerie a datelor tehnice cu cele mai mari scoruri pe toate cele trei locuri de muncă.
Și iată aceleași numere, dar prezentate sub formă de tabel:
Să mergem în ordine.
Revizuirea rezultatelor
Atât SQL, cât și Python apar în mai mult de două treimi din locurile de muncă disponibile examinate. Aceste două tehnologii au sens să studiezi mai întâi.
Spark este menționat în aproximativ jumătate din posturile vacante.
AWS apare în aproximativ 45% dintre postările de locuri de muncă. Este o platformă de cloud computing produsă de Amazon; are cea mai mare cotă de piață dintre toate platformele cloud.
Urmează Java și Hadoop - puțin mai mult de 40% pentru fratele lor.
E ca și cum ai merge într-o mașină a timpului
Apoi vedem Hive, Scala, Kafka și NoSQL - fiecare dintre aceste tehnologii este menționată într-un sfert din posturile vacante depuse. Apache Hive este un software de depozit de date care „ușoară citirea, scrierea și gestionarea seturilor mari de date care se află în magazine distribuite folosind SQL”.
Comparație cu termenii din posturile vacante de data scientist
Iată treizeci de termeni tehnologici cei mai des întâlniți în rândul angajatorilor din știința datelor. Am obținut această listă în același mod ca cel descris mai sus pentru ingineria datelor.
Mențiuni de tehnologie în posturile vacante pentru postul de Data Scientist în 2020
Dacă vorbim de numărul total, față de recrutarea avută în vedere anterior, au existat cu 28% mai multe posturi vacante (12 față de 013). Să vedem ce tehnologii sunt mai puțin frecvente în posturile vacante pentru oamenii de știință de date decât pentru inginerii de date.
Mai popular în ingineria datelor
Graficul de mai jos prezintă cuvinte cheie cu o diferență medie mai mare de 10% sau mai mică de -10%.
Cele mai mari diferențe în frecvența cuvintelor cheie între inginerul de date și cercetătorul de date
AWS arată cea mai semnificativă creștere: în ingineria datelor apare cu 25% mai regulat decât în știința datelor (aproximativ 45% și, respectiv, 20% din numărul total de posturi vacante). Diferența este vizibilă!
Iată aceleași date într-o prezentare ușor diferită - în grafic, rezultatele pentru același cuvânt cheie în posturile vacante pentru funcția de inginer de date și cercetător de date sunt situate una lângă alta.
Cele mai mari diferențe în frecvența cuvintelor cheie între inginerul de date și cercetătorul de date
Următorul salt cel mai mare pe care l-am observat a fost în Spark - un inginer de date trebuie adesea să lucreze cu date mari.
Mai puțin popular în ingineria datelor
Acum să vedem ce tehnologii sunt mai puțin populare în posturile vacante de inginer de date.
Cel mai puternic declin în comparație cu sectorul științei datelor a avut loc în
La cerere atât în ingineria datelor, cât și în știința datelor
Trebuie remarcat faptul că opt din primele zece poziții din ambele seturi sunt aceleași. SQL, Python, Spark, AWS, Java, Hadoop, Hive și Scala au ajuns în top zece pentru industriile de inginerie a datelor și știința datelor. În graficul de mai jos puteți vedea cele cincisprezece tehnologii cele mai populare în rândul angajatorilor ingineri de date, iar lângă acestea este rata de locuri de muncă vacante pentru oamenii de știință de date.
Recomandări
Dacă doriți să intrați în ingineria datelor, v-aș sfătui să stăpâniți următoarele tehnologii - le enumerez în ordinea aproximativă a priorității.
Învață SQL. Înclin spre PostgreSQL pentru că este open source, foarte popular în comunitate și se află într-o fază de creștere. Puteți învăța cum să utilizați limba din cartea My Memorable SQL - versiunea sa pilot este disponibilă
Master Python, chiar dacă nu la nivelul cel mai hardcore. My Memorable Python este conceput special pentru începători. Poate fi achiziționat de la
Odată ce vă familiarizați cu Python, treceți la panda, o bibliotecă Python care este folosită pentru curățarea și procesarea datelor. Dacă doriți să lucrați într-o companie care necesită abilitatea de a scrie în Python (și aceasta este majoritatea), puteți fi sigur că cunoașterea panda va fi asumată în mod implicit. În prezent, termin un ghid introductiv pentru lucrul cu panda - poți
Maestru AWS. Dacă doriți să deveniți inginer de date, nu vă puteți lipsi de o platformă cloud în depozit, iar AWS este cea mai populară dintre ele. Cursurile m-au ajutat foarte mult
Dacă ați completat deja întreaga listă și doriți să creșteți și mai mult în ochii angajatorilor ca inginer de date, vă sugerez să adăugați Apache Spark pentru lucrul cu big data. Deși cercetările mele privind posturile vacante de cercetători de date au arătat o scădere a interesului, în rândul inginerilor de date, acesta apare încă în aproape fiecare al doilea post vacant.
în sfârșit
Sper că ați găsit utilă această prezentare generală a celor mai solicitate tehnologii pentru inginerii de date. Dacă vă întrebați cum se descurcă posturile de analist, citiți
Sursa: www.habr.com