Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Arabera 2019ko estatistikak, datu-ingeniaria gaur egun bere eskaria beste edozein baino azkarrago hazten ari den lanbidea da. Datu-ingeniari batek paper garrantzitsua betetzen du erakunde batean: datuak prozesatzeko, eraldatzeko eta gordetzeko erabiltzen diren kanalizazioak eta datu-baseak sortu eta mantentzen ditu. Zein gaitasun behar dituzte lehenik lanbide honetako ordezkariek? Zerrenda desberdina al da datu-zientzialariei eskatzen zaienaren aldean? Hori guztia nire artikulutik ikasiko duzu.

Datu-ingeniari lanposturako lanpostu hutsak aztertu nituen 2020ko urtarrilean dauden bezala, teknologia-gaitasun ezagunenak zein diren ulertzeko. Ondoren, emaitzak datu-zientzialari lanposturako lanpostu hutsen estatistikekin alderatu nituen, eta desberdintasun interesgarri batzuk agertu ziren.

Hitzaurre handirik gabe, hona hemen lan-eskaintzetan gehien aipatzen diren hamar teknologia nagusiak:

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

2020an datu ingeniari lanposturako lanpostu hutsetan dauden teknologien aipamena

Irudikatu.

Datu-ingeniari baten erantzukizunak

Gaur egun, datu-ingeniariek egiten duten lana garrantzi handia du erakundeentzat; hauek dira informazioa gordetzeaz eta beste langile batzuekin lan egin dezaketen forma eramateaz arduratzen diren pertsonak. Datu-ingeniariek kanalizazioak eraikitzen dituzte hainbat iturritatik datuak igortzeko edo loteatzeko. Ondoren, kanalizazioek erauzketa, eraldaketa eta karga eragiketak egiten dituzte (bestela esanda, ETL prozesuak), datuak gehiago erabiltzeko egokiagoak bihurtuz. Horren ostean, datuak analistei eta datu-zientzialariei bidaltzen zaizkie prozesatzeko sakonago egiteko. Azkenik, datuek aginte-paneletan, txostenetan eta ikaskuntza automatikoko ereduetan amaitzen dute.

Une honetan datu-ingeniari baten lanean gehien eskatzen diren teknologiak zeintzuk diren ateratzeko aukera emango zidan informazioa bilatzen ari nintzen.

metodoak

Lana bilatzeko hiru gunetako informazioa bildu nuen βˆ’ Besterik gabe, Hain zuzen ere ΠΈ Monster eta AEBetako egoiliarrei zuzendutako lanpostu hutsen testuetan "datu ingeniari"arekin batera zer gako-hitz aurkitu ziren aztertu. Zeregin honetarako bi Python liburutegi erabili ditut - eskaerak ΠΈ Zopa Ederra. Gako-hitzen artean, datu-zientzialari lanposturako lanpostu hutsak aztertzeko aurreko zerrendan sartuta zeudenak eta datu-ingeniarientzako lan-eskaintzak irakurtzean eskuz hautatutakoak sartu ditut. LinkedIn ez zen iturrien zerrendan sartu, datuak biltzeko azken saiakeraren ostean bertan debekatu ninduten eta.

Gako-hitz bakoitzerako, gune bakoitzeko testu-kopuru osoaren arrakasta-ehunekoa kalkulatu nuen bereizita, eta, ondoren, hiru iturrien batez bestekoa kalkulatu nuen.

Findings

Jarraian, hiru lan guneetan puntuaziorik altuena duten datu teknikoen ingeniaritza terminoak daude.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Eta hona hemen zenbaki berdinak, baina taula moduan aurkeztuta:

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Goazen ordenan.

Emaitzen berrikuspena

SQL eta Python berrikusitako lan-eskaintzen bi heren baino gehiagotan agertzen dira. Bi teknologia hauek dira lehenengo ikasketak zentzua dutenak. Python Datuekin lan egiteko, webguneak sortzeko eta script-ak idazteko erabiltzen den programazio-lengoaia oso ezaguna da. SQL Structured Query Language esan nahi du; hizkuntza talde batek inplementatutako estandar bat dakar eta datu-base erlazionaletatik datuak berreskuratzeko erabiltzen da. Aspaldi agertu zen eta oso erresistentea dela frogatu du.

Spark aipatzen da lanpostu hutsen erdietan. Apache Spark "Datu handien analitika motor bateratu bat da, streaming, SQL, ikaskuntza automatikorako eta grafikoen prozesamendurako modulu integratuekin". Batez ere ezaguna da datu-base handiekin lan egiten dutenen artean.

AWS lan-eskaintzen %45ean agertzen da gutxi gorabehera. Amazonek fabrikatutako cloud computing plataforma bat da; hodeiko plataforma guztien artean merkatu kuota handiena du.
Ondoren Java eta Hadoop datoz -% 40 baino apur bat bere anaiarentzat. Java oso hitz egiten den hizkuntza da, borrokan probatua 2019ko Stack Overflow Garatzaileen Inkesta programatzaileen artean izua eragiten duten hizkuntzen artean hamargarren postua lortu zuen. Aitzitik, Python izan zen bigarren hizkuntzarik maitatuena. Java hizkuntza Oracle-k zuzentzen du, eta horri buruz jakin behar duzun guztia 2020ko urtarriletik aurrera orrialde ofizialaren pantaila-argazki honetatik uler daiteke.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Denboraren makina batean ibiltzea bezalakoa da
Apache Hadoop MapReduce programazio-eredua erabiltzen du zerbitzari-klusterrak datu handietarako. Orain eredu hori gero eta gehiago baztertzen ari da.

Ondoren, Hive, Scala, Kafka eta NoSQL ikusiko ditugu - teknologia horietako bakoitza aurkeztutako lanpostu hutsen laurden batean aipatzen da. Apache Hive datu biltegiko software bat da, "SQL erabiliz banatutako dendetan bizi diren datu multzo handiak irakurtzea, idaztea eta kudeatzea errazten duena". Eskala – Big data-ekin lan egitean aktiboki erabiltzen den programazio-lengoaia. Hain zuzen ere, Spark sortu zen Scalan. Lehen aipatutako hizkuntz beldurgarrien sailkapenean, Scala hamaikagarren postuan dago. Apache Kafka – Streaming mezuak prozesatzeko plataforma banatua. Oso ezaguna da datuak erreproduzitzeko baliabide gisa.

NoSQL datu-baseak SQLrekin kontrastatu. Erlazionalak, egiturarik gabekoak eta horizontalki eskalagarriak direlako desberdintzen dira. NoSQL-k nolabaiteko ospea lortu du, baina ikuspegiaren zora, SQL biltegiratze paradigma nagusi gisa ordezkatuko duen profezietaraino ere, amaitu dela dirudi.

Data scientist lanpostu hutsetako terminoekin alderatzea

Hona hemen hogeita hamar teknologia-termino ohikoenak datu-zientzietako enpresaburuen artean. Zerrenda hau datuen ingeniaritzarako goian deskribatutako modu berean lortu nuen.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Teknologiaren aipamenak 2020an datu-zientzialari lanposturako lanpostu hutsetan

Guztizko kopuruari buruz hitz egiten badugu, lehen kontuan hartutako kontratazioarekin alderatuta, %28 plaza gehiago zeuden (12 versus 013). Ikus dezagun datu-zientzialarientzako lanpostu hutsetan zeintzuk diren hain ohikoak datu-ingeniarientzako baino.

Datuen ingeniaritzan ezagunagoa

Beheko grafikoan gako-hitzak erakusten dira, batez beste, %10etik gorako edo -10etik beherako aldea duten.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Gako-hitzen maiztasunaren alde handiena datu-ingeniariaren eta datu-zientzialariaren artean

AWS-k erakusten du igoerarik esanguratsuena: datuen ingeniaritzan datuen zientzian baino % 25 erregularagoa da (gutxi gorabehera, lanpostu huts guztien % 45 eta % 20, hurrenez hurren). Aldea nabaria da!

Hona hemen datu berdinak aurkezpen apur bat ezberdin batean - grafikoan, datu-ingeniari eta datu-zientzialari lanpostu hutsetako gako-hitz beraren emaitzak elkarren ondoan daude.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Gako-hitzen maiztasunaren alde handiena datu-ingeniariaren eta datu-zientzialariaren artean

Ohartu dudan hurrengo jauzi handiena Spark-en izan zen - datu-ingeniari batek datu handiekin lan egin behar izaten du askotan. Kafka %20 ere hazi da, hau da, ia lau aldiz datu-zientzialarien lanpostu hutsen emaitzarekin alderatuta. Datuen transferentzia datu-ingeniari baten ardura nagusietako bat da. Azkenik, Java, NoSQL, Redshift, SQL eta Hadoop-en datuen ingeniaritza arloan %15 handiagoa izan da aipamen kopurua.

Ez da hain ezaguna datuen ingeniaritzan

Orain ikus dezagun zein teknologiak ez diren hain ezagunak datu-ingeniarien lanpostu hutsetan.
Jaitsierarik handiena datu zientzien sektorearekin alderatuta gertatu da R: hor plaza hutsen % 56tan agertu zen gutxi gorabehera, hemen - % 17an bakarrik. Ikusgarria. R zientzialariek eta estatistikariek gogoko duten programazio-lengoaia da, eta munduko zortzigarren hizkuntzarik beldurgarriena da.

SAS Datu-ingeniari lanposturako lanpostu hutsetan ere askoz gutxiagotan aurkitzen da - aldea % 14 da. SAS estatistikak eta datuekin lan egiteko diseinatutako hizkuntza jabeduna da. Puntu interesgarria: emaitzen arabera nire datu-zientzialarientzako lan-eskaintzen inguruko ikerketa, lur asko galdu du azkenaldian β€”beste edozein teknologiak baino gehiagoβ€”.

Datuen ingeniaritzan eta datuen zientzian eskaria

Kontuan izan behar da bi multzoetako lehen hamar postuetatik zortzi berdinak direla. SQL, Python, Spark, AWS, Java, Hadoop, Hive eta Scala lehen hamar postuetan sartu ziren datuen ingeniaritza eta datuen zientzien industrien. Beheko grafikoan datu-ingeniarien enplegatzaileen artean hamabost teknologia ezagunenak ikus ditzakezu, eta horien ondoan datu-zientzialarien hutsune-tasa dago.

Datu-ingeniari lanbidean gehien eskatzen diren trebetasunak

Gomendioak

Datuen ingeniaritzan sartu nahi baduzu, honako teknologia hauek menperatzea gomendatuko dizut; gutxi gorabeherako lehentasunaren arabera zerrendatzen ditut.

Ikasi SQL. PostgreSQL-ra makurtzen ari naiz, kode irekia delako, oso ezaguna komunitatean eta hazkunde fasean dagoelako. Hizkuntza nola erabiltzen ikas dezakezu My Memorable SQL liburutik - bere bertsio pilotua eskuragarri dago Hemen.

Master Python, mailarik gogorrenean ez bada ere. My Memorable Python hasiberrientzat bereziki diseinatuta dago. Helbide honetan eros daiteke Amazon, kopia elektronikoa edo fisikoa, zure aukera, edo deskargatu pdf edo epub formatuan webgune horretan.

Python ezagutzen duzunean, joan pandasera, datuak garbitzeko eta prozesatzeko erabiltzen den Python liburutegira. Python-en idazteko gaitasuna eskatzen duen enpresa batean lan egin nahi baduzu (eta hau da gehiengoa), ziur egon zaitez panda-ren ezagutza lehenespenez hartuko dela. Pandekin lan egiteko sarrera-gida bat amaitzen ari naiz harpidekaleratzeko unea ez galtzeko.

AWS maisua. Datu-ingeniari bihurtu nahi baduzu, ezin duzu hodeiko plataformarik gabe geratu gordelekuan, eta AWS da ezagunena. Ikastaroek asko lagundu zidaten Linux Akademiaikasten ari nintzela datuen ingeniaritza Google Cloud-en, AWSn ere material onak izango dituztela uste dut.

Zerrenda osoa osatu baduzu eta datu-ingeniari gisa enpresaburuen aurrean gehiago hazi nahi baduzu, Apache Spark gehitzea gomendatzen dizut datu handiekin lan egiteko. Datu-zientzialarien lanpostuen inguruan egin dudan ikerketek interesaren beherakada erakutsi duten arren, datu-ingeniarien artean oraindik ia bigarren hutsune guztietan agertzen da.

Bukatzeko

Espero dut datu-ingeniarientzat gehien eskatzen diren teknologien ikuspegi orokorra erabilgarria iruditu izana. Analista-lanak nola dauden galdetzen ari bazara, irakurri nire beste artikulua. Zoriontsu ingeniaritza!

Iturria: www.habr.com

Gehitu iruzkin berria