Arabera
Datu-ingeniari lanposturako lanpostu hutsak aztertu nituen 2020ko urtarrilean dauden bezala, teknologia-gaitasun ezagunenak zein diren ulertzeko. Ondoren, emaitzak datu-zientzialari lanposturako lanpostu hutsen estatistikekin alderatu nituen, eta desberdintasun interesgarri batzuk agertu ziren.
Hitzaurre handirik gabe, hona hemen lan-eskaintzetan gehien aipatzen diren hamar teknologia nagusiak:
2020an datu ingeniari lanposturako lanpostu hutsetan dauden teknologien aipamena
Datu-ingeniari baten erantzukizunak
Gaur egun, datu-ingeniariek egiten duten lana garrantzi handia du erakundeentzat; hauek dira informazioa gordetzeaz eta beste langile batzuekin lan egin dezaketen forma eramateaz arduratzen diren pertsonak. Datu-ingeniariek kanalizazioak eraikitzen dituzte hainbat iturritatik datuak igortzeko edo loteatzeko. Ondoren, kanalizazioek erauzketa, eraldaketa eta karga eragiketak egiten dituzte (bestela esanda, ETL prozesuak), datuak gehiago erabiltzeko egokiagoak bihurtuz. Horren ostean, datuak analistei eta datu-zientzialariei bidaltzen zaizkie prozesatzeko sakonago egiteko. Azkenik, datuek aginte-paneletan, txostenetan eta ikaskuntza automatikoko ereduetan amaitzen dute.
Une honetan datu-ingeniari baten lanean gehien eskatzen diren teknologiak zeintzuk diren ateratzeko aukera emango zidan informazioa bilatzen ari nintzen.
metodoak
Lana bilatzeko hiru gunetako informazioa bildu nuen β
Gako-hitz bakoitzerako, gune bakoitzeko testu-kopuru osoaren arrakasta-ehunekoa kalkulatu nuen bereizita, eta, ondoren, hiru iturrien batez bestekoa kalkulatu nuen.
Findings
Jarraian, hiru lan guneetan puntuaziorik altuena duten datu teknikoen ingeniaritza terminoak daude.
Eta hona hemen zenbaki berdinak, baina taula moduan aurkeztuta:
Goazen ordenan.
Emaitzen berrikuspena
SQL eta Python berrikusitako lan-eskaintzen bi heren baino gehiagotan agertzen dira. Bi teknologia hauek dira lehenengo ikasketak zentzua dutenak.
Spark aipatzen da lanpostu hutsen erdietan.
AWS lan-eskaintzen %45ean agertzen da gutxi gorabehera. Amazonek fabrikatutako cloud computing plataforma bat da; hodeiko plataforma guztien artean merkatu kuota handiena du.
Ondoren Java eta Hadoop datoz -% 40 baino apur bat bere anaiarentzat.
Denboraren makina batean ibiltzea bezalakoa da
Ondoren, Hive, Scala, Kafka eta NoSQL ikusiko ditugu - teknologia horietako bakoitza aurkeztutako lanpostu hutsen laurden batean aipatzen da. Apache Hive datu biltegiko software bat da, "SQL erabiliz banatutako dendetan bizi diren datu multzo handiak irakurtzea, idaztea eta kudeatzea errazten duena".
Data scientist lanpostu hutsetako terminoekin alderatzea
Hona hemen hogeita hamar teknologia-termino ohikoenak datu-zientzietako enpresaburuen artean. Zerrenda hau datuen ingeniaritzarako goian deskribatutako modu berean lortu nuen.
Teknologiaren aipamenak 2020an datu-zientzialari lanposturako lanpostu hutsetan
Guztizko kopuruari buruz hitz egiten badugu, lehen kontuan hartutako kontratazioarekin alderatuta, %28 plaza gehiago zeuden (12 versus 013). Ikus dezagun datu-zientzialarientzako lanpostu hutsetan zeintzuk diren hain ohikoak datu-ingeniarientzako baino.
Datuen ingeniaritzan ezagunagoa
Beheko grafikoan gako-hitzak erakusten dira, batez beste, %10etik gorako edo -10etik beherako aldea duten.
Gako-hitzen maiztasunaren alde handiena datu-ingeniariaren eta datu-zientzialariaren artean
AWS-k erakusten du igoerarik esanguratsuena: datuen ingeniaritzan datuen zientzian baino % 25 erregularagoa da (gutxi gorabehera, lanpostu huts guztien % 45 eta % 20, hurrenez hurren). Aldea nabaria da!
Hona hemen datu berdinak aurkezpen apur bat ezberdin batean - grafikoan, datu-ingeniari eta datu-zientzialari lanpostu hutsetako gako-hitz beraren emaitzak elkarren ondoan daude.
Gako-hitzen maiztasunaren alde handiena datu-ingeniariaren eta datu-zientzialariaren artean
Ohartu dudan hurrengo jauzi handiena Spark-en izan zen - datu-ingeniari batek datu handiekin lan egin behar izaten du askotan.
Ez da hain ezaguna datuen ingeniaritzan
Orain ikus dezagun zein teknologiak ez diren hain ezagunak datu-ingeniarien lanpostu hutsetan.
Jaitsierarik handiena datu zientzien sektorearekin alderatuta gertatu da
Datuen ingeniaritzan eta datuen zientzian eskaria
Kontuan izan behar da bi multzoetako lehen hamar postuetatik zortzi berdinak direla. SQL, Python, Spark, AWS, Java, Hadoop, Hive eta Scala lehen hamar postuetan sartu ziren datuen ingeniaritza eta datuen zientzien industrien. Beheko grafikoan datu-ingeniarien enplegatzaileen artean hamabost teknologia ezagunenak ikus ditzakezu, eta horien ondoan datu-zientzialarien hutsune-tasa dago.
Gomendioak
Datuen ingeniaritzan sartu nahi baduzu, honako teknologia hauek menperatzea gomendatuko dizut; gutxi gorabeherako lehentasunaren arabera zerrendatzen ditut.
Ikasi SQL. PostgreSQL-ra makurtzen ari naiz, kode irekia delako, oso ezaguna komunitatean eta hazkunde fasean dagoelako. Hizkuntza nola erabiltzen ikas dezakezu My Memorable SQL liburutik - bere bertsio pilotua eskuragarri dago
Master Python, mailarik gogorrenean ez bada ere. My Memorable Python hasiberrientzat bereziki diseinatuta dago. Helbide honetan eros daiteke
Python ezagutzen duzunean, joan pandasera, datuak garbitzeko eta prozesatzeko erabiltzen den Python liburutegira. Python-en idazteko gaitasuna eskatzen duen enpresa batean lan egin nahi baduzu (eta hau da gehiengoa), ziur egon zaitez panda-ren ezagutza lehenespenez hartuko dela. Pandekin lan egiteko sarrera-gida bat amaitzen ari naiz
AWS maisua. Datu-ingeniari bihurtu nahi baduzu, ezin duzu hodeiko plataformarik gabe geratu gordelekuan, eta AWS da ezagunena. Ikastaroek asko lagundu zidaten
Zerrenda osoa osatu baduzu eta datu-ingeniari gisa enpresaburuen aurrean gehiago hazi nahi baduzu, Apache Spark gehitzea gomendatzen dizut datu handiekin lan egiteko. Datu-zientzialarien lanpostuen inguruan egin dudan ikerketek interesaren beherakada erakutsi duten arren, datu-ingeniarien artean oraindik ia bigarren hutsune guztietan agertzen da.
Bukatzeko
Espero dut datu-ingeniarientzat gehien eskatzen diren teknologien ikuspegi orokorra erabilgarria iruditu izana. Analista-lanak nola dauden galdetzen ari bazara, irakurri
Iturria: www.habr.com