Laŭ
Mi analizis vakantaĵojn por la posteno de datuma inĝeniero kiel ili estas en januaro 2020 por kompreni, kiuj teknologiaj kapabloj estas plej popularaj. Poste mi komparis la rezultojn kun statistiko pri vakantaĵoj por la posteno de datuma sciencisto - kaj aperis kelkaj interesaj diferencoj.
Sen multe da preambulo, jen la plej bonaj dek teknologioj, kiuj plej ofte estas menciitaj en laborpostenoj:
Mencio de teknologioj en vakantaĵoj por la posteno de datuma inĝeniero en 2020
Respondecoj de datuma inĝeniero
Hodiaŭ, la laboro, kiun faras datumaj inĝenieroj, estas tre grava por organizoj - ĉi tiuj estas la homoj, kiuj respondecas pri stokado de informoj kaj alporti ĝin en tian formon, ke aliaj dungitoj povas labori kun ĝi. Datumaj inĝenieroj konstruas duktojn por flui aŭ grupigi datumojn de pluraj fontoj. Duktoj tiam elfaras ekstraktajn, transformojn kaj ŝarĝajn operaciojn (alivorte, ETL-procezoj), igante la datumojn pli taŭgaj por plua uzo. Post ĉi tio, la datumoj estas senditaj al analizistoj kaj datumsciencistoj por pli profunda prilaborado. Fine, la datumoj finas sian vojaĝon en paneloj, raportoj kaj maŝinlernado-modeloj.
Mi serĉis informojn, kiuj permesus al mi tiri konkludon pri kiuj teknologioj estas la plej postulataj en la laboro de datuma inĝeniero nuntempe.
Metodoj
Mi kolektis informojn de tri laborserĉaj retejoj −
Por ĉiu ŝlosilvorto, mi kalkulis la procenton de trafoj de la tuta nombro de tekstoj en ĉiu retejo aparte, kaj poste kalkulis la mezumon por la tri fontoj.
Результаты
Malsupre estas la tridek terminoj pri teknika datuma inĝenierado kun la plej altaj poentoj en ĉiuj tri laborlokoj.
Kaj jen la samaj nombroj, sed prezentitaj en tabelformo:
Ni iru en ordo.
Revizio de rezultoj
Kaj SQL kaj Python aperas en pli ol du trionoj de la laborpostenoj reviziitaj. Estas ĉi tiuj du teknologioj kiuj havas sencon studi unue.
Spark estas menciita en proksimume duono de la vakantaĵoj.
AWS aperas en proksimume 45% de laborpostenoj. Ĝi estas nuba komputila platformo fabrikita de Amazon; ĝi havas la plej grandan merkatparton inter ĉiuj nubaj platformoj.
Poste venas Java kaj Hadoop - iom pli ol 40% por ilia frato.
Estas kiel rajdi en tempomaŝino
Tiam ni vidas Hive, Scala, Kafka kaj NoSQL - ĉiu el ĉi tiuj teknologioj estas menciita en kvarono de la senditaj vakantaĵoj. Apache Hive estas datuma stokprogramaro, kiu "faciligas legi, skribi kaj administri grandajn datumarojn loĝantajn en distribuitaj vendejoj uzante SQL."
Komparo kun terminoj en datumaj vakantaĵoj
Jen tridek teknologiaj terminoj plej oftaj inter datumaj dungantoj. Mi akiris ĉi tiun liston en la sama maniero kiel priskribite supre por datuma inĝenierado.
Mencioj de teknologio en vakantaĵoj por la posteno de datuma sciencisto en 2020
Se ni parolas pri la tuta nombro, kompare kun la antaŭe pripensita varbado, estis 28% pli da vakantaĵoj (12 013 kontraŭ 9396 XNUMX). Ni vidu, kiuj teknologioj estas malpli oftaj en vakantaĵoj por datumsciencistoj ol por datumaj inĝenieroj.
Pli populara en datuma inĝenierado
La suba grafikaĵo montras ŝlosilvortojn kun averaĝa diferenco de pli granda ol 10% aŭ malpli ol -10%.
La plej grandaj diferencoj en ŝlosilvorto-frekvenco inter datuma inĝeniero kaj datuma sciencisto
AWS montras la plej signifan pliiĝon: en datuma inĝenierado ĝi aperas 25% pli regule ol en datumscienco (proksimume 45% kaj 20% de la totala nombro de vakantaĵoj, respektive). La diferenco estas videbla!
Jen la samaj datumoj en iomete malsama prezento - en la grafikaĵo, la rezultoj por la sama ŝlosilvorto en la vakantaĵoj por la posteno de datuma inĝeniero kaj datuma sciencisto troviĝas unu apud la alia.
La plej grandaj diferencoj en ŝlosilvorto-frekvenco inter datuma inĝeniero kaj datuma sciencisto
La sekva plej granda salto kiun mi notis estis en Spark - datuma inĝeniero ofte devas labori kun grandaj datumoj.
Malpli populara en datuma inĝenierado
Nun ni vidu, kiuj teknologioj estas malpli popularaj en vakantaĵoj pri datuma inĝeniero.
La plej akra malkresko kompare kun la datuma scienca sektoro okazis en
En postulo en kaj datuma inĝenierado kaj datumscienco
Oni devas rimarki, ke ok el la unuaj dek pozicioj en ambaŭ aroj estas samaj. SQL, Python, Spark, AWS, Java, Hadoop, Hive kaj Scala igis ĝin en la supraj dek por la datuma inĝenierado kaj datuma scienca industrioj. En la suba grafiko vi povas vidi la dek kvin plej popularajn teknologiojn inter datumaj inĝenieraj dungantoj, kaj apud ili estas ilia vaka indico por datumaj sciencistoj.
rekomendoj
Se vi volas eniri en datuma inĝenierado, mi konsilus al vi majstri la jenajn teknologiojn - mi listigas ilin en ordo de proksimuma prioritato.
Lernu SQL. Mi klinas al PostgreSQL ĉar ĝi estas malferma fonto, tre populara en la komunumo, kaj estas en kreskfazo. Vi povas lerni kiel uzi la lingvon de la libro My Memorable SQL - ĝia pilotversio haveblas
Majstro Python, eĉ se ne ĉe la plej ĝisosta nivelo. Mia Memorinda Python estas desegnita specife por komencantoj. Ĝi povas esti aĉetita ĉe
Post kiam vi konas Python, transiru al pandoj, Python-biblioteko, kiu estas uzata por purigado kaj prilaborado de datumoj. Se vi celas labori en firmao kiu postulas la kapablon skribi en Python (kaj ĉi tio estas la plimulto de ili), vi povas esti certa, ke scio pri pandoj estos supozita defaŭlte. Mi nun finas enkondukan gvidilon por labori kun pandoj - vi povas
Majstro AWS. Se vi volas fariĝi datuma inĝeniero, vi ne povas malhavi nuban platformon en la stash, kaj AWS estas la plej populara el ili. La kursoj multe helpis min
Se vi jam kompletigis ĉi tiun tutan liston kaj volas plu kreski en la okuloj de dungantoj kiel datuma inĝeniero, mi sugestas aldoni Apache Spark por labori kun grandaj datumoj. Kvankam mia esplorado pri vakantaĵoj pri datuma sciencisto montris malpliiĝon de intereso, inter datumaj inĝenieroj ĝi ankoraŭ aperas en preskaŭ ĉiu dua vakantaĵo.
En la fino
Mi esperas, ke vi trovis ĉi tiun superrigardon de la plej postulataj teknologioj por datumaj inĝenieroj utila. Se vi scivolas, kiel fartas analizistoj, legu
fonto: www.habr.com