La plej postulataj kapabloj en la profesio de datuma inĝeniero

Laŭ statistiko 2019, datuma inĝeniero estas nuntempe profesio, kies postulo kreskas pli rapide ol iu ajn alia. Datuma inĝeniero ludas kritikan rolon en organizo - kreante kaj konservante duktoj kaj datumbazoj, kiuj estas uzataj por prilabori, transformi kaj stoki datumojn. Kiajn kapablojn bezonas antaŭ ĉio reprezentantoj de ĉi tiu profesio? Ĉu la listo diferencas de tio, kion oni postulas de datumsciencistoj? Pri ĉio ĉi vi lernos el mia artikolo.

Mi analizis vakantaĵojn por la posteno de datuma inĝeniero kiel ili estas en januaro 2020 por kompreni, kiuj teknologiaj kapabloj estas plej popularaj. Poste mi komparis la rezultojn kun statistiko pri vakantaĵoj por la posteno de datuma sciencisto - kaj aperis kelkaj interesaj diferencoj.

Sen multe da preambulo, jen la plej bonaj dek teknologioj, kiuj plej ofte estas menciitaj en laborpostenoj:

La plej postulataj kapabloj en la profesio de datuma inĝeniero

Mencio de teknologioj en vakantaĵoj por la posteno de datuma inĝeniero en 2020

Ni eltrovu ĝin.

Respondecoj de datuma inĝeniero

Hodiaŭ, la laboro, kiun faras datumaj inĝenieroj, estas tre grava por organizoj - ĉi tiuj estas la homoj, kiuj respondecas pri stokado de informoj kaj alporti ĝin en tian formon, ke aliaj dungitoj povas labori kun ĝi. Datumaj inĝenieroj konstruas duktojn por flui aŭ grupigi datumojn de pluraj fontoj. Duktoj tiam elfaras ekstraktajn, transformojn kaj ŝarĝajn operaciojn (alivorte, ETL-procezoj), igante la datumojn pli taŭgaj por plua uzo. Post ĉi tio, la datumoj estas senditaj al analizistoj kaj datumsciencistoj por pli profunda prilaborado. Fine, la datumoj finas sian vojaĝon en paneloj, raportoj kaj maŝinlernado-modeloj.

Mi serĉis informojn, kiuj permesus al mi tiri konkludon pri kiuj teknologioj estas la plej postulataj en la laboro de datuma inĝeniero nuntempe.

Metodoj

Mi kolektis informojn de tri laborserĉaj retejoj − Simple, Fakte и monster kaj rigardis kiajn ŝlosilvortojn renkontis kune kun "datuma inĝeniero" en la tekstoj de vakantaĵoj celitaj al usonaj loĝantoj. Por ĉi tiu tasko mi uzis du Python-bibliotekojn − petoj и Bela Supo. Inter la ŝlosilvortoj, mi inkludis ambaŭ tiujn, kiuj estis inkluzivitaj en la antaŭa listo por analizi vakantaĵojn por la posteno de datuma sciencisto, kaj tiujn, kiujn mi permane elektis dum legado de laborproponoj por datumaj inĝenieroj. LinkedIn ne estis inkluzivita en la listo de fontoj, ĉar mi estis malpermesita tie post mia lasta provo kolekti datumojn.

Por ĉiu ŝlosilvorto, mi kalkulis la procenton de trafoj de la tuta nombro de tekstoj en ĉiu retejo aparte, kaj poste kalkulis la mezumon por la tri fontoj.

Результаты

Malsupre estas la tridek terminoj pri teknika datuma inĝenierado kun la plej altaj poentoj en ĉiuj tri laborlokoj.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

Kaj jen la samaj nombroj, sed prezentitaj en tabelformo:

La plej postulataj kapabloj en la profesio de datuma inĝeniero

Ni iru en ordo.

Revizio de rezultoj

Kaj SQL kaj Python aperas en pli ol du trionoj de la laborpostenoj reviziitaj. Estas ĉi tiuj du teknologioj kiuj havas sencon studi unue. python estas tre populara programlingvo uzata por labori kun datumoj, krei retejojn kaj verki skriptojn. SQL signifas Structured Query Language; ĝi implikas normon efektivigitan de grupo de lingvoj kaj estas uzata por preni datumojn el interrilataj datumbazoj. Ĝi aperis antaŭ longe kaj pruvis sin esti tre rezistema.

Spark estas menciita en proksimume duono de la vakantaĵoj. Apache Spark estas "unuigita granda datuma analiza motoro kun enkonstruitaj moduloj por fluado, SQL, maŝinlernado kaj grafika prilaborado." Ĝi estas precipe populara inter tiuj, kiuj laboras kun grandaj datumbazoj.

AWS aperas en proksimume 45% de laborpostenoj. Ĝi estas nuba komputila platformo fabrikita de Amazon; ĝi havas la plej grandan merkatparton inter ĉiuj nubaj platformoj.
Poste venas Java kaj Hadoop - iom pli ol 40% por ilia frato. java estas vaste parolata, batalprovita lingvo kiu 2019 Stack Overflow Enketo pri Programistoj ricevis la dekan lokon inter la lingvoj, kiuj kaŭzas teruron inter programistoj. Kontraste, Python estis la dua plej amata lingvo. La Java lingvo estas administrata de Oracle, kaj ĉio, kion vi bezonas scii pri ĝi, povas esti komprenita de ĉi tiu ekrankopio de la oficiala paĝo de januaro 2020.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

Estas kiel rajdi en tempomaŝino
Apache Hadoop uzas la programmodelon MapReduce kun servilaj grupoj por grandaj datumoj. Nun ĉi tiu modelo estas ĉiam pli forlasita.

Tiam ni vidas Hive, Scala, Kafka kaj NoSQL - ĉiu el ĉi tiuj teknologioj estas menciita en kvarono de la senditaj vakantaĵoj. Apache Hive estas datuma stokprogramaro, kiu "faciligas legi, skribi kaj administri grandajn datumarojn loĝantajn en distribuitaj vendejoj uzante SQL." Scala – programlingvo, kiu estas aktive uzata kiam oni laboras kun grandaj datumoj. Aparte, Spark estis kreita en Scala. En la jam menciita rangotabelo de timitaj lingvoj, Scala okupas la dekunuan lokon. Apache Kafka - distribuita platformo por prilabori fluajn mesaĝojn. Tre populara kiel rimedo de fluado de datumoj.

NoSQL-datumbazoj kontrasti sin kun SQL. Ili malsamas en tio ke ili estas ne-rilataj, nestrukturitaj, kaj horizontale skaleblaj. NoSQL akiris iom da populareco, sed la furoro por la aliro, eĉ ĝis la punkto de profetaĵoj, ke ĝi anstataŭigos SQL kiel la dominan konservadparadigmon, ŝajnas esti finita.

Komparo kun terminoj en datumaj vakantaĵoj

Jen tridek teknologiaj terminoj plej oftaj inter datumaj dungantoj. Mi akiris ĉi tiun liston en la sama maniero kiel priskribite supre por datuma inĝenierado.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

Mencioj de teknologio en vakantaĵoj por la posteno de datuma sciencisto en 2020

Se ni parolas pri la tuta nombro, kompare kun la antaŭe pripensita varbado, estis 28% pli da vakantaĵoj (12 013 kontraŭ 9396 XNUMX). Ni vidu, kiuj teknologioj estas malpli oftaj en vakantaĵoj por datumsciencistoj ol por datumaj inĝenieroj.

Pli populara en datuma inĝenierado

La suba grafikaĵo montras ŝlosilvortojn kun averaĝa diferenco de pli granda ol 10% aŭ malpli ol -10%.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

La plej grandaj diferencoj en ŝlosilvorto-frekvenco inter datuma inĝeniero kaj datuma sciencisto

AWS montras la plej signifan pliiĝon: en datuma inĝenierado ĝi aperas 25% pli regule ol en datumscienco (proksimume 45% kaj 20% de la totala nombro de vakantaĵoj, respektive). La diferenco estas videbla!

Jen la samaj datumoj en iomete malsama prezento - en la grafikaĵo, la rezultoj por la sama ŝlosilvorto en la vakantaĵoj por la posteno de datuma inĝeniero kaj datuma sciencisto troviĝas unu apud la alia.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

La plej grandaj diferencoj en ŝlosilvorto-frekvenco inter datuma inĝeniero kaj datuma sciencisto

La sekva plej granda salto kiun mi notis estis en Spark - datuma inĝeniero ofte devas labori kun grandaj datumoj. Kafka ankaŭ pliiĝis je 20%, tio estas preskaŭ kvaroble kompare kun la rezulto por vakantaĵoj pri datuma sciencisto. Transdono de datumoj estas unu el la ĉefaj respondecoj de datuma inĝeniero. Fine, la nombro da mencioj estis 15% pli alta en la kampo de datuma inĝenierado por Java, NoSQL, Redshift, SQL kaj Hadoop.

Malpli populara en datuma inĝenierado

Nun ni vidu, kiuj teknologioj estas malpli popularaj en vakantaĵoj pri datuma inĝeniero.
La plej akra malkresko kompare kun la datuma scienca sektoro okazis en R: tie li aperis en proksimume 56% de vakantaĵoj, ĉi tie - nur en 17%. Impresa. R estas programlingvo kiu estas favorata de sciencistoj kaj statistikistoj, kaj estas la oka plej timita lingvo en la mondo.

SAS troviĝas ankaŭ en vakantaĵoj por la posteno de datuma inĝeniero signife malpli ofte - la diferenco estas 14%. SAS estas propra lingvo dizajnita por labori kun statistikoj kaj datumoj. Interesa punkto: juĝi laŭ la rezultoj mia esplorado pri laborpostenoj por datumaj sciencistoj, ĝi perdis multe da grundo lastatempe—pli ol iu ajn alia teknologio.

En postulo en kaj datuma inĝenierado kaj datumscienco

Oni devas rimarki, ke ok el la unuaj dek pozicioj en ambaŭ aroj estas samaj. SQL, Python, Spark, AWS, Java, Hadoop, Hive kaj Scala igis ĝin en la supraj dek por la datuma inĝenierado kaj datuma scienca industrioj. En la suba grafiko vi povas vidi la dek kvin plej popularajn teknologiojn inter datumaj inĝenieraj dungantoj, kaj apud ili estas ilia vaka indico por datumaj sciencistoj.

La plej postulataj kapabloj en la profesio de datuma inĝeniero

rekomendoj

Se vi volas eniri en datuma inĝenierado, mi konsilus al vi majstri la jenajn teknologiojn - mi listigas ilin en ordo de proksimuma prioritato.

Lernu SQL. Mi klinas al PostgreSQL ĉar ĝi estas malferma fonto, tre populara en la komunumo, kaj estas en kreskfazo. Vi povas lerni kiel uzi la lingvon de la libro My Memorable SQL - ĝia pilotversio haveblas tie.

Majstro Python, eĉ se ne ĉe la plej ĝisosta nivelo. Mia Memorinda Python estas desegnita specife por komencantoj. Ĝi povas esti aĉetita ĉe amazono, elektronika aŭ fizika kopio, laŭ via elekto, aŭ elŝutu en formato pdf aŭ epub en ĉi tiu retejo.

Post kiam vi konas Python, transiru al pandoj, Python-biblioteko, kiu estas uzata por purigado kaj prilaborado de datumoj. Se vi celas labori en firmao kiu postulas la kapablon skribi en Python (kaj ĉi tio estas la plimulto de ili), vi povas esti certa, ke scio pri pandoj estos supozita defaŭlte. Mi nun finas enkondukan gvidilon por labori kun pandoj - vi povas abonipor ne maltrafi la momenton de liberigo.

Majstro AWS. Se vi volas fariĝi datuma inĝeniero, vi ne povas malhavi nuban platformon en la stash, kaj AWS estas la plej populara el ili. La kursoj multe helpis min Linuksa Akademiokiam mi studis datuma inĝenierado en Google Cloud, Mi pensas, ke ili ankaŭ havos bonajn materialojn sur AWS.

Se vi jam kompletigis ĉi tiun tutan liston kaj volas plu kreski en la okuloj de dungantoj kiel datuma inĝeniero, mi sugestas aldoni Apache Spark por labori kun grandaj datumoj. Kvankam mia esplorado pri vakantaĵoj pri datuma sciencisto montris malpliiĝon de intereso, inter datumaj inĝenieroj ĝi ankoraŭ aperas en preskaŭ ĉiu dua vakantaĵo.

En la fino

Mi esperas, ke vi trovis ĉi tiun superrigardon de la plej postulataj teknologioj por datumaj inĝenieroj utila. Se vi scivolas, kiel fartas analizistoj, legu mia alia artikolo. Feliĉa inĝenierado!

fonto: www.habr.com

Aldoni komenton