Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Sipas statistikat 2019, inxhinieri i të dhënave është aktualisht një profesion, kërkesa e të cilit po rritet më shpejt se çdo tjetër. Një inxhinier i të dhënave luan një rol kritik në një organizatë - duke krijuar dhe mirëmbajtur tubacionet dhe bazat e të dhënave që përdoren për të përpunuar, transformuar dhe ruajtur të dhënat. Për çfarë aftësish u duhen para së gjithash përfaqësuesve të këtij profesioni? A është lista e ndryshme nga ajo që kërkohet nga shkencëtarët e të dhënave? Ju do të mësoni për të gjitha këto nga artikulli im.

Kam analizuar vendet e lira të punës për pozicionin e inxhinierit të të dhënave siç janë në janar 2020 për të kuptuar se cilat aftësi teknologjike janë më të njohura. Pastaj i krahasova rezultatet me statistikat për vendet e lira të punës për pozicionin e shkencëtarit të të dhënave - dhe u shfaqën disa dallime interesante.

Pa shumë parathënie, këtu janë dhjetë teknologjitë kryesore që përmenden më shpesh në postimet e punës:

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Përmendja e teknologjive në vendet e lira të punës për pozicionin e inxhinierit të të dhënave në 2020

Le ta kuptojmë.

Përgjegjësitë e një inxhinieri të dhënash

Sot, puna që bëjnë inxhinierët e të dhënave ka një rëndësi të madhe për organizatat - këta janë njerëzit që janë përgjegjës për ruajtjen e informacionit dhe sjelljen e tij në një formë të tillë që punonjësit e tjerë të mund të punojnë me të. Inxhinierët e të dhënave ndërtojnë tubacione për të transmetuar ose grumbulluar të dhëna nga burime të shumta. Tubacionet më pas kryejnë operacione të nxjerrjes, transformimit dhe ngarkimit (me fjalë të tjera, proceset ETL), duke i bërë të dhënat më të përshtatshme për përdorim të mëtejshëm. Pas kësaj, të dhënat u dorëzohen analistëve dhe shkencëtarëve të të dhënave për përpunim më të thellë. Më në fund, të dhënat përfundojnë udhëtimin e tyre në panele, raporte dhe modele të mësimit të makinerive.

Po kërkoja informacion që do të më lejonte të nxjerr një përfundim se cilat teknologji janë më të kërkuara në punën e një inxhinieri të të dhënave për momentin.

metodat

Mblodha informacion nga tre sajte kërkimi pune − Thjesht i punësuar, Me të vërtetë и Përbindësh dhe shikoi se cilat fjalë kyçe haseshin në lidhje me "inxhinierin e të dhënave" në tekstet e vendeve të lira të punës që synonin banorët e SHBA. Për këtë detyrë përdora dy biblioteka Python − kërkesat и Supë e bukur. Ndër fjalë kyçe, unë përfshiva si ato që ishin përfshirë në listën e mëparshme për analizimin e vendeve të lira të punës për pozicionin e shkencëtarit të të dhënave, ashtu edhe ato që i zgjodha manualisht gjatë leximit të ofertave për punë për inxhinierë të dhënash. LinkedIn nuk ishte përfshirë në listën e burimeve, pasi unë u ndalova atje pas përpjekjes sime të fundit për të mbledhur të dhëna.

Për secilën fjalë kyçe, kam llogaritur përqindjen e goditjeve nga numri i përgjithshëm i teksteve në secilën faqe veç e veç dhe më pas kam llogaritur mesataren për të tre burimet.

Gjetjet

Më poshtë janë tridhjetë termat e inxhinierisë së të dhënave teknike me rezultatet më të larta në të tre vendet e punës.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Dhe këtu janë të njëjtët numra, por të paraqitur në formën e tabelës:

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Le të shkojmë me radhë.

Rishikimi i rezultateve

Si SQL ashtu edhe Python shfaqen në më shumë se dy të tretat e vendeve të punës të shqyrtuara. Janë këto dy teknologji që kanë kuptim të studiohen së pari. Piton është një gjuhë programimi shumë e njohur që përdoret për të punuar me të dhëna, krijimin e faqeve të internetit dhe shkrimin e skripteve. SQL qëndron për Structured Query Language; ai përfshin një standard të zbatuar nga një grup gjuhësh dhe përdoret për të marrë të dhëna nga bazat e të dhënave relacionale. Është shfaqur shumë kohë më parë dhe ka dëshmuar se është shumë rezistent.

Shkëndija përmendet në rreth gjysmën e vendeve të lira. Apache Spark është një "motor i unifikuar i analitikës së të dhënave të mëdha me module të integruara për transmetim, SQL, mësimin e makinerive dhe përpunimin e grafikëve". Është veçanërisht i popullarizuar në mesin e atyre që punojnë me baza të të dhënave të mëdha.

AWS shfaqet në afërsisht 45% të postimeve të punës. Është një platformë kompjuterike cloud e prodhuar nga Amazon; ajo ka pjesën më të madhe të tregut midis të gjitha platformave cloud.
Më pas vijnë Java dhe Hadoop - pak më shumë se 40% për vëllain e tyre. Java është një gjuhë e folur gjerësisht, e testuar në betejë që Anketa e zhvilluesve të Stack Overflow 2019 iu dha vendi i dhjetë në mesin e gjuhëve që shkaktojnë tmerr te programuesit. Në të kundërt, Python ishte gjuha e dytë më e dashur. Gjuha Java drejtohet nga Oracle dhe gjithçka që duhet të dini për të mund të kuptohet nga kjo pamje e faqes zyrtare nga janari 2020.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Është si të hipësh në një makinë kohe
Apache Hadoop përdor modelin e programimit MapReduce me grupe serverash për të dhëna të mëdha. Tani ky model po braktiset gjithnjë e më shumë.

Më pas shohim Hive, Scala, Kafka dhe NoSQL - secila prej këtyre teknologjive përmendet në një të katërtën e vendeve vakante të paraqitura. Apache Hive është një softuer i depove të të dhënave që "e bën të lehtë leximin, shkrimin dhe menaxhimin e grupeve të të dhënave të mëdha që banojnë në dyqane të shpërndara duke përdorur SQL". Scala – një gjuhë programimi që përdoret në mënyrë aktive kur punoni me të dhëna të mëdha. Në veçanti, Spark u krijua në Scala. Në renditjen e përmendur tashmë të gjuhëve të frikshme, Scala renditet e njëmbëdhjeta. Apache Kafka – një platformë e shpërndarë për përpunimin e mesazheve të transmetimit. Shumë popullor si një mjet për transmetimin e të dhënave.

Bazat e të dhënave NoSQL kontrastojnë veten me SQL. Ato ndryshojnë në atë që janë jo-relacionale, të pastrukturuara dhe të shkallëzueshme horizontalisht. NoSQL ka fituar njëfarë popullariteti, por mania për qasjen, madje deri në pikën e profecive se do të zëvendësojë SQL si paradigmë dominuese e ruajtjes, duket se ka mbaruar.

Krahasimi me termat në vendet e lira të shkencëtarëve të të dhënave

Këtu janë tridhjetë terma teknologjikë më të zakonshëm në mesin e punëdhënësve të shkencës së të dhënave. E mora këtë listë në të njëjtën mënyrë siç përshkruhet më sipër për inxhinierinë e të dhënave.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Përmend teknologjinë në vendet e lira për pozicionin e shkencëtarit të të dhënave në 2020

Nëse flasim për numrin total, krahasuar me rekrutimin e konsideruar më parë, ka pasur 28% më shumë vende të lira pune (12 kundrejt 013). Le të shohim se cilat teknologji janë më pak të zakonshme në vendet e lira të punës për shkencëtarët e të dhënave sesa për inxhinierët e të dhënave.

Më popullor në inxhinierinë e të dhënave

Grafiku më poshtë tregon fjalë kyçe me një ndryshim mesatar prej më të madh se 10% ose më pak se -10%.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Dallimet më të mëdha në frekuencën e fjalëve kyçe midis inxhinierit të të dhënave dhe shkencëtarit të të dhënave

AWS tregon rritjen më të ndjeshme: në inxhinierinë e të dhënave shfaqet 25% më rregullisht sesa në shkencën e të dhënave (përafërsisht 45% dhe 20% të numrit total të vendeve të lira, respektivisht). Dallimi është i dukshëm!

Këtu janë të njëjtat të dhëna në një prezantim paksa të ndryshëm - në grafik, rezultatet për të njëjtën fjalë kyçe në vendet vakante për pozicionin e inxhinierit të të dhënave dhe shkencëtarit të të dhënave janë të vendosura krah për krah.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Dallimet më të mëdha në frekuencën e fjalëve kyçe midis inxhinierit të të dhënave dhe shkencëtarit të të dhënave

Kërcimi tjetër më i madh që vura re ishte në Spark - një inxhinier i të dhënave shpesh duhet të punojë me të dhëna të mëdha. Kafka gjithashtu u rrit me 20%, pra gati katër herë krahasuar me rezultatin për vendet e lira të shkencëtarëve të të dhënave. Transferimi i të dhënave është një nga përgjegjësitë kryesore të një inxhinieri të të dhënave. Së fundi, numri i përmendjeve ishte 15% më i lartë në fushën e inxhinierisë së të dhënave për Java, NoSQL, Redshift, SQL dhe Hadoop.

Më pak popullor në inxhinierinë e të dhënave

Tani le të shohim se cilat teknologji janë më pak të njohura në vendet e lira të inxhinierëve të të dhënave.
Rënia më e madhe në krahasim me sektorin e shkencës së të dhënave ka ndodhur në R: atje ai u shfaq në afërsisht 56% të vendeve të lira, këtu - vetëm në 17%. mbresëlënëse. R është një gjuhë programimi që favorizohet nga shkencëtarët dhe statisticienët dhe është gjuha e tetë më e frikshme në botë.

SAS gjendet gjithashtu në vendet e lira për pozicionin e inxhinierit të të dhënave dukshëm më rrallë - diferenca është 14%. SAS është një gjuhë pronësore e krijuar për të punuar me statistika dhe të dhëna. Pika interesante: duke gjykuar nga rezultatet Hulumtimi im në vendet e punës për shkencëtarët e të dhënave, ajo ka humbur shumë terren kohët e fundit—më shumë se çdo teknologji tjetër.

Në kërkesë si në inxhinierinë e të dhënave ashtu edhe në shkencën e të dhënave

Duhet theksuar se tetë nga dhjetë pozicionet e para në të dyja setet janë të njëjta. SQL, Python, Spark, AWS, Java, Hadoop, Hive dhe Scala u renditën në dhjetëshen e parë si për industrinë e inxhinierisë së të dhënave, ashtu edhe për industrinë e shkencës së të dhënave. Në grafikun e mëposhtëm mund të shihni pesëmbëdhjetë teknologjitë më të njohura në mesin e punëdhënësve të inxhinierëve të të dhënave, dhe pranë tyre është treguesi i tyre për vendet e lira të punës për shkencëtarët e të dhënave.

Aftësitë më të kërkuara në profesionin e inxhinierit të të dhënave

Rekomandime

Nëse dëshironi të futeni në inxhinierinë e të dhënave, unë do t'ju këshilloja të zotëroni teknologjitë e mëposhtme - unë i rendis ato sipas prioritetit të përafërt.

Mësoni SQL. Unë jam i prirur drejt PostgreSQL sepse është me burim të hapur, shumë popullor në komunitet dhe është në një fazë rritjeje. Mund të mësoni se si ta përdorni gjuhën nga libri My Memorable SQL - versioni i tij pilot është i disponueshëm këtu.

Master Python, edhe nëse jo në nivelin më të fortë. My Memorable Python është krijuar posaçërisht për fillestarët. Mund të blihet në Amazona, kopje elektronike ose fizike, sipas zgjedhjes suaj, ose shkarkojeni në format pdf ose epub në këtë faqe.

Pasi të jeni njohur me Python, kaloni te pandat, një bibliotekë Python që përdoret për pastrimin dhe përpunimin e të dhënave. Nëse synoni të punoni në një kompani që kërkon aftësinë për të shkruar në Python (dhe kjo është pjesa më e madhe e tyre), mund të jeni i sigurt se njohuritë për pandat do të supozohen si parazgjedhje. Unë jam duke përfunduar një udhëzues hyrës për të punuar me pandat - mundeni pajtohempër të mos humbur momentin e lirimit.

Master AWS. Nëse doni të bëheni një inxhinier i të dhënave, nuk mund të bëni pa një platformë cloud në ruajtje, dhe AWS është më i popullarizuari prej tyre. Më ndihmuan shumë kurset Akademia Linuxkur isha duke studiuar inxhinieri i të dhënave në Google Cloud, Unë mendoj se ata gjithashtu do të kenë materiale të mira në AWS.

Nëse e keni plotësuar tashmë të gjithë këtë listë dhe dëshironi të rriteni më tej në sytë e punëdhënësve si inxhinier i të dhënave, unë sugjeroj të shtoni Apache Spark për të punuar me të dhëna të mëdha. Edhe pse kërkimi im për vendet e lira të shkencëtarëve të të dhënave tregoi një rënie të interesit, midis inxhinierëve të të dhënave ai ende shfaqet pothuajse në çdo sekondë të lirë pune.

Në fund

Shpresoj që ta keni gjetur të dobishme këtë përmbledhje të teknologjive më të kërkuara për inxhinierët e të dhënave. Nëse po pyesni se si po shkojnë punët e analistëve, lexoni artikulli im tjetër. Gëzuar inxhinierinë!

Burimi: www.habr.com

Shto një koment